-
站点可靠性工程SRE的完美实践
所属栏目:[系统] 日期:2021-10-29 热度:163
如果管理者计划在组织内部或项目中采用SRE文化,那么需要了解如何更好地培训其SRE团队并遵循优秀实践。什么是站点可靠性工程(SRE)?站点可靠性工程(SRE)这一概念起源于谷歌公司,SRE是一种IT运营方法,与DevOps密切相关。SRE团队使用该软件来管理系统、解决[详细]
-
一文弄懂pod Evicted的状态究竟是何人所作
所属栏目:[系统] 日期:2021-10-29 热度:132
背景今天发现好多pod的状态都是Evicted,然后我没有监控的权限,本来想看看grafana上监控图是否出现了特殊情况,无奈没权限看。因为我发现pod出现大量的Evicted状态的时候,查看pod所在的node节点,距离当时发生Evicted的时间已经是7小时之久了。因此可能会[详细]
-
如何才能不被Kubernetes按在地上摩擦?
所属栏目:[系统] 日期:2021-10-29 热度:82
Kubernetes已经成为行业标准,并且也成为了运维标配,现在出去面试,如果哪个公司没有注明需要Kubernetes技能(国企除外),那么这个公司你就不要考虑了(钱给的实在多除外^_^)。Kubernetes虽然成为了标准,但是不同的运维在实施的时候,或者说不同的公司在使[详细]
-
怎样在Azure DevOps中构建CI/CD管道
所属栏目:[系统] 日期:2021-10-29 热度:105
由Microsoft Azure提供的Azure DevOps是自动化CI/CD流程领域的领先工具。在自动化构建和代码项目中,开发人员可以使用Azure管道将持续集成(CI)和持续交付(CD)相结合,通过一致性的测试,将构建好的代码发送至目标环境。在本文中,我们将共同研究如何配置Azu[详细]
-
Kafka运维你是真的懂数据迁移吗?
所属栏目:[系统] 日期:2021-10-29 热度:119
kafka运维】副本扩缩容、数据迁移、副本重分配、副本跨路径迁移脚本参数参数 描述 例子 --zookeeper 连接zk --zookeeper localhost:2181, localhost:2182 --topics-to-move-json-file 指定json文件,文件内容为topic配置 --topics-to-move-json-file config/[详细]
-
2021年完美的五大DevOps监控工具
所属栏目:[系统] 日期:2021-10-29 热度:121
DevOps集文化理念、技术实践与工具于一身,可以提高组织快速交付应用程序和服务的能力,提高产品的质量和成本效益,能够帮助企业更快速地发展和改进产品,同时DevOps使企业在激烈的市场竞争中能够取得优势。然而对于实施传统基础设施管理和软件开发流程的企[详细]
-
记一次 K8S HostPort 引起的服务故障排错指南
所属栏目:[系统] 日期:2021-10-29 热度:114
最近排查了一个 kubernetes 中使用了 hostport 后遇到比较坑的问题,奇怪的知识又增加了。问题背景集群环境为 K8s v1.15.9,cni 指定了 flannel-vxlan 跟 portmap, kube-proxy 使用 mode 为 ipvs,集群 3 台 master,同时也是 node,这里以 node-1,node-2,n[详细]
-
详解CentOS 7迅速安装Mongodb
所属栏目:[系统] 日期:2021-10-29 热度:60
简介MongoDB 是由C++语言编写的,是一个基于分布式文件存储的开源数据库系统。环境介绍操作系统:CentOS 7CentOS 7 快速安装mongodb下载、安装在mongodb的官网可以直接下载到对应的rpm包,然后使用yum进行安装。CentOS 7 快速安装mongodbyum -y localinstal[详细]
-
2021年DevOps之终极转化
所属栏目:[系统] 日期:2021-10-29 热度:126
一、文档说明DevOps顾名思义,是让机器自动处理软件部署和运维生命周期中的重复性工作,以便操作员可以更快,更有效的实现代码更新和部署迭代,更可靠的运行他们的系统。自2009年创造DevOps一词以来,自动化已经从开发、集成和交付工作的自动化发展到当今运[详细]
-
报告大多数组织仍旧处于 CI/CD 之旅的早期阶段
所属栏目:[系统] 日期:2021-10-29 热度:170
当下,CI/CD 和 IaC 等 DevOps 流程对混合云的成功已越来越关键。但调查显示,大多数的开发团队实际上并没有在专家级别实践真正的 CI/CD。CloudBolt 最新发布的一份The Truth About DevOps in the Hybrid Cloud Journey行业洞察报告指出,只有 4% 的受访者[详细]
-
kubelet 配置资源预备的姿势
所属栏目:[系统] 日期:2021-10-29 热度:198
Kubernetes 的节点可以按照节点的资源容量进行调度,默认情况下 Pod 能够使用节点全部可用容量。这样就会造成一个问题,因为节点自己通常运行了不少驱动 OS 和 Kubernetes 的系统守护进程。除非为这些系统守护进程留出资源,否则它们将与 Pod 争夺资源并导[详细]
-
说说容器与pod中的僵尸进程
所属栏目:[系统] 日期:2021-10-29 热度:144
按进程在执行过程中的不同情况至少要定义三种状态:运行(running)态:进程占有处理器正在运行的状态。进程已获得CPU,其程序正在执行。在单处理机系统中,只有一个进程处于执行状态;在多处理机系统中,则有多个进程处于执行状态。 就绪(ready)态:进程具备[详细]
-
将用 Foreman 管理 CentOS Stream
所属栏目:[系统] 日期:2021-10-29 热度:116
这个例子让我们看到了在 Foreman 中管理和配置 CentOS Stream 内容的许多选项。2021 年 12 月,CentOS 8 将达到生命终点,被 CentOS Stream 取代。CentOS Stream 和 CentOS 之前的迭代之间的主要变化之一是没有小版本。Centos Stream 采用了一个连续的发布[详细]
-
Below:一个时间旅游的资源监控器
所属栏目:[系统] 日期:2021-10-29 热度:138
内核的主要职责之一是调度对资源的访问。有时这可能意味着分配物理内存,使多个进程可以共享同一主机。其他时候,它可能意味着确保 CPU 时间的公平分配。在这些场景里,内核提供了机制,而将策略留给了别人。近来,这个别人通常是 systemd 或 dockerd 这样[详细]
-
由Facebook事故引起的BGP工具探索
所属栏目:[系统] 日期:2021-10-29 热度:164
我从来没有了解过 BGP 的原因之一是,据我所知,我没有在互联网上发布 BGP 路由的权限。对于大多数网络协议,如果需要,你可以非常轻松地自己实现该协议。例如,你可以:发行你自己的 TLS 证书编写你自己的 HTTP 服务器编写你自己的 TCP 实现为你的域名编写[详细]
-
怎样使用 Prometheus 仪表化应用
所属栏目:[系统] 日期:2021-10-29 热度:160
我们已经很清楚 Prometheus 是如何抓取监控指标的了,Prometheus 通过一个 HTTP 请求抓取监控目标,默认请求的端点名是 /metrics。监控目标通过发送每个被跟踪的时间序列单个样本,以及样本的指标名称、标签集合和样本值来响应每个指标的当前状态。抓取到数[详细]
-
PromQL 查询之 Rate 函数的采用
所属栏目:[系统] 日期:2021-10-29 热度:190
通常来说直接绘制一个原始的 Counter 类型的指标数据用处不大,因为它们会一直增加,一般来说是不会去直接关心这个数值的,因为 Counter 一旦重置,总计数就没有意义了,比如我们直接执行下面的查询语句:demo_api_request_duration_seconds_count{job=demo[详细]
-
在 systemd 中使用控制组管理来源
所属栏目:[系统] 日期:2021-10-29 热度:159
控制组可以按照应用管理资源,而不是按照组成应用的单个进程。作为一个系统管理员,没有事情比意外地耗尽计算资源让我更觉得沮丧。我曾不止一次填满了一个分区的所有可用磁盘空间、耗尽内存、以及没有足够的 CPU 时间在合理的时间内处理我的任务。资源管理[详细]
-
采用 logrotate 命令轮转和归档日志
所属栏目:[系统] 日期:2021-10-29 热度:50
日志非常适合找出应用程序在做什么或对可能的问题进行故障排除。几乎我们处理的每个应用程序都会生成日志,我们希望我们自己开发的应用程序也生成日志。日志越详细,我们拥有的信息就越多。但放任不管,日志可能会增长到无法管理的大小,反过来,它们可能会[详细]
-
IT 运维中的事件、故障排查处理思绪
所属栏目:[系统] 日期:2021-10-29 热度:121
在讲解事件、故障处理思路前,先讲一个故障场景(以呼叫中心系统作为一例子):业务人员反映呼叫中心系统运行缓慢,部份电话在自助语言环节系统处理超时,话务转人工座席,人工座席出现爆线情况。运维人员开始忙活了,查资源使用情况、查服务是否正常、查日[详细]
-
用来调度任务的 systemd 定时器
所属栏目:[系统] 日期:2021-10-29 热度:131
cron 可以以几分钟到几个月或更长时间的粒度调度运行一个任务。设置起来相对简单,它只需要一个配置文件。虽然配置过程有些深奥,但一般用户也可以使用。然而,如果你的系统在需要执行的时间没有运行,那么 cron 会失败。anacron 克服了系统没有运行的问题[详细]
-
采用 systemd 作为问题定位工具
所属栏目:[系统] 日期:2021-10-29 热度:142
虽然 systemd 并非真正的故障定位工具,但其输出中的信息为解决问题指明了方向。没有人会认为 systemd 是一个故障定位工具,但当我的 web 服务器遇到问题时,我对 systemd 和它的一些功能的不断了解帮助我找到并规避了问题。我遇到的问题是这样,我的服务器[详细]
-
CentOS 8.4来临,将会是绝唱吗?
所属栏目:[系统] 日期:2021-10-29 热度:101
此次CentOS发布8.4,代号为2105,和以往有区别的是此次不再发布Minimal版本了,取而代之的为boot版本,自去年红帽官方宣布CentOS 8的生命周期停留在2021年, 也就意味着8将是CentOS的绝唱,其实8.4并不陌生,早在5月底另外一款Redhat二进制分支系统AlmaLinu[详细]
-
通过抓包来认知gRpc
所属栏目:[系统] 日期:2021-10-29 热度:87
gRpc是什么?gRPC是一个高性能、开源和通用的 RPC 框架,面向移动和 HTTP/2 设计。目前提供 C、Java 和 Go 语言版本,分别是:grpc, grpc-java, grpc-go. 其中 C 版本支持 C, C++, Node.js, Python, Ruby, Objective-C, PHP 和 C# 支持。gRPC基于 HTTP/2 标[详细]
-
一篇带给你pika简介和安装
所属栏目:[系统] 日期:2021-10-29 热度:192
Pika是一个可持久化的大容量redis存储服务,兼容string、hash、list、zset、set的绝大部分接口。pika简介及安装解决redis由于存储数据量巨大而导致内存不够用的容量瓶颈,并且可以像redis一样,通过slaveof命令进行主从备份,支持全同步和部分同步,pika还[详细]