构建持续提升的故障管理能力腾讯云开发者社区

随着系统架构不断升级,功能持续迭代,系统运行复杂性越来越高,故障的发生不可避免,且发生场景愈发无法预测。从企业角度看,系统故障影响客户体验,降低访问流量,带来交易损失,引发监管问责等;从系统架构角度看,系统故障反映的问题代表系统未来扩展性与局限性;从IT资源角度看,故障(尤其是重复性故障)将占用大量IT人力资源,影响IT价值创造能力;从运维角度看,故障是一个常态化的存在,故障既是业务连续性大敌,也是推动组织架构、人员能力、协同机制、工具平台持续优化的驱动力,对待好故障管理有助于建立学习型的运维组织。本文要解释的故障管理,除了指尽快恢复正常的服务以降低故障影响的相关措施,还尝试探索建立一个闭环的故障管理能力的模式。

3.3.1.1 从几个故障管理领域的词语开始

1、故障

在ITIL中,故障用Incidnet来描述,即事件,ITIL定义为“服务的意外中断或服务质量的降低”。对这个定义的理解,不同组织略有不同,有些组织只针对服务中断的业务可用性故障,有些组织则细化到与正常运行不一致的事件。我认为故障是驱动团队持续优化,跨组织协同效率提升的有力抓手,是培养学习型运维团队的切入点,在资源有条件的情况下细化到异常情况更好。故障管理的关键目标是快速恢复服务或业务,降低故障影响。

除了一般故障,很多企业还会建立突发或重大故障管理,一般是针对数据中心大面积故障,或重要业务、影响客户交易中断等故障,制定更高优先级的应急协同管理,提前制定危机工作小组,确定相关联络人,沟通计划等。相应的,ITIL将上述故障定义为“灾难”:“对组织造成重大损失或重大损失的突发性意外事件”。本文介绍的故障管理包括一般故障与重大故障。

2、问题

很多人把故障与问题混淆,尤其是研发、测试侧的同学。在ITIL中,问题是指造成已知故障的原因或系统潜在风险,问题管理是针对问题解决进行的跟踪管理。问题管理包括问题识别、问题控制、错误控制。问题识别通常来源于生产故障、运行分析、从研发、测试,及外部供应商获知风险信息等。问题控制指问题分析,记录解决方案,问题优先级划分等。错误控制是针对问题的根因的解决,考虑到解决问题的成本,并非所有问题都需要解决,问题的解决需要具体评估,比如有些团队定义超过半年不发生的问题可以考虑关闭。

问题管理故障、风险、变更、知识等管理都有联系,与故障管理的关系十分密切,很多团队的问题主要由故障关联生成。通用的方案是,事件的复盘关联出多个已知或未知问题,问题工单可以作为变更需求来源,在变更流程中可以相应的自动关闭问题,高优先级的问题跟踪纳入到风险管理中。

3、SLA、SLO、SLI

在故障管理讲这三个S,重点是希望区分不同故障的对待方式,《谷歌SRE解密》中对这几个词有一些描述:

“我们需利用一些主观判断结合过去的经验来定义一些SLI,SLO,SLA,事先定义好合适的指标有助于在故障发生时帮助SRE进行更好的决策。”

“要求所有SLO都是100%并不现实,过于强调这个会影响创新和部署速度。”

“公开的SLO有助于管理用户的期望值”。

注:SLA(Service Level Agreement ):服务水平协议,是IT服务提供方和被服务方之间就服务提供中关键的服务目标及双方的责任等有关细节问题而约定的协议;SLO(Service Level Objective):服务质量目标,服务提供方与服务需求方对服务期望,比如系统可用性是4个9,还是3个9;SLI(Services Level Indicator):服务质量指标,SLO需要通过一系列SLI技术指标指标细化并量化,比如上面的可用性可能会转化为运行时长,故障时间等,性能的话会转换为响应时长、成功率等。加强运维组织的IT服务管理,可以采用SLA为基础,以SLO为服务质量期望,以SLI为量化指标,来设计自身的服务流程、提供服务形式、绩效评估方法。

4、时效性分析

在故障处置过程中,有一些时长可以重点关注一下,比如:MTBF(无故障时长)、MTTI(平均故障发现时长)、MTTK(故障定位时长)、MTTF(平均故障处理时长)、MTTR(平均故障响应时长),MTTF(平均故障恢复时长),通过这些时效性分析有助于将故障处理能力数字化,并有针对性的在各个阶段选择优化方案,以不断降低上述时长,提升业务连续性。

3.3.1.2 故障管理闭环周期

故障管理闭环周期可以分为事前、事中、事后三个闭环节点,以下我梳理了一张故障管理生命周期,其中由于事中属于分秒必争的特点,又将事中划分为“故障发现、故障响应、故障定位、故障恢复”。可能也有同学会多了“影响分析,应急处置”节点,考虑到在故障定位过程中会不断的尝试诊断分析、影响评估,在故障响应过程中也有影响分析,所以这里不单列这两项。

关于故障管理闭环周期的内容后面将分几节单独细化,本章只做简单介绍。

1、事前:防微杜渐与未雨绸缪

2、事中:快速恢复

事中环节重点是在最经济的方式,快速恢复服务可用性/业务连续性。好的事中处理要有一个完备、在线的协同过程,这个协同过程能够赋能给人,更快速的恢复服务。

3、事后:不要浪费任务一个故障

事后环节是对事前与事中环节的复盘,关注引发故障根源性问题的解决与故障事中处置效率的提升。缺少事后环节故障会重复发生,协同会更加低效,IT人力资源会被故障拖住,影响整个IT价值创造。事后分析通常可以包括几个通用的步骤:

3.3.1.3 故障管理能力增长飞轮

前面提到了故障管理的前、中、后的闭环,并提出持续优化每个环节的一些优化措施,下一步我们看一下如何推动运维组织自驱动的故障管理能力提升,去有效落实上面的具体举措。我尝试利用飞轮效应思想画一个故障管理的自驱动模型。

我先介绍一下飞轮效应,团队能力提升过程中是一个持续推动的过程,你先利用最大力气推动一个沉重的飞轮,飞轮开始慢慢转动,随着一圈一圈的转动,飞轮获得了动能,速度越来越快,飞轮开始不断循环的往复。在多个飞轮的组合中,根据组织现状你可以选择从大飞轮或小飞轮作为切入点,就像你的自行车上坡时你会选择前面牙盘小一些,在平路竞速时你会选择前面牙盘大一些。在飞轮的组合中,每个飞轮更快的转动都能够带动下一个飞轮更快的转动,同样某个飞轮减速了也会影响下一个飞轮的速度。运维故障管理中也一样可以找到这样一个增长飞轮,比如上图的“提高应急处置效率,提升业务连续性”,运维组织可以有更多时间提升组织能力,来“提升故障管理与应急协同机制的可扩展性”,有了机制则可以推动“运维能力的持续提升”等等。我觉得每个运维组织都可以尝试画一个适合自身组织故障能力提升的飞轮,飞轮的方法可以借鉴吉姆.柯林斯的《飞轮效应》。

3.3.1.4 从适应性系统看故障管理

在第2章中我画了一个运维适应性系统的飞轮闭环:“提出需求,(实现需求)带来改变,(改变)引发风险,(解决风险)需要进行改变,改变好了可以(接受更多需求)”。站在整个运维适应性系统的能力提升中,我们可以看到,运维面临业务迭代需求更多且要求更快,商业模式与新技术创新,海量数据的应用,连接因素更加复杂等因素,驱动IT能力的持续提升,带来新技术与新架构模式的引入,运维在新技术选择时机、技术成熟度、架构及数据高可用的评估能力、对存量技术架构的影响,以及新技术附带的选择成本,种种挑战对运维带来的直接挑战就是故障更多,故障处理时效性要求更高。

为了减少故障,提升故障处理过程中的时效性需求,运维组织在故障管理过程中可以考虑从运维体系的组织、流程、平台三个角度来融入体系适应性系统的建设。

1)组织:

适应性系统面临环境的复杂性,导致故障处理过程经常面临跨团队协作,尤其是重大故障或危机时,大量不同团队的人涌入ECC值班室,线上IM出现各种信息,各种指令涌向应急执行人员,容易带来混乱,继而影响处理处理效率,良好的组织配置及能力要求有助于建立有序的应急处置。

2)流程:

3)平台:

围绕“监管控析”的运维平台,在故障管理中涉及的平台建设主要有:

3.3.1.5 从数字化角度看故障管理

1、协同网络:在线连接机器、系统、人

故障管理过程是一个多角色,跨团队协同的过程,过程的参与者既包括运维内部组织与员工,也包括运维以外的研发、测试、业务、客服、厂商、监管机构等,以及一切以数字或软件形式存在的机器、系统,将参与者在线化,产生互动连接,将形成一张数字化的协同网络。协同网络将促进员工与组织、员工与客户、人与机器等节点间的互动在线化、透明化,能够有效的加强事前的主动发现问题与解决问题的能力,事中快速响应与快速恢复的能力,事后复盘客观与有效。协同网络将呈现“点线面”的形态,其中,“点”是前提到的各类参与者,“点”与“点”通过协同机制连接成“线”,“线”与“线”互动协作成“面”,“点线面”是一个协同演化,升维变革的过程。

2、数据智能:数据驱动事前、事中、事后效果

数据智能实现故障协同网络的在线化,加强参与节点的有效连接。实现故障过程的数据智能包括:一是推动在线协作的线上化,系统运营数据的在线资产化,监管控数据管理工具的就位;二是对线上化、资产化带来的数据进行变现,为事前评估分析,事中应急发现与执行决策,事后复盘分析提供数据支撑;三是基于数据推进运维智能化,实现对未知故障的发现、定位、处置、恢复的决策支持,并结合自动化实现人机协同的模式,将可量化、可衡量、可程序化的工作由机器辅助人处理。

3、员工赋能:工具与机制赋能

员工是故障协同网络中核心节点,提升故障应急能力,尤其是临场故障决策,关键的是发挥员工能力。运维组织要从监管控析工具与运维机制两点为员工提供一个全数字化的工作环境,激活跨团队应急协同的参与,重塑运维由被动向主动运营转型。建立全数字化的工作环境,需要从从组织架构上进行优化,优化资源配置,强化信息传导机制,促进协同效率;二是利用在线数据构建更加安全、透明的工作环境,形成员工数字镜像,挖掘优秀员工,辅助员工成长,为应急管理的持续优化赋能;三是为员工提供全在线的“监管控析”工作装备。

3.3.1.6 小结

end

注:本文为《数智万物下的运维思考》的第3章第1节,系列的其它内容参见公众号菜单。

THE END
0.时建中吴宗泽:作为反垄断救济措施的数字平台互操作义务|反垄断法|立三、数字平台互操作义务在反垄断法律规制中的适用情形 (一) 反垄断事前监管中的数字平台互操作义务 互操作义务在反垄断事前监管中,主要以经营者集中附加限制性条件的方式出现,是访问救济措施(Access Remedy)里的主要类型。欧盟在2008年修订的《合并救济通告》中,就指出互操作义务作为救济措施的有效性。作为经营者集中jvzquC41yy}/3?80eqs0f‚4ctvodnn4JRRG1GM7273799_W0jvsm
1.五峰:立足“事前事中事后”三个环节优化全链条服务湖北日报客户端讯(通讯员 杨琼丽)据悉,五峰政务服务中心持续深化“高效办成一件事”改革,不断探索创新服务模式,立足“事前、事中、事后”三个环节,全面优化政务服务举措,努力打造更加便捷高效的政务服务环境。 “事前”凸显服务“主动性”。组建“峰速帮办团”,3名专职“峰速帮办”人员,从办事群众进门取号、事项jvzquC41pg}t0qzdgkjbku~0pgz0oxgkng5da;=732<40qyon
2.员工绩效考核报告11篇(二)建立事前事中事后双向沟通机制 提高绩效考核的效果员工和上级领导的双向沟通是绩效考核的生命线。有效、及时的沟通要贯穿绩效考核工作始终。 1、事前沟通 编制年度、季度和月度指标计划时,责任单位KPI考核目标由人力部门初步拟订后,与责任单位沟通,听取责任单位的建议和意见,修改确认,经公司绩效管理委员会讨论后,方jvzquC41yy}/qq6220ipo8f142833;47:49:8B3jvor
3.数据质量闭环管理可分为事前预防事中控制事后整改事中控制数据质量问题是影响系统运行、业务效率、决策能力的重要因素,在数字化时代,数据质量问题影响的不仅仅是信息化建设的成败,更是影响企业降本增效、业务创新的核心要素,对于数据质量问题的管理,深度执行的总体策略“垃圾进,垃圾出(garbage in,garbage out)”,采用事前预防控制、事中过程控制、事后监督控制的方式进行数据jvzquC41dnuh0lxfp0tfv8r2a5=24><;81gsvrhng1jfvjnnu1737;<458;
4.市场监管问题大全11篇三是案件移送程序不够完善。虽然早在2001年7月国务院就出台了《行政执法机关移送涉嫌犯罪案件的规定》,但在具体操作中,仍存在一些漏洞。如行政执法机关在执法中认为当事人涉嫌刑事犯罪,移交公安机关处理,公安机关审查后认为不构成犯罪,退回给行政执法机关没有相关的手续凭据。事后一旦发生问题,容易造成公安机关和行政执法jvzquC41yy}/hjgkcq4dqv3ep1nbq€jp16844>3jvor
5.应从事前事中事后三个阶段填补我国应通过明确算法整合类并购与控制权变更的内在关联、算法整合行为嵌入竞争损害分析中的优势以及“数据+算法”的双重整合要求反垄断规制实现转型三个方面,进一步厘清算法整合类并购的功能导向与并购控制制度的内在逻辑。 算法整合类并购产生的竞争损害覆盖了并购审查事前、事中与事后全过程,故应分别从事前申报环节、事中jvzq<84yyy4mgpfnfcom{7hqo0io1o}l{1ipp}jpv1814>2291831ltpvgtuaB7463810qyon
6.项目安全管理学习心得体会(精选20篇)众所周知,在传统的安全管理工作中,始终贯穿着“三不放过”的原则,经过一段时期的运行之后,体会到追究事故责任者的责任不够明确。因此,现在又将“三不放过”改为了“四不放过”,加大了发生事故后的处理力度。这不失为一种“前事不忘,后事之师”的好做法。但生产安全事故一旦发生,将会带来一系列的社会问题和不jvzquC41yy}/fr~khctxgw3eqo5gcw|gp1gos~fpzkteg}njwk583B63944ivvq
7.成本会计实训报告范文6篇4、事后分析与事前、事中分析相结合的原则。 ④产品单位成本分析的意义 产品单位成本分析的意义,在于揭示各种产品单位成本及其各个成本项目的变动情况,查明单位成本升降的具体原因 三.产品成本计算方法 品种法分批法分步法 四.实训成果 我们的老师为了让学生更好的了解会计在实际工作中的工作内容,以便于实际与理论相结jvzquC41yy}/7:yguv4og}4ujq}0:?74436/j}rn
8.事前、事中、事后质量三大环节控制不是互相孤立和截然分开的,它们共同构事前、事中、事后质量三大环节控制不是互相孤立和截然分开的,它们共同构成有机的系统过程,实质上也就是质量管理PDCA循环的具体化。 答案:正确 你可能感兴趣的试题 判断题 人货两用电梯下部三面搭设双层防坠棚,搭设宽度正面不小于2.8m,两侧不小于1.8m,搭设高度为3m。 jvzquC41yy}/rypcq0ipo8ykmw5tjryk16>32>;70jznn
9.企业安全怎么抓?三个关键环节很重要业务探讨企业安全生产工作是一项系统工程,虽然千头万绪,错综复杂,但是万变不离其宗。抓住“事前预防”、“事中控制”、“事后总结”三个关键环节,能够起到事半功倍的效果。 一、“事前预防”是关键 把可能发生事故的人、物、事、时等诸多因素处于受控状态,把静态的、被动的、滞后的安全管理变为动态的、主动的、超前的jvzq<84yyy4bs|h0ep5bpsncp1813@571360e:79:64ivvq
10.工程类年度总结(万能模板2篇)坚持“百年大计、质量第一”做好事前、事中、事后三环节工作,抓好质量控制。 (一)事前质量控制 事前质量控制,指在正式施工前进行的质量控制,其控制重点是做好施工前准备工作,且施工准备工作要贯穿于施工全过程中。 事前质量控制的内容: 1、 技术准备:熟悉和审查项目的施工图纸,掌握要点重点,编制项目施工组织设计jvzquC41yy}/v~n7774dqv4|qpmkkn49:;:387mvon
11.教师资格证面试技巧例如,有些组织类题目明明问“作为一名班主任,班级要开元旦晚会,你如何策划?”很多考生只会按事前准备、事中实施、事后总结这一思路答题,忽视了题目的问法,结果适得其反,给考官留下此应试者只会生搬硬套,不能够变通,不会随机应变的印象。这样是得不到高分的。因此,我们一定要审清题干、紧扣题目来作答,斟酌后jvzq<84vgciig{3twk}fp7hqo1pjcxxjk|ohg8pcqunj1<7;;6
12.河南社旗:紧盯“前中后”构筑“一屏障”今年以来,河南省社旗县饶良镇始终遵循“安全第一、预防为主,建立大安全大应急框架,完善公共安全体系,推动公共安全治理模式向事前预防转型”原则,紧盯前、中、后“三环节”,用足用活各方力量,构筑了一道“安全屏障”,为当地社会经济高质量发展创造了安全环境。 jvzq<84jgpgo0yjqrnk/exr0ep5o48724651:;51e5=95B