Table of Contents

Effortless Incident Management

轻松的事件管理

人是事件管理过程中最重要的因素之一,这对于SRE[1]所涉及的事件来说也不例外。如果管理不当,一个事件可能会有太多的平行冲突流(个人相互踩踏)或没有足够的合作(个人试图自己解决事件)。以下是实现轻松的事件管理的关键步骤。
 
在所有事件中,首先要做的是指定一个事件负责人,并让事件中的每个人都清楚谁是负责人。这个人的任务是协调参与事件的每个人的角色和责任,并分配任务。事件负责人不一定是对受影响的系统最熟悉的人;相反,他可以是一个能够将正确的人群聚集起来的人。在整个事件过程中,牵头人不需要保持不变;一旦获得了所需的所有背景,另一个人可以承担起事件牵头人的角色。

考虑为每个事件建立一个专门的事件沟通渠道(在您的聊天软件中)。专用频道打破了任何现有的孤岛,如现有的组织团队结构和沟通界限,以支持一个新的共同目标,即大家一起解决手头的事件。此外,专用通道可以作为事件发展的线性时间轴。当需要撰写事件报告时,这可以提供很大的帮助。

重要的是,每个人都要花一些时间清楚地描述他们所发现的情况,避免含糊不清。你花时间说出的调查结果似乎与继续调查实际事件不一致;但是,它可以提供一套隐含的附加验证。这方面的例子有:有关共享命令输出的解释或提供有关其他人可能不熟悉的系统的文档之类的东西。

在事件发生期间,你可能会遇到其他不符合预期的事情(如损坏的仪表盘或过时的操作手册)。在事件中记录后续行动,而不是等到最后才记录,这样就不会被遗忘。一旦事件结束,事件负责人可以评估建议的操作列表,并为您决定保留的操作分配所有者。

事故响应是一系列的行动。自动化可以帮助减少开销。我们建立了一个名为Response的工具,以帮助减少事件发生时个人的压力和认知负担,并引导每个人以统一的方式完成事件管理流程。Response提供了一个逐步的流程来记录一个事件,启动一个专用的沟通渠道,在另一个团队升级并记录操作(escalate in another team, and log actions),所有这些都无需离开Slack(我们在Monzo的首选聊天软件)。

我们花了很多时间使Response的用户体验尽可能地无障碍,用于申报和管理事件。所有事件在创建时都会被Response自动编入一个专门的Slack频道。每个事件的标题、严重程度、事件负责人和 Slack 频道都显示在前面和中间。

不过,围绕事件建立工具和流程并不是全部。参与事件的人需要有文化上的安全感,以便在不分心、不评判、不对其能力有偏见的情况下进行有效沟通。事件及其回顾行报告不应相互指责或推卸责任。要有一个有效的事件管理流程,必须同时拥有正确的工具和正确的文化态度来解决手头的事件。

事件管理过程不需要成为一种负担。如果处理得当,事件可以成为每个人关于系统如何协同工作的强大课程,从其他同事那里获得信任和同理心,并展示整个组织的敏捷性和协作性。

我们如何构建本书的结构

SRE虽然涉及复杂的技术系统,但归根结底是一种文化实践。文化是人的产物,这启发我们根据你在组织中的SRE数量来组织本书的各个部分–你具体处理什么,你的一天是怎样的,取决于有多少个SRE工程师。我们将本书的文章分为 “SRE新手” 、0-1个SRE、1-10个SRE、10-100个SRE和 “SRE的未来 ”。

读者如果想找寻先从哪里开始的指导,可以直接跳到最适用于自己的部分;但是,你仍然会发现阅读那些目前并不适用于你日常的部分的文章的价值。

在0到1个SRE时,还没有人被指定为SRE,或者你已经找到了你的第一个SRE,这个角色看起来几乎是孤独的。

在1到10名SRE时,你正在组建一个团队,有知识共享和分工的能力。

在10到100个SRE时,你已经成为一个组织,你需要思考的不仅仅是你所从事的系统,还需要思考如何组织这么多SRE。

“SRE新手” 涵盖了基础性的话题(尽管并不详尽!),对于那些刚刚开始SRE之旅的人来说是很有帮助的,即使是最有经验的SRE,也是一种复习。 “SRE的未来” 包含了一些文章,这些文章探讨了SRE潜在的发展方向,或者是(目前)坐拥时代潮流。

没有必要按照任何特定的顺序阅读本书。你可以从头到尾读一遍。或者,如果你对某个特定的主题感到好奇,可以翻到索引,在那里你可以找到关于该主题的所有文章。把它作为参考指南,或者是灵感的来源–可以在需要的时候提供一个震撼。或者,也许可以建立一个阅读俱乐部,每周一次挑选一篇文章与同事讨论。这就是散文集的魅力所在。我们希望你和我们一样喜欢阅读它们。

结语

SRE系列的文章,有时间我就会翻译一些,希望大家能学到对自己有用的东西。谢谢

翻译不易,转载时请注明原文链接,谢谢

延伸阅读

1.Site Reliability Engineering-中文
2.Site Reliability Engineering-英文