97 Things Every SRE Should Know-39
Table of Contents
The Maestros of Incident Response
事件响应的大师
我们都有过这样的经历:我们第一次成为IMOC(紧急事件管理人员,或突发事件指挥官,其他人可能会称之为)(Incident Manager On-Call, or Incident Commander, others might call it)。我作为IMOC被告警通知是在工作一年后出现的,不管我之前做了多少观察,我对它的处理与我之前的表演相比都显得很苍白。这不是我的最后一次失误,但我开始建立一个事件管理的高级框架。之后的每一次失误,我都会在其中加入一些新的内容。这个框架作为一个起点一直很有价值,我希望它也能对你有所帮助。
有更多,更好的资料致力于扩展事件的处理方式,但这是我保持在第一线的主要原则。
止血(Stop the Bleeding)
始终把重点放在优先考虑缓解方面。尽管对话可能会偏向于深入的根源调查和长期解决方案的讨论,但第一个冲动应该是让正在进行的对话只集中在恢复当前的情况上。
每个人都在做什么?
每隔一段时间(要注意这可能会给从事该问题的人带来的成本),继续提出大家都在做什么的问题。这样做的目的是为了跟踪工作进度,防止工作重叠,并从有关各方获得健康检查。
提出这个问题也让你有机会问另一个问题–你需要任何帮助吗–以衡量是否应该利用更多资源。
当您通过事件管理流程工作时,何时进入下一个步骤可能并不明显。如果你能多花五分钟时间收集更多的数据点,也许你就能更确定哪些系统受到了影响。在这种情况下,当你做决定的时候,要始终以速度而不是质量来进行优化,牢记大的目标:快速恢复你的系统。
在这一点上,你可能会意识到,通过事件响应的很多工作可以归结为建立肌肉记忆和神经通路(neural pathways)[1],这来自于反复的经验,但这并不意味着你不能为轮换做准备。
这里有一个小小的启动准备清单:
- 该公司的关键指标是什么?在一个电子商务公司中,这可能是结账率和数量,店面的可用性,等等。
- 您是否知道如何从服务到所有者建立索引?
- 你是否能够了解整个组织正在发生的告警?
不管怎么说,世界上所有的框架都无法让你为第一次领导事故做好足够的准备。我在多伦多的第一次事故发生在凌晨4点左右,我的表现感觉就像事故管理中的切尔诺贝利。在这个以前由大师主持的座位上,我是一个笨拙的业余指挥家。
在事件应对中,很多工作都可以归结为建立肌肉记忆和神经通路,这些都来自于反复的经验。在接下来的许多次on-call(page)中,通过耐心和练习,我开始越来越不那么笨手笨脚,很快就让乐队演奏了一些波普乐。
我们如何构建本书的结构
SRE虽然涉及复杂的技术系统,但归根结底是一种文化实践。文化是人的产物,这启发我们根据你在组织中的SRE数量来组织本书的各个部分–你具体处理什么,你的一天是怎样的,取决于有多少个SRE工程师。我们将本书的文章分为 “SRE新手” 、0-1个SRE、1-10个SRE、10-100个SRE和 “SRE的未来 ”。
读者如果想找寻先从哪里开始的指导,可以直接跳到最适用于自己的部分;但是,你仍然会发现阅读那些目前并不适用于你日常的部分的文章的价值。
在0到1个SRE时,还没有人被指定为SRE,或者你已经找到了你的第一个SRE,这个角色看起来几乎是孤独的。
在1到10名SRE时,你正在组建一个团队,有知识共享和分工的能力。
在10到100个SRE时,你已经成为一个组织,你需要思考的不仅仅是你所从事的系统,还需要思考如何组织这么多SRE。
“SRE新手” 涵盖了基础性的话题(尽管并不详尽!),对于那些刚刚开始SRE之旅的人来说是很有帮助的,即使是最有经验的SRE,也是一种复习。 “SRE的未来” 包含了一些文章,这些文章探讨了SRE潜在的发展方向,或者是(目前)坐拥时代潮流。
没有必要按照任何特定的顺序阅读本书。你可以从头到尾读一遍。或者,如果你对某个特定的主题感到好奇,可以翻到索引,在那里你可以找到关于该主题的所有文章。把它作为参考指南,或者是灵感的来源–可以在需要的时候提供一个震撼。或者,也许可以建立一个阅读俱乐部,每周一次挑选一篇文章与同事讨论。这就是散文集的魅力所在。我们希望你和我们一样喜欢阅读它们。
结语
SRE系列的文章,有时间我就会翻译一些,希望大家能学到对自己有用的东西。谢谢
翻译不易,转载时请注明原文链接,谢谢
延伸阅读
1.neural pathways 神经通路也叫传导通路,神经系统内传导某一特定信息的通路。它能传导某种特定信息,如视、听或随意运动的冲动等。可把神经通路分为上行性和下行性两种。