Table of Contents

Facing That First Page

正视第一个告警信息

2017年,大学刚毕业,我就开始在Shopify的软件工程工作岗位上学习。在我第一次值班前的一年时间里,我花了好几个小时阅读#war-room Slack频道,被当天响应工程师的流畅性所吸引,因为他们将一个可怕的页面集合成一个协调、冷静、集中的事件响应,跨越多个团队。

That first page (告警信息)可不是开玩笑的。我希望通过一些轻量级的结构和工具帮助您在第一次遇到告警信息的不确定性中找到正确方法,从而使它变得更容易。

考虑一下你的情绪反应。感觉高级工程师的血管里流淌着冰块,但事实是,每个人都会有点焦虑。

如果你发现自己处于这种状态,不妨花一小会儿时间,评估一下自己的紧张情绪,振作起来,继续前进。如果你不知所措,或者发现自己没有能力应对某一特定事件,可以向同事求助;有这种感觉是正常的,但是为了更快地解决问题,寻求帮助是很重要的。

然后问:“现在什么事情很痛苦?” 你可能收到了一个告警,描述了一些关键业务指标的巨大变化。对于这个告警信息,您可以采取几种方法,首先,非常简单:尝试定位受影响的内容,而不是评估规模或爆炸半径,而是尽最大努力将警报映射到受影响的系统。真正具有挑战性的是预警指标和受影响的系统本身之间的脱节。

您对关键指标及其背后系统的组织知识可以在这里得到利用,以支持您将随着时间的推移逐步建立的调查,但如果没有这些知识,您可以尝试理解跨组织告警相关性是什么。

在这里,你可以利用你的工具。例如,获得其他正在进行的页面或正在触发的告警的高级视图(通过Slack搜索、PagerDuty、Bugsnag等)可以帮助你合理地识别受影响的系统。

接下来,你要通知谁?在确定受影响的系统之后,你可能要想好该通知谁。尽管这是您的电话发出的声音,但可能您已经将上游依赖关系缩小为可能的罪魁祸首。

有时候是你,但如果不是呢?找个人通知很容易;最难的部分是怀疑。如果是错误的告警信息呢?你可能会叫醒正在睡眠中的工程师,然后他们告诉你,你拨错了电话号码。

有时你可能会弄错告警信息。但此时,请相信你迄今为止所积累的事实,并继续迅速采取行动。有可能,即使告警信息不正确,你的尽职调查似乎也表明,错误的收件人和正确的收件人之间的分离度是有限的。

最重要的是,记得要细细品味这一刻。你收到的第一个告警信息是很可怕的,但是这种转变的神奇感觉–看着一个微弱的告警逐渐发展成大规模的事件响应–会让你感觉像一个十足的书呆子。每个人都是从某个地方开始的,尽管你可能会给自己施加压力,要求自己在第一次、第二次或第三次就能达到王牌水平,但请记住,你只是在建立神经通路(neural pathways)[1]而已,你需要获得我们都渴望的流畅性。

我们如何构建本书的结构

SRE虽然涉及复杂的技术系统,但归根结底是一种文化实践。文化是人的产物,这启发我们根据你在组织中的SRE数量来组织本书的各个部分–你具体处理什么,你的一天是怎样的,取决于有多少个SRE工程师。我们将本书的文章分为 “SRE新手” 、0-1个SRE、1-10个SRE、10-100个SRE和 “SRE的未来 ”。

读者如果想找寻先从哪里开始的指导,可以直接跳到最适用于自己的部分;但是,你仍然会发现阅读那些目前并不适用于你日常的部分的文章的价值。

在0到1个SRE时,还没有人被指定为SRE,或者你已经找到了你的第一个SRE,这个角色看起来几乎是孤独的。

在1到10名SRE时,你正在组建一个团队,有知识共享和分工的能力。

在10到100个SRE时,你已经成为一个组织,你需要思考的不仅仅是你所从事的系统,还需要思考如何组织这么多SRE。

“SRE新手” 涵盖了基础性的话题(尽管并不详尽!),对于那些刚刚开始SRE之旅的人来说是很有帮助的,即使是最有经验的SRE,也是一种复习。 “SRE的未来” 包含了一些文章,这些文章探讨了SRE潜在的发展方向,或者是(目前)坐拥时代潮流。

没有必要按照任何特定的顺序阅读本书。你可以从头到尾读一遍。或者,如果你对某个特定的主题感到好奇,可以翻到索引,在那里你可以找到关于该主题的所有文章。把它作为参考指南,或者是灵感的来源–可以在需要的时候提供一个震撼。或者,也许可以建立一个阅读俱乐部,每周一次挑选一篇文章与同事讨论。这就是散文集的魅力所在。我们希望你和我们一样喜欢阅读它们。

结语

SRE系列的文章,有时间我就会翻译一些,希望大家能学到对自己有用的东西。谢谢

延伸阅读

1.neural pathways

神经通路也叫传导通路,神经系统内传导某一特定信息的通路。它能传导某种特定信息,如视、听或随意运动的冲动等。可把神经通路分为上行性和下行性两种。