Table of Contents

On-Call Health: The Metric You Could Be Measuring

On-Call的健康:你可以衡量的指标

一个星期六的下午,我的电话里传出了悲伤的长号声。我又一次为要求关注的服务而On-Call【1】。那是我为一个新团队On-Call的第一个星期的尾声,我已经被呼唤了至少50次。我眼花缭乱,焦虑不安。当我确认这个提示时,我有一种强烈的冲动,想把我的手机扔到旁边的砖墙上。相反,我深吸一口气,滚动浏览警报的细节,同时再次启动了我的笔记本电脑。

我们为服务健康定义了SLI、SLO和SLA【2】。我们衡量可用性和可靠性,进行注重客户影响的事后分析,并对服务进行健康检查以迅速发现故障。作为一个行业,我们很快就知道我们的服务是否健康,但我们忽略了运行一个成功的服务的一个重要组成部分:On-Call的人是否同样健康。

他们是否整夜都在睡觉?他们在工作时间之外被呼唤的频率如何?On-Call的工作是否符合一个合理的工作周?幸运的是,我们可以使用一些监测服务健康的工具和最佳做法来监测这另一个关键部分。

衡量的指标
  为了解服务健康状况,我们定义了SLI;为衡量On-Call健康状况,我们需要类似的指标。注意每周的警报数量,每周触发警报时的严重程度,工作时间以外的警报数量。思考一下警报的解决方法。警报是噪音吗?还是可操作的?

监测指标和补救问题
  On-Call的健康指标应该被定期审查。我建议每周一次,作为定期On-Call审查或交接过程的一部分。就像我们处理服务健康指标一样,查看每周的On-Call健康指标的趋势,以发现新出现的模式。利用这种每周审查来问一些问题,例如。这是不寻常的忙碌的一周吗?还是每周的警报数量在稳步增加?它们是可操作的还是大部分是噪音?这段时间也应该用来安排后续项目。如果警报是噪音,应该调整或消除它们。如果警报大多是可操作的,那么是否有可以自动化的重复性任务?

On-Call的事后分析
  定期获得关于On-Call过程的定性反馈也很重要。就像我们用事后总结来浮现服务健康方面的定性反馈和学习一样,我们也需要对On-Call健康做同样的事。

  我建议定期进行匿名的On-Call健康回顾。我喜欢混合使用定量和定性的问题。提出带有数字分数的问题。例如,在1到5的范围内,On-Call对你的工作和生活平衡有多大的破坏性?包括自由形式的问题,例如。On-Call的最糟糕的部分是什么?在On-Call时,什么占用了你的大部分时间?

一旦收集到所有的反馈,就应该对其进行分析,并汇总一套后续行动项目,添加到团队的积压项目中。就像事后总结和其他回顾性工作一样,要使其成为一个有效的工具,重要的是要及时安排和完成行动项目;否则,这就是浪费时间,会使On-Call工程师感到沮丧。

这似乎与技术方面脱节,但请记住:如果你的服务符合其SLO和SLA,但你的On-Call是不健康的,你的服务就不会保持健康太久。不健康的On-Call将导致疲劳、倦怠和减员。长期来看,这些都会对服务的健康和它所支持的业务目标产生负面影响。

我们如何构建本书的结构

SRE虽然涉及复杂的技术系统,但归根结底是一种文化实践。文化是人的产物,这启发我们根据你在组织中的SRE数量来组织本书的各个部分–你具体处理什么,你的一天是怎样的,取决于有多少个SRE工程师。我们将本书的文章分为 “SRE新手” 、0-1个SRE、1-10个SRE、10-100个SRE和 “SRE的未来 ”。

读者如果想找寻先从哪里开始的指导,可以直接跳到最适用于自己的部分;但是,你仍然会发现阅读那些目前并不适用于你日常的部分的文章的价值。

在0到1个SRE时,还没有人被指定为SRE,或者你已经找到了你的第一个SRE,这个角色看起来几乎是孤独的。

在1到10名SRE时,你正在组建一个团队,有知识共享和分工的能力。

在10到100个SRE时,你已经成为一个组织,你需要思考的不仅仅是你所从事的系统,还需要思考如何组织这么多SRE。

“SRE新手” 涵盖了基础性的话题(尽管并不详尽!),对于那些刚刚开始SRE之旅的人来说是很有帮助的,即使是最有经验的SRE,也是一种复习。 “SRE的未来” 包含了一些文章,这些文章探讨了SRE潜在的发展方向,或者是(目前)坐拥时代潮流。

没有必要按照任何特定的顺序阅读本书。你可以从头到尾读一遍。或者,如果你对某个特定的主题感到好奇,可以翻到索引,在那里你可以找到关于该主题的所有文章。把它作为参考指南,或者是灵感的来源–可以在需要的时候提供一个震撼。或者,也许可以建立一个阅读俱乐部,每周一次挑选一篇文章与同事讨论。这就是散文集的魅力所在。我们希望你和我们一样喜欢阅读它们。

结语

SRE系列的文章,有时间我就会翻译一些,希望大家能学到对自己有用的东西。谢谢

翻译不易,转载时请注明原文链接,谢谢

延伸阅读

1.on-call
2.Service-Level