Table of Contents

Helping Leaders Prioritize On-Call Health

帮助领导者优先考虑On-Call的健康状况

你明白On-Call【1】的健康状况是运行一个成功服务的关键特征。你是一个做了功课的个人贡献者或开发负责人。你读过文章,看过讲座,关注过#oncallselfie这样的标签,并且总是在重大故障期间向你在其他公司工作的朋友发送#hugops。或者,你已经通过在一个有着可怕的On-Call经历的团队中,艰难地了解了On-Call健康的好处。只有一个问题:你的领导团队似乎并不像你那样重视On-Call健康。那么,你如何帮助领导层理解On-Call健康与任何功能一样重要?

带来量化数据
通过提供真实的数据,帮助你的领导层了解On-Call对你的团队的影响。图表,以及随时间变化的趋势,是非常好的,可以真正帮助快速传达很多信息。通常情况下,On-Call健康是以定性的术语来谈论的;这些都是有效的和重要的,但对于一个不太了解日常情况的领导来说,可能很难评估On-Call对团队的影响。然而,也有一些量化的指标可以衡量。(见第74章)

领导者更容易理解无可争议的指标的影响,例如本周在下班后,On-Call人员每天晚上都被呼唤,而不是定性反馈,例如On-Call会破坏工作与生活的平衡。 帮助领导者量化影响应该有助于证明你的情况。

将SLA与On-Call的健康状况联系起来
可用性指标和On-Call的健康指标是不可分割地纠缠在一起的。所有试图将它们分开的做法都是在掩耳盗铃。糟糕的On-Call将导致SLA【2】的失败,这将导致客户的不满意。通过持续地将服务水平协议和On-Call的健康指标联系起来,你会帮助你的领导层理解这种共生关系。你如何做到这一点?

将On-Call健康指标纳入可用性报告中
  你可能已经在跟踪并向你的领导层报告服务水平协议的实现情况。开始包括On-Call的健康指标。

在OKR中包括On-Call健康指标
  如果你的团队使用OKR等计划工具,为你的SLA和On-Call的健康指标设定目标。我建议围绕服务可用性制定一个高层次的目标。OKR可以衡量诸如SLA、成功率和延迟,以及一个On-Call健康指标,如每周的告警数量。

把On-Call健康当作一个特点
在你的计划过程中,考虑到On-Call时间。假设在On-Call期间,开发人员正在积极处理事件,或者在安静的一周内利用这段时间来改善On-Call体验。

这可以简单到为On-Call的开发人员创建任务,以确保这些工作在站立和冲刺计划中得到考虑。如果你做了一个更大的季度或每学期的计划过程,把On-Call作为一个特点,并分配时间给它。通常情况下,这应该是在规划周期内每周一次的开发。在规划过程中向领导层强调这项投资。

通过将On-Call的工作纳入团队的计划过程,你将帮助你的领导层将其视为可以计划和预算的工作,而不是团队必须吸收的干扰,以保持进度。

衡量减员
最后,帮助你的领导理解,持续的不良On-Call将导致减员。然而,自然减员是不良On-Call健康的滞后指标,使用这一指标应被视为最后的手段,因为在这一点上,情况很糟糕。

我们如何构建本书的结构

SRE虽然涉及复杂的技术系统,但归根结底是一种文化实践。文化是人的产物,这启发我们根据你在组织中的SRE数量来组织本书的各个部分–你具体处理什么,你的一天是怎样的,取决于有多少个SRE工程师。我们将本书的文章分为 “SRE新手” 、0-1个SRE、1-10个SRE、10-100个SRE和 “SRE的未来 ”。

读者如果想找寻先从哪里开始的指导,可以直接跳到最适用于自己的部分;但是,你仍然会发现阅读那些目前并不适用于你日常的部分的文章的价值。

在0到1个SRE时,还没有人被指定为SRE,或者你已经找到了你的第一个SRE,这个角色看起来几乎是孤独的。

在1到10名SRE时,你正在组建一个团队,有知识共享和分工的能力。

在10到100个SRE时,你已经成为一个组织,你需要思考的不仅仅是你所从事的系统,还需要思考如何组织这么多SRE。

“SRE新手” 涵盖了基础性的话题(尽管并不详尽!),对于那些刚刚开始SRE之旅的人来说是很有帮助的,即使是最有经验的SRE,也是一种复习。 “SRE的未来” 包含了一些文章,这些文章探讨了SRE潜在的发展方向,或者是(目前)坐拥时代潮流。

没有必要按照任何特定的顺序阅读本书。你可以从头到尾读一遍。或者,如果你对某个特定的主题感到好奇,可以翻到索引,在那里你可以找到关于该主题的所有文章。把它作为参考指南,或者是灵感的来源–可以在需要的时候提供一个震撼。或者,也许可以建立一个阅读俱乐部,每周一次挑选一篇文章与同事讨论。这就是散文集的魅力所在。我们希望你和我们一样喜欢阅读它们。

结语

SRE系列的文章,有时间我就会翻译一些,希望大家能学到对自己有用的东西。谢谢

翻译不易,转载时请注明原文链接,谢谢

延伸阅读

1.on-call
2.Service-Level