Table of Contents

Integrating Empathy into SRE Tools

将同理心融入SRE工具

网站可靠性工程(Site reliability engineering)[1]包括最佳实践,如构建自愈服务,实现自动化系统,以及观察on-call[2]人员轮班的质量和数量。然而,我们几乎没有为现场可靠性工程师提供工具,以促进操作疲惫的自我愈合,缓解与事件相关的压力,并跟踪on-call轮班情况。

同情心可以帮助我们达到这个目标,通过对那些使倦怠更容易发生的因素采取行动。在软件中建立同情心,需要理解(有时也需要收集)那些通常处于SRE苦恼和编码相关缓解措施的核心要素。

这些步骤支持整合同理心的方法:

  1. 了解原因。(Understand the source.)
  2. 找到正确的指标(SLI)。
  3. 固定一个可接受的范围(SLOs)。
  4. 得出后果(SLA)。(Draw the consequences)
  5. 实施工具来跟踪SLI,检查SLO,并执行SLA。

让我们用一个例子来说明这些步骤。Shuri是SuperSonicSystems的一名SRE,一年前,她的团队和他们的on-call轮换一起进行了调整。这导致她请了压力假。让我们应用我们的方法来确保这种情况不会发生在SRE团队的其他成员身上。

为了了解原因(source),向Shuri发出了一份调查报告。结果显示,她on-call的频率更高,遇到的告警也很多,很难休整。发生这种情况的原因是,以前由9个人处理的on-call轮换被减少到3个人。虽然系统是由经理分管的,但提取的事件响应数据显示,由于Shuri的轮值时间与公司的发布周重合,所以她的on-call次数更多,收到的告警也更多。此外,公司的on-call政策并没有提供休息日(the company’s on-call policy does not offer recovery days.)。

on-call轮班的数量和质量是罪魁祸首。该公司关注的三个指标是:

  • On-call频率(On-call frequency)(有多少人,他们多长时间待命一次?)
  • 每班警报(Alerts per shift)(SRE每班收到多少告警?)
  • SRE的幸福感(SRE happiness)(SRE在值班后的幸福感是多少?)

从这些SLI中,SuperSonicSystems挑选了一些SLO。

On-call的轮换
假设一周的轮班和主要/次要设置,至少应该有八个人参加轮换。

每班的警报
每班最多有10个告警,夜间告警的权重是双倍的。在未来,严重程度较高的告警也可能与较高的权重有关。

SRE幸福感
每次值班后,都会向SRE发送一份使用表情符号评分的调查,目标是平均达到☺。这与之前的SLO不同,因为它是定性的而不是定量的。

这一步需要反复试验,直到达到一个舒适的平衡。

最后一步是设定后果,即SLA。

On-call的轮换
如果上限范围没有遵守,则团队应让更多人参与轮班,以使其可持续。在过渡阶段,经常on-call的人将得到连续两天的强制性休息,以防止倦怠。

每班的警报
如果达到了最大的告警数量,将由团队中的其他人接收告警,以留出适当的时间进行恢复。

SRE幸福感
低于平均评分的调查将提示后续行动和潜在的相关行动。例如,一个正在经历生活坎坷的SRE可以被暂时调离轮岗。这些情况应该由团队领导进行单独分析。

SRE必须支持公司最关键的系统,但让这个角色令人兴奋和具有挑战性的因素也会让他们面临倦怠、健康问题和不满意的风险。这个例子显示了如何将同理心整合到on-call的政策中,以获得更强大、更有弹性的团队。

我们如何构建本书的结构

SRE虽然涉及复杂的技术系统,但归根结底是一种文化实践。文化是人的产物,这启发我们根据你在组织中的SRE数量来组织本书的各个部分–你具体处理什么,你的一天是怎样的,取决于有多少个SRE工程师。我们将本书的文章分为 “SRE新手” 、0-1个SRE、1-10个SRE、10-100个SRE和 “SRE的未来 ”。

读者如果想找寻先从哪里开始的指导,可以直接跳到最适用于自己的部分;但是,你仍然会发现阅读那些目前并不适用于你日常的部分的文章的价值。

在0到1个SRE时,还没有人被指定为SRE,或者你已经找到了你的第一个SRE,这个角色看起来几乎是孤独的。

在1到10名SRE时,你正在组建一个团队,有知识共享和分工的能力。

在10到100个SRE时,你已经成为一个组织,你需要思考的不仅仅是你所从事的系统,还需要思考如何组织这么多SRE。

“SRE新手” 涵盖了基础性的话题(尽管并不详尽!),对于那些刚刚开始SRE之旅的人来说是很有帮助的,即使是最有经验的SRE,也是一种复习。 “SRE的未来” 包含了一些文章,这些文章探讨了SRE潜在的发展方向,或者是(目前)坐拥时代潮流。

没有必要按照任何特定的顺序阅读本书。你可以从头到尾读一遍。或者,如果你对某个特定的主题感到好奇,可以翻到索引,在那里你可以找到关于该主题的所有文章。把它作为参考指南,或者是灵感的来源–可以在需要的时候提供一个震撼。或者,也许可以建立一个阅读俱乐部,每周一次挑选一篇文章与同事讨论。这就是散文集的魅力所在。我们希望你和我们一样喜欢阅读它们。

结语

SRE系列的文章,有时间我就会翻译一些,希望大家能学到对自己有用的东西。谢谢

翻译不易,转载时请注明原文链接,谢谢

延伸阅读

1.Site Reliability Engineering-中文
   Site Reliability Engineering-英文

2.on-call

3.服务质量说明