Table of Contents

On-Call Rotations that People Want to Join

人们想要加入的On-Call轮换工作

在Monzo,On-Call【1】是如此受欢迎,以至于我们的轮换有一个等待名单。不幸的是,大多数机构的情况不是这样的。我们的行业已经接受了这种观念,即On-Call是一种痛苦和必要的邪恶。成千上万的开发人员和SRE【2】让自己经历痛苦和倦怠,因为这是工作的一部分。但一定要这样吗?

我们并不这么认为。我们的努力表明,一个精心设计的、以人为中心的On-Call过程,通过在我们的轮换中拥有热情的、积极的和有效的工程师而得到回报。我们是怎么做到的?以人为本。

On-Call人员也是人。这就是On-Call的强大之处;当安全系统、弹性架构和自动补救措施停止工作时,没有任何机器能够接近人类对复杂系统中的新故障作出反应和适应的能力。与机器不同,人类无法承受24/7的正常运行时间或持续100%的CPU使用率。职业倦怠很糟糕,对他们周围的人来说很糟糕,对公司来说失去一个聪明能干的工程师很糟糕,但对个人来说真的很糟糕。有效的On-Call也是人性化的On-Call。

首先,我们激励人们。许多On-Call人员根本没有工资;对于公司来说,为告警带来的额外负担、责任、压力和对正常生活的干扰提供补偿才是公平的。人们的积极性还在于有机会在技术上取得进步,并对他们所工作的系统有更多的了解。我们通过将On-Call行为纳入我们的发展和职业进步框架来鼓励和奖励这种行为。

第二,我们解决On-Call的痛苦。减少告警的频率是一个明显的开始;虽然我们实际上永远不会达到100%的可靠性(否则根本就不需要On-Call!),但我们可以通过自动化和仔细的监控设计减少嘈杂的警报和故障的数量。我们把每一个页面都当作一种特殊情况;如果不需要采取行动,我们就调整阈值,甚至删除警报。

第三,良好的On-Call体验从某人加入轮换的那一刻开始。一个常见的经历是被扔进深渊,被期望独自处理事情。在Monzo,每个On-Call人员都会跟随一个更有经验的工程师几个月,这样他们可以练习事件响应,并在一个知识渊博和自信的人指导下,以较低的期望来获得背景知识。

最后,强大的On-Call文化不是一蹴而就的;相反,它来自不断的努力和频繁的迭代。我们有很多尝试过但没有成功的好点子;有一段时间,值班表是在电子表格中手工制作的,就像一个拼图。

改善On-Call的想法的最佳来源是On-Call的人自己。我们经常举行回顾会议,思考如何使On-Call工作做得更好。有时,有一个论坛来发泄是很好的,但我们最有用的改进和想法往往来自于合作的思考。给予人们代理权和改善事情的机会,是赋予On-Call人员权力和改善他们福祉的有力方式。

你可以,也应该改善On-Call状态。我们的系统正变得越来越复杂而关键,当自动化失败时,我们越来越依赖人类来介入。建立快乐、健康的轮值制度是一种超级能力,你也可以通过花时间和精力来激励人们,减少痛点,提供指导,并快速迭代来获得。

我们如何构建本书的结构

SRE虽然涉及复杂的技术系统,但归根结底是一种文化实践。文化是人的产物,这启发我们根据你在组织中的SRE数量来组织本书的各个部分–你具体处理什么,你的一天是怎样的,取决于有多少个SRE工程师。我们将本书的文章分为 “SRE新手” 、0-1个SRE、1-10个SRE、10-100个SRE和 “SRE的未来 ”。

读者如果想找寻先从哪里开始的指导,可以直接跳到最适用于自己的部分;但是,你仍然会发现阅读那些目前并不适用于你日常的部分的文章的价值。

在0到1个SRE时,还没有人被指定为SRE,或者你已经找到了你的第一个SRE,这个角色看起来几乎是孤独的。

在1到10名SRE时,你正在组建一个团队,有知识共享和分工的能力。

在10到100个SRE时,你已经成为一个组织,你需要思考的不仅仅是你所从事的系统,还需要思考如何组织这么多SRE。

“SRE新手” 涵盖了基础性的话题(尽管并不详尽!),对于那些刚刚开始SRE之旅的人来说是很有帮助的,即使是最有经验的SRE,也是一种复习。 “SRE的未来” 包含了一些文章,这些文章探讨了SRE潜在的发展方向,或者是(目前)坐拥时代潮流。

没有必要按照任何特定的顺序阅读本书。你可以从头到尾读一遍。或者,如果你对某个特定的主题感到好奇,可以翻到索引,在那里你可以找到关于该主题的所有文章。把它作为参考指南,或者是灵感的来源–可以在需要的时候提供一个震撼。或者,也许可以建立一个阅读俱乐部,每周一次挑选一篇文章与同事讨论。这就是散文集的魅力所在。我们希望你和我们一样喜欢阅读它们。

结语

SRE系列的文章,有时间我就会翻译一些,希望大家能学到对自己有用的东西。谢谢

翻译不易,转载时请注明原文链接,谢谢

延伸阅读

1.on-call

2.Site Reliability Engineering-中文
   Site Reliability Engineering-english