Table of Contents

Study of Human Factors and Team Culture to Improve Pager Fatigue

研究人的因素和团队文化以改善值班人员的疲劳度

嘈杂的告警会导致值班人员疲劳,但嘈杂是一个主观的想法;对于嘈杂的告警手机,每个团队都有自己的警报阈值。有一种假设是,越多一定意味着越差,这让我想知道:告警手机的数量与On-Call【1】的满意度有关系吗?为了找出答案,我研究了一个由大约200名工程师组成的组织,他们被分成10到20人的团队,其中既有经验丰富的工程师,也有初级工程师。工程师们对他们的待命满意度进行了评分,并对他们的经历进行了详细的反馈。结果令我吃惊。较高的告警数与On-Call满意度没有关联。

我观察了那些满意度高且告警数量多的团队,并跟踪他们以了解他们的工程实践。事实证明,人的因素和团队文化在使工程师对他们的On-Call经历感到更加积极方面发挥了实质性的重要作用。

值班人员的疲劳不在于告警数的多少;一个人可能只有两个告警,但没有改变现状的意识,而另一个人可以有20告警,并在推动系统的持久改进上茁壮成长。我发现,满意的团队拥有自主权的工程师,并被授权在最重要的地方推动系统的变化。此外,讨论想法和庆祝成就是一贯的做法。这导致了一个积极的反馈回路、问责制和合作机会,并有助于避免重复工作。让我们回顾一下On-Call满意度较高的团队的一些工程实践:

  • 技术知识和实践经验是提高On-Call满意度的两个重要因素。成功的团队建立了有效的入职流程,并投资于培训和保持其文档的更新。

  • 良好的沟通和协作对团队的效率具有倍增效应。成功的团队有多次周会,90%的团队成员和经理一起参加,经理积极为会议做出贡献,但不主导讨论。这有助于在自上而下的支持下建立自下而上的文化。工程师们审查了事件趋势、系统性问题、文档改进、自动化等等。这些会议产生的任何后续行动都会导致记录一个工作项目并确定一个所有者。专门的会议按照 “五个为什么” 的流程对事件进行了详细的回顾。无责文化是所有讨论的一个重要组成部分,重点是平台和流程,而不是个人。工程师们感到安全地分享他们的意见。

  • 为了建立一种责任感和所有权的文化,同时也为了庆祝成就,团队有经常性的工程审查和演示会议,有预定的议程或开放式的麦克风风格。这两种会议,结构化的和非结构化的,建立了不同的团队合作动态。任何阻碍因素和优先级的变化都被及时地传达和讨论。

  • 团队建立了一个有效的反馈回路,以确保每个人的声音都能被听到,并且随着时间的推移,On-Call的满意度也被衡量。值班工程师在值班结束后会立即填写调查问卷,包括对短期和中期改进建议的详细反馈。调查结果被定期审查并采取行动。

  • 最后,高度满意的团队表现出高度的同理心,积极主动地寻找机会支持对方。

告警数量并不总是衡量On-Call经验的一个好办法。这个数字并不重要,重要的是处理这个问题的方法。一种信任、所有权、问责制、有效沟通和协作的文化对于建立一个成功的团队至关重要。它为改进流程和技术奠定了基础,从而推动了更好的On-Call体验和服务可靠性。

我们如何构建本书的结构

SRE虽然涉及复杂的技术系统,但归根结底是一种文化实践。文化是人的产物,这启发我们根据你在组织中的SRE数量来组织本书的各个部分–你具体处理什么,你的一天是怎样的,取决于有多少个SRE工程师。我们将本书的文章分为 “SRE新手” 、0-1个SRE、1-10个SRE、10-100个SRE和 “SRE的未来 ”。

读者如果想找寻先从哪里开始的指导,可以直接跳到最适用于自己的部分;但是,你仍然会发现阅读那些目前并不适用于你日常的部分的文章的价值。

在0到1个SRE时,还没有人被指定为SRE,或者你已经找到了你的第一个SRE,这个角色看起来几乎是孤独的。

在1到10名SRE时,你正在组建一个团队,有知识共享和分工的能力。

在10到100个SRE时,你已经成为一个组织,你需要思考的不仅仅是你所从事的系统,还需要思考如何组织这么多SRE。

“SRE新手” 涵盖了基础性的话题(尽管并不详尽!),对于那些刚刚开始SRE之旅的人来说是很有帮助的,即使是最有经验的SRE,也是一种复习。 “SRE的未来” 包含了一些文章,这些文章探讨了SRE潜在的发展方向,或者是(目前)坐拥时代潮流。

没有必要按照任何特定的顺序阅读本书。你可以从头到尾读一遍。或者,如果你对某个特定的主题感到好奇,可以翻到索引,在那里你可以找到关于该主题的所有文章。把它作为参考指南,或者是灵感的来源–可以在需要的时候提供一个震撼。或者,也许可以建立一个阅读俱乐部,每周一次挑选一篇文章与同事讨论。这就是散文集的魅力所在。我们希望你和我们一样喜欢阅读它们。

结语

SRE系列的文章,有时间我就会翻译一些,希望大家能学到对自己有用的东西。谢谢

翻译不易,转载时请注明原文链接,谢谢

延伸阅读

1.on-call