Table of Contents

Heroes Are Necessary, but Hero Culture Is Not

英雄是必要的,但英雄文化不是必要的

建立健康、可持续的文化需要了解英雄和英雄文化之间的区别。英雄是在危机中产生的,当人们执行非凡的任务来拯救世界时,但这并不意味着你应该鼓励灾难迫使人们成为英雄——这就是英雄文化的作用。

想一想你的SRE【1】什么时候受到广泛的赞扬。根据我的经验,这通常是对夜间事件的回应,当有人牺牲了睡眠来拯救一天时。像这样的事件获得了工程部内外同事的赞誉。是的,我们必须承认事件响应者的英雄行为,但当它偏向于美化这项工作时就变得危险了。

真正的英雄在需要的时候会立即行动起来,但他们不希望其他人,包括他们自己,陷入这些可怕的情况。英雄文化中的SRE将组织推向运营与开发的思维模式,而这正是网站可靠性工程所要摆脱的思维模式。开发人员忽视了与SRE分担他们服务的责任。当有一个SRE on-call【2】工程师来拯救这一天时,为什么还要担心运送更可靠的选择呢?

因此,英雄文化不鼓励预防性工作。如果工作只有在解决紧急情况时才被认可,人们就会被鼓励专注于以紧急情况出现的工作! 这时,垃圾箱火灾驱动的开发就开始发挥作用了:当某件事情急需解决,但并不紧急时,只有当它成为垃圾箱火灾(即已经成为一个事件)时,上面才会买账。

英雄的动机是内在的,因为人们想在非常时期做好工作。在英雄文化中,动机来自外部,因为人们只有在被抛入必须执行非凡工作以维持运转的情况下才会得到奖励。我们需要承认并奖励预防性工作。

当一个问题只能由少数人解决,而这些人觉得只有当他们是拯救世界的关键时才会有积极的关注,不仅(具有讽刺意味)他们成为潜在的故障点,而且这种环境转化为沉重的on-call负担。当他们可靠地响应号召去解决问题时,人们就会产生期望,认为他们每次都能解决问题,而组织也不会努力去避免问题的发生。不断地救火是通往倦怠的必经之路。

从英雄文化回归到英雄,需要找到新的方法来认可工作。这之所以如此困难,原因之一是很难量化什么时候没有发生。我们必须做出预测。

我想到了斯多葛派的消极可视化的做法(Stoic practice of negative visualization)【4】,当你想象一个有更糟糕的事件的生活版本,比如失去工作,来实现对你目前状况的感激。在SRE中,premortem【5】是一个著名的工具,可以用来想象什么会导致项目失败。让我们在项目交付后使用它,庆祝那些没有发生的事情和没有发生的事件背后的人。

同样,我们必须提醒开发人员他们可以做些什么来防止或减少这些情况的危害。 这也应该是潜在客户在技术债务上投资资源的绊脚石。 这是让每个人都参与到团队中努力使他们共同承担的责任变得更好的最佳时机。

英雄文化很容易陷入,但可以应用SRE思维来对抗这种情况。我们可以认识到,英雄是作为团队的一部分做他们最好的工作,而真正的英雄不需要英雄文化来做好事。

我们如何构建本书的结构

SRE虽然涉及复杂的技术系统,但归根结底是一种文化实践。文化是人的产物,这启发我们根据你在组织中的SRE数量来组织本书的各个部分–你具体处理什么,你的一天是怎样的,取决于有多少个SRE工程师。我们将本书的文章分为 “SRE新手” 、0-1个SRE、1-10个SRE、10-100个SRE和 “SRE的未来 ”。

读者如果想找寻先从哪里开始的指导,可以直接跳到最适用于自己的部分;但是,你仍然会发现阅读那些目前并不适用于你日常的部分的文章的价值。

在0到1个SRE时,还没有人被指定为SRE,或者你已经找到了你的第一个SRE,这个角色看起来几乎是孤独的。

在1到10名SRE时,你正在组建一个团队,有知识共享和分工的能力。

在10到100个SRE时,你已经成为一个组织,你需要思考的不仅仅是你所从事的系统,还需要思考如何组织这么多SRE。

“SRE新手” 涵盖了基础性的话题(尽管并不详尽!),对于那些刚刚开始SRE之旅的人来说是很有帮助的,即使是最有经验的SRE,也是一种复习。 “SRE的未来” 包含了一些文章,这些文章探讨了SRE潜在的发展方向,或者是(目前)坐拥时代潮流。

没有必要按照任何特定的顺序阅读本书。你可以从头到尾读一遍。或者,如果你对某个特定的主题感到好奇,可以翻到索引,在那里你可以找到关于该主题的所有文章。把它作为参考指南,或者是灵感的来源–可以在需要的时候提供一个震撼。或者,也许可以建立一个阅读俱乐部,每周一次挑选一篇文章与同事讨论。这就是散文集的魅力所在。我们希望你和我们一样喜欢阅读它们。

结语

SRE系列的文章,有时间我就会翻译一些,希望大家能学到对自己有用的东西。谢谢

翻译不易,转载时请注明原文链接,谢谢

延伸阅读

1.Site Reliability Engineering-中文
   Site Reliability Engineering-english

2.on-call

3.burnout

4.negative visualization

5.premortem
https://baijiahao.baidu.com/s?id=1651962503620183299&wfr=spider&for=pc