Table of Contents

Effecting SRE Cultural Changes in Enterprises

在企业中实现SRE文化的转变

大多数成熟的组织都有一套根深蒂固的实践、工具和流程。引入SRE【1】意味着克服惯性,需要投入大量的时间进行教育,并不断加强实践和行为。

改变是困难的,特别是在大型组织。试图快速改变太多,会导致混乱并导致怀疑。我们是习惯的产物——常规的突然改变,以及在舒适区之外的活动通常会引起最初的怀疑。大多数文化变革也是反复进行的,不可能一开始就完美无缺,所以如果人们遇到了不好的经历,或者第一次没有达到预期的效果,负面的看法会很快在整个组织内传播。

为了避免这种情况,最初要把重点放在少数最关键的行为上,以适应这种情况。换句话说,找到在你的工作场所成功实施SRE的关键阻碍因素。例如,如果开发人员和SRE之间不存在共同的责任模式,那么也许可以从这里开始,因为这是使SRE正确的基础。

在确定你的重点领域后,决定如何最好地促进行为的改变。当公司没有这样的工具时,希望所有的服务都有SLO,或者当讨论事件的论坛不存在时,要求进行无责的事后分析,这都是不可取的。重要的是要确定差距在哪里,然后建立一个明确的路线图,首先奠定所需的基础。如果你有有效的工具和流程,与你希望工程师采用的行为相一致,这将最终成为常规,并随着时间的推移自然导致思维以及文化的改变。

文化的改变是关于人的,而不是系统的,所以不能用构建软件的思维方式来处理。一个由摇滚明星SRE组成的团队并不能保证成功。除了雇用和培训SRE,在你的组织中找出善于授权他人和建立信任的文化载体。向他们传授技能,帮助他们在整个组织内传播意识和知识。当我们观察那些以身作则的人并与他们一起工作时,比从象牙塔里收到的信息更容易接受变化。

各个层面的人都需要参与,因为在文化转变方面,不可能只是一个人的责任,也不可能是一个人就能做好的事情。自上而下的任务很少能成功地推动大型组织的长期行为变化。然而,高管们在确保组织理解变革的重要性并保持关注方面确实发挥了巨大作用,而定期的自上而下的沟通是实现这一目标的关键。

提供透明度和确定正确的激励措施对于任何大规模变革项目的成功都是至关重要的。人们需要看到并相信改变的价值,才能坚持下去。对于哪些结果是重要的,哪些指标反映了行为的成功改变,要深思熟虑。

例如,如果你想鼓励事后检查,以遏制重复的问题和减少风险,行为改变和成功的真正指标将是工程师是否在贯彻和完成行动项目。衡量这些,并同意奖励示范行为的激励结构,例如使用错误预算来推动决策的团队,或者那些在整个组织内培养无责文化的团队。

当每个人都接受并同意投资于一个战略时,就会有这样的信念:把这个事情做好会使组织变得更好,每个人都会因此而受益。建立SRE思维及其实践是任何SRE团队长期、可持续成功的基础。

我们如何构建本书的结构

SRE虽然涉及复杂的技术系统,但归根结底是一种文化实践。文化是人的产物,这启发我们根据你在组织中的SRE数量来组织本书的各个部分–你具体处理什么,你的一天是怎样的,取决于有多少个SRE工程师。我们将本书的文章分为 “SRE新手” 、0-1个SRE、1-10个SRE、10-100个SRE和 “SRE的未来 ”。

读者如果想找寻先从哪里开始的指导,可以直接跳到最适用于自己的部分;但是,你仍然会发现阅读那些目前并不适用于你日常的部分的文章的价值。

在0到1个SRE时,还没有人被指定为SRE,或者你已经找到了你的第一个SRE,这个角色看起来几乎是孤独的。

在1到10名SRE时,你正在组建一个团队,有知识共享和分工的能力。

在10到100个SRE时,你已经成为一个组织,你需要思考的不仅仅是你所从事的系统,还需要思考如何组织这么多SRE。

“SRE新手” 涵盖了基础性的话题(尽管并不详尽!),对于那些刚刚开始SRE之旅的人来说是很有帮助的,即使是最有经验的SRE,也是一种复习。 “SRE的未来” 包含了一些文章,这些文章探讨了SRE潜在的发展方向,或者是(目前)坐拥时代潮流。

没有必要按照任何特定的顺序阅读本书。你可以从头到尾读一遍。或者,如果你对某个特定的主题感到好奇,可以翻到索引,在那里你可以找到关于该主题的所有文章。把它作为参考指南,或者是灵感的来源–可以在需要的时候提供一个震撼。或者,也许可以建立一个阅读俱乐部,每周一次挑选一篇文章与同事讨论。这就是散文集的魅力所在。我们希望你和我们一样喜欢阅读它们。

结语

SRE系列的文章,有时间我就会翻译一些,希望大家能学到对自己有用的东西。谢谢

翻译不易,转载时请注明原文链接,谢谢

延伸阅读

1.Site Reliability Engineering-中文
   Site Reliability Engineering-english