Table of Contents

SRE, at Any Size, Is Cultural

无论规模大小,SRE都是一种文化

当今的现代商业环境是一个复杂的地方,以有限的资源快速发展,以追求持续地交付客户价值。维护可靠的系统是一项错综复杂、注重细节的任务,在这个大背景下很难确定优先级。传统观念上看,在构建系统的同时保持生产的正常运行时间所需的努力很少被人理解,这是一个隐含在边缘的要求,是委托给技术团队的负担。

领导者在进行这种权衡时,会有很大的风险。对预期可靠性的理解和完善的风险恒温器并不是可有可无的额外选择;今天,它们是第一级的要求。虽然工程师和领导者都明白这一点,但组织中的等级制度和缺乏共享的背景是一种危险,阻碍了构建可靠系统的综合方法的发展。

SRE[1]迎来了认识到这些挑战的文化。通过量化手段,SRE明确了运行可靠性和客户满意度之间的关系。通过优先考虑长期的、客观的成功衡量标准,SRE促进了对可靠性的持续协商,其结果得到了更广泛的组织目标的支持。如果做得好,它强调了人类在不断创造成功条件方面的重要性,而不是强调导致失败的每一个疏漏。

例如,虽然采用SRE的许多方面是每个组织的实施细节,但错误预算被认为是一个基本的、不可改变的属性,可以通过它来判断任何SRE文化的有效性。将可靠性提炼成一个单一的、容易理解的数字,并将其传播到整个组织中,促进了可靠性作为头等关注点的共同语言。将可靠性视为另一个业务指标,使其能够在其他业务需求优先的情况下进行协商和交易。

然而,尽管SRE在定量分析中有着深厚的根基,但具有讽刺意味的是,SRE文化的成功采用和维护仍然与从业人员的软技能有关。人际关系、共同的信任和摒弃等级制度所产生的权力关系是成功的SRE文化产生的关键。这种文化的采用为我们提供了一个公平竞争的机会,并为获得成功而共同努力–但是抓住这些机会是关键。

我们经常听到这样的说法:忠实地采用SRE文化不能通过重新改造现有的基础设施或运维团队来实现。如果工程师们的努力和个人牺牲不能在战略层面产生共鸣,那么这些努力和牺牲就毫无意义。同样,如果没有共同的语言来沟通,领导者所承担的经过计算的风险也无法被理解或量化。正是由于这些原因,传统的运维团队不可能在一夜之间成为SRE。尽管已知的工程师担心在低于零度的发射温度下轨道飞行器的安全性,美国国家航空航天局(NASA)的管理人员还是批准了挑战者号航天飞机的发射,以避免已经陷入困境的计划被推迟。当工程师和领导者在孤立的真空环境中工作时,彼此之间的内省行为、共同的同理心和相互信任就无法发展。

SRE提供了一种共同的语言来平衡工程师和领导者之间的竞争环境——量化的方法来确定和整合相互冲突的目标,通过向利益相关者和客户提供新的功能价值来保持竞争力。然而,可持续地实践SRE从根本上讲是一个组织问题,是一个有效沟通、信任和自主权的问题,所有这些都很难获得,也很容易失去,特别是当团队专注于采用SRE的带宽有限的情况下(especially when team bandwidth to focus on its adoption is limited)。

成功采用SRE不仅仅是软件操作的自动化,而是一种文化。

我们如何构建本书的结构

SRE虽然涉及复杂的技术系统,但归根结底是一种文化实践。文化是人的产物,这启发我们根据你在组织中的SRE数量来组织本书的各个部分–你具体处理什么,你的一天是怎样的,取决于有多少个SRE工程师。我们将本书的文章分为 “SRE新手” 、0-1个SRE、1-10个SRE、10-100个SRE和 “SRE的未来 ”。

读者如果想找寻先从哪里开始的指导,可以直接跳到最适用于自己的部分;但是,你仍然会发现阅读那些目前并不适用于你日常的部分的文章的价值。

在0到1个SRE时,还没有人被指定为SRE,或者你已经找到了你的第一个SRE,这个角色看起来几乎是孤独的。

在1到10名SRE时,你正在组建一个团队,有知识共享和分工的能力。

在10到100个SRE时,你已经成为一个组织,你需要思考的不仅仅是你所从事的系统,还需要思考如何组织这么多SRE。

“SRE新手” 涵盖了基础性的话题(尽管并不详尽!),对于那些刚刚开始SRE之旅的人来说是很有帮助的,即使是最有经验的SRE,也是一种复习。 “SRE的未来” 包含了一些文章,这些文章探讨了SRE潜在的发展方向,或者是(目前)坐拥时代潮流。

没有必要按照任何特定的顺序阅读本书。你可以从头到尾读一遍。或者,如果你对某个特定的主题感到好奇,可以翻到索引,在那里你可以找到关于该主题的所有文章。把它作为参考指南,或者是灵感的来源–可以在需要的时候提供一个震撼。或者,也许可以建立一个阅读俱乐部,每周一次挑选一篇文章与同事讨论。这就是散文集的魅力所在。我们希望你和我们一样喜欢阅读它们。

结语

SRE系列的文章,有时间我就会翻译一些,希望大家能学到对自己有用的东西。谢谢

延伸阅读

1.Site Reliability Engineering