Table of Contents

The SRE as a Diplomat

作为外交官的SRE

尽管有共同的途径,但没有两个组织以相同的方式实施站点可靠性工程实践——不幸的是,当首次推出 SRE 功能时,这一事实很少被承认,更不用说承认了,尤其是在 团队传统上以完全自主和相互独立的方式运作的组织。

对于那些团队完全拥有一项服务的所有权,从它的开发一直到它的持续运营需求的组织来说,发展团队特定的做法是很常见的,也是必要的。在系统生命周期的早期,这种完全所有权的模式可以很好地推动业务目标的实现,但当成熟的团队需要采用共享的可靠性实践和工具时,它最终会阴差阳错地演变成未解决的技术债务。

在工程领导的支持下,成熟的动力无疑将包括试图灌输标准化,因为他们发现团队之间的流程和工具的异质性是采用SRE所承诺的向卓越运营逐步迈进的障碍。尽管从表面上看是有益的,但由于这些变化对他们的工作和工作方式的影响,团队很难吸收。只要功能需求不断涌现,运营改进就会被放在次要位置。弥合领导层的意图和团队内部的实际影响之间的这种差距,需要以SRE的形式出现在这些团队中,成为变革的代理人。

那些认为自己是自给自足的团队并不总是有动力与传统的和外部的SRE职能部门合作,要求改变他们的运作方式——即使这些改变会明显地改善事情。不管是什么原因,在这些团队之间建立桥梁需要我们首先建立信任。促进这种信任建立的方法之一是采取非传统的方法,将SRE直接嵌入这些团队中,类似于在外国土地上建立大使馆,以改善与其他国家的关系。

这些SRE扮演着外交官的角色,在利益相关者的十字路口工作,寻求在大型工程组织中成功采用SRE实践。他们通过收集各团队的关注点、制约因素和条件来处理问题,从而提出一条使所有团队长期受益的前进道路。他们在其所在团队的即时运营需求和整个工程组织的卓越运营的长期目标之间取得平衡。他们是专家,必须小心翼翼地发起和促进团队间的战略协议,并代表他们的东道主团队与工程领导层达成协议。

我把这些外交官称为 “前沿部署的SREs”,或fdSREs。实施SRE需要工程师、运维人员和领导层之间的密切协作,并通过人际关系的技巧和外交手段来促进。fdSRE正处于利益相关者需求的十字路口,这些利益相关者寻求在大型工程组织中成功采用SRE实践。

随着SRE的实践在我们的行业中不断被采用,工程团队很快意识到,由于一些原因,公布的最佳实践并不总是整齐地适合他们的组织。对你的团队来说,SRE是什么样子的,需要一些创造性,并愿意打破现成模式中提出的规定性模式。当信任和建立联盟是你需要在你的组织内推进SRE的采用时,给外交一个机会。

要了解更多关于FdSRE的品质,请看我的文章,第77章。

(这篇文章中所分享的经验不仅来自于生活经验,也来自于与以下同事和业界同行的对话,在此我要感谢他们。Sarah Sherbondy, Paul Lathrop, Will Barnette, Steve Conklin, Kimberly Lowe-Williams, and Christian Funkhouser。)

我们如何构建本书的结构

SRE虽然涉及复杂的技术系统,但归根结底是一种文化实践。文化是人的产物,这启发我们根据你在组织中的SRE数量来组织本书的各个部分–你具体处理什么,你的一天是怎样的,取决于有多少个SRE工程师。我们将本书的文章分为 “SRE新手” 、0-1个SRE、1-10个SRE、10-100个SRE和 “SRE的未来 ”。

读者如果想找寻先从哪里开始的指导,可以直接跳到最适用于自己的部分;但是,你仍然会发现阅读那些目前并不适用于你日常的部分的文章的价值。

在0到1个SRE时,还没有人被指定为SRE,或者你已经找到了你的第一个SRE,这个角色看起来几乎是孤独的。

在1到10名SRE时,你正在组建一个团队,有知识共享和分工的能力。

在10到100个SRE时,你已经成为一个组织,你需要思考的不仅仅是你所从事的系统,还需要思考如何组织这么多SRE。

“SRE新手” 涵盖了基础性的话题(尽管并不详尽!),对于那些刚刚开始SRE之旅的人来说是很有帮助的,即使是最有经验的SRE,也是一种复习。 “SRE的未来” 包含了一些文章,这些文章探讨了SRE潜在的发展方向,或者是(目前)坐拥时代潮流。

没有必要按照任何特定的顺序阅读本书。你可以从头到尾读一遍。或者,如果你对某个特定的主题感到好奇,可以翻到索引,在那里你可以找到关于该主题的所有文章。把它作为参考指南,或者是灵感的来源–可以在需要的时候提供一个震撼。或者,也许可以建立一个阅读俱乐部,每周一次挑选一篇文章与同事讨论。这就是散文集的魅力所在。我们希望你和我们一样喜欢阅读它们。

结语

SRE系列的文章,有时间我就会翻译一些,希望大家能学到对自己有用的东西。谢谢

翻译不易,转载时请注明原文链接,谢谢

延伸阅读

1.Site Reliability Engineering-中文
   Site Reliability Engineering-english