Table of Contents

The Third Age of SRE

SRE的第三个时期

在第一个时期,SRE是谷歌的专利,关于它的知识只能通过传播才能离开公司。

在第二个时期,SRE被赋予了自由。2016年的《网站可靠性工程》(Site Reliability Engineering)(O’Reilly)【1】公然表明,一个根本性的变化正在发生,从谷歌内部一个名字奇怪的部门变成了一个普遍知道的职业。自2014年以来,恰如其分的SREcon定期举行,而且越来越成功。在就业市场上,SRE是一个彻头彻尾的热门词汇,到处出现在简历和工作描述中。

SRE令人难以置信的受欢迎程度让我相信我们已经到了第二个时期的后期,它的结束将以当前招聘炒作的有趣反转为标志:我们所知道的专门的SRE角色的结束。

如何做到的?在第二个时期,许多组织很快意识到,他们的规模小得多,无法完全像谷歌那样执行SRE。即使是大到足以维持一个专门的SRE团队的组织——大多数都不能——通常也会得出这样的结论:他们不能仅仅雇用一定数量的SRE来做 “SRE的事情”。相反,每个工程师都必须成为一个兼职的SRE。David N. Blank-Delman的《Seeking SRE》(O’Reilly,2018)记录了许多这样的故事,包括(无耻的插播)(shameless plug)我自己在SoundCloud担任制作工程师时的见证记录。

从这个角度来看,工作市场对SRE的高需求,主要是希望找到一个人在其他工程师中传播SRE知识。一个真正到达第三时期的组织是已经发生了这种情况。所有的工程师都可以戴上SRE的帽子,作为他们工作的一部分,然后至少较小的组织将停止雇用专门的SRE。相反,SRE思维将成为每个工程角色的重要招聘条件。

你可能会问,是什么让这些时期之间的过渡变得必要?对于第二个时期,是云原生技术的民主化和扩散。CNCF发布的非常有洞察力的定义表明,云原生技术甚至允许小型组织迅速达到复杂程度和规模,从而使SRE成为必要的。

对于第三个时期来说,它将是对从事专门的SRE角色而不是直接从事实际产品的工程师部分的优化。一个处于第二时期成熟度的组织,大多数工程师作为兼职的SRE,将意识到剩下的专职SRE的大部分任务可以移交给服务提供商,包括但不限于传统的以基础设施为重点的云供应商。事实上,越来越多的高阶服务的选择,这些服务在其他云服务之上运行,将推动大部分机会的增长。

当然,这也是一种权衡。一个组织越大,自己运行其堆栈的较大部分就越有效(the more efficient it is to run a larger part of its stack on its own),但随着服务提供商的稳定创新,这里的标准正在提高。

我们是否很快就会享受到 “SRE即服务(SRE as a service)”,从而可以完全忘记运维方面的问题?恰恰相反。在第二个时期的情况下,工程师实际上更容易通过依靠组织内的SRE来摆脱一定程度的运维无知。在第三个时期,大多数工程师将非常接近生产,由SRE启发的工具和服务在他们的指尖上实现。为了有效地使用这些,他们将需要一种SRE的思维方式。

SRE在第三个时期的难以想象的力量是,它将(而且必须)进入每个人的头脑。当大学在其计算机科学课程中加入SRE课程时,将是第三个时期开始的一个肯定的标志。

我们如何构建本书的结构

SRE虽然涉及复杂的技术系统,但归根结底是一种文化实践。文化是人的产物,这启发我们根据你在组织中的SRE数量来组织本书的各个部分–你具体处理什么,你的一天是怎样的,取决于有多少个SRE工程师。我们将本书的文章分为 “SRE新手” 、0-1个SRE、1-10个SRE、10-100个SRE和 “SRE的未来 ”。

读者如果想找寻先从哪里开始的指导,可以直接跳到最适用于自己的部分;但是,你仍然会发现阅读那些目前并不适用于你日常的部分的文章的价值。

在0到1个SRE时,还没有人被指定为SRE,或者你已经找到了你的第一个SRE,这个角色看起来几乎是孤独的。

在1到10名SRE时,你正在组建一个团队,有知识共享和分工的能力。

在10到100个SRE时,你已经成为一个组织,你需要思考的不仅仅是你所从事的系统,还需要思考如何组织这么多SRE。

“SRE新手” 涵盖了基础性的话题(尽管并不详尽!),对于那些刚刚开始SRE之旅的人来说是很有帮助的,即使是最有经验的SRE,也是一种复习。 “SRE的未来” 包含了一些文章,这些文章探讨了SRE潜在的发展方向,或者是(目前)坐拥时代潮流。

没有必要按照任何特定的顺序阅读本书。你可以从头到尾读一遍。或者,如果你对某个特定的主题感到好奇,可以翻到索引,在那里你可以找到关于该主题的所有文章。把它作为参考指南,或者是灵感的来源–可以在需要的时候提供一个震撼。或者,也许可以建立一个阅读俱乐部,每周一次挑选一篇文章与同事讨论。这就是散文集的魅力所在。我们希望你和我们一样喜欢阅读它们。

结语

SRE系列的文章,有时间我就会翻译一些,希望大家能学到对自己有用的东西。谢谢

本章是《97 Things Every SRE Should Know》系列的最后一章,翻译的过程也是一个自我认知检验与学习的过程,我很享受这段旅程。如果有问题可以发邮件联系我进行沟通。

翻译不易,转载时请注明原文链接,谢谢

延伸阅读

1.Site Reliability Engineering-中文
   Site Reliability Engineering-english