Table of Contents

Bootstrapping SRE in Enterprises

在企业中引导SRE

在大型企业中开始启动SRE[1]之前,必须了解企业需要解决的关键问题,并确定SRE将产生最大影响的领域。这些应该是你的商业案例的主要驱动力,以及你的路线图上的关键交付物。广义上讲,规模较大的组织往往会遭受运行时效率低下的困扰。对SRE的投资减少了生产运行的运维开销(并因此减少了预算),一个共同的激励因素是提高开发人员的生产力和用于驱动战略变革的周期。

然而,这个问题是如何表现出来的却更加细微。例如,具有较高服务水平成熟度的服务可能已经有了完善的运维实践,但与较新的服务相比,由于使用量的增长(即容量限制)和随着时间的推移不断增加的复杂性,可能更不稳定。要知道,在实施过程中,没有一刀切的做法。花时间做研究;与产品经理和值班工程师进行访谈,以了解常见的挑战,并利用可用的数据集(如问题管理数据库、事件事后分析)来确认趋势并消除新近度偏见(recency bias)[2]。

一旦你能阐明一个清晰的SRE的商业案例,确保管理层的支持为实施设定了正确的关注水平。来自其他技术领导和经理的利益相关者的支持对于在整个组织内建立伙伴关系和规模是至关重要的。独立的系统在企业中很少见–你所运维的服务可能依赖于一系列其他的上游和下游服务,所以你的成功与你在整个组织中的领导(navigate)、影响和交付能力直接相关。为你的利益相关者定义明确的角色和责任,以及他们对SRE的期望。为了管理期望,每个季度就一套共同的可衡量的目标和可交付的成果达成共识。定期检查进展情况,在任何工作开始时更频繁地检查(例如每周),直到事情达到稳定状态。

考虑到业务、产品和服务的多样性以及组织结构、环境和系统的复杂性,教科书上的SRE实现很难在企业中得到很好的转化,这些都是随着时间的推移而有机发展的。然而,对于大多数企业来说,将SLO[3]和错误预算引入关键业务服务仍然是建立SRE的关键区别因素,因此很可能是任何实施路线图的核心部分。如果SLOs在你的组织中不是一种现状,则准备投入大量时间来向利益相关者传授SLO的重要性以及如何利用有意义的SLO,以此作为在组织中建立通用语言的一步。

在开始的时候,专注于解决几个关键问题,在这些问题上,SRE可以在短期内显示出最大的影响。这些早期的成功与前面提到的利益相关者建立信任,展示SRE如何为那些不熟悉该学科的人增加价值,帮助确保持续投资,并最终增加你长期成功的可能性。在此基础上,通过并行地驱动战略变更程序来增量地构建。

要考虑如何随时间衡量投资回报——任何项目的进展、结果和成功标准都应该是可量化的。这些可以采取多种形式,从改善SLO、减少工作量、实现OKRs(目标和关键结果),到客户满意度调查。此外,定期向利益相关者征集公开和诚实的反馈。这些都是完善你的方法的有力机制,并根据什么对组织来说是有效的或不有效的,来迭代计划。

在任何大型企业中建立一个成功的团队都不是一件容易的事–对于像SRE这样的学科来说更是如此,因为除了技术交付之外,成功还取决于整个组织的重大文化变革。但这是可能的。

我们如何构建本书的结构

SRE虽然涉及复杂的技术系统,但归根结底是一种文化实践。文化是人的产物,这启发我们根据你在组织中的SRE数量来组织本书的各个部分–你具体处理什么,你的一天是怎样的,取决于有多少个SRE工程师。我们将本书的文章分为 “SRE新手” 、0-1个SRE、1-10个SRE、10-100个SRE和 “SRE的未来 ”。

读者如果想找寻先从哪里开始的指导,可以直接跳到最适用于自己的部分;但是,你仍然会发现阅读那些目前并不适用于你日常的部分的文章的价值。

在0到1个SRE时,还没有人被指定为SRE,或者你已经找到了你的第一个SRE,这个角色看起来几乎是孤独的。

在1到10名SRE时,你正在组建一个团队,有知识共享和分工的能力。

在10到100个SRE时,你已经成为一个组织,你需要思考的不仅仅是你所从事的系统,还需要思考如何组织这么多SRE。

“SRE新手” 涵盖了基础性的话题(尽管并不详尽!),对于那些刚刚开始SRE之旅的人来说是很有帮助的,即使是最有经验的SRE,也是一种复习。 “SRE的未来” 包含了一些文章,这些文章探讨了SRE潜在的发展方向,或者是(目前)坐拥时代潮流。

没有必要按照任何特定的顺序阅读本书。你可以从头到尾读一遍。或者,如果你对某个特定的主题感到好奇,可以翻到索引,在那里你可以找到关于该主题的所有文章。把它作为参考指南,或者是灵感的来源–可以在需要的时候提供一个震撼。或者,也许可以建立一个阅读俱乐部,每周一次挑选一篇文章与同事讨论。这就是散文集的魅力所在。我们希望你和我们一样喜欢阅读它们。

结语

SRE系列的文章,有时间我就会翻译一些,希望大家能学到对自己有用的东西。谢谢

延伸阅读

1.Site Reliability Engineering

2.Recency bias
新近度偏见是一种认知偏见,它倾向于最近发生的事件而不是历史事件。作为一种记忆偏见,新近度偏见赋予 “最近的事件以更大的重要性”,[1]例如,陪审团在解散审议前听到的最后一个律师的结案陈词。

3.Service-Level