Table of Contents

Solo SRE: Effecting Large-Scale Change as a Single Individual

单独的SRE: 以个人身份进行大规模的变革

作为公司中唯一的SRE,通常是通过两种途径之一:你已经有过去的SRE经验,并且你是作为组织的第一个SRE员工加入组织的,或者你是现有组织中的工程师,并且你已经看到引入SRE文化和实践如何改善痛点并最终改善你的产品生命周期。

作为一个单独的SRE,一开始可能会看到一个可能是无穷无尽的需要解决的痛点清单,这似乎令人生畏。通常这包括反复出现的生产中断,甚至可能是由少数几个共同的根本原因造成的。你真的能在所需的规模上实现这种改变吗?是的!

在决定首先要解决的问题时,请考虑最常见或最有影响力的痛点,并在较小的区域之间进行灭火(fighting fires),你可以做出最大的影响,这是由于两次灭火(fighting fires)之间的可用时间可能有限。 通常,一些最大的胜利包括缺乏可观察性,结构化的事件管理或测试和发布程序不足。

如果没有可观察性,你如何确定你的产品(也就是服务)的性能、健康状况或用户的幸福感?提高可观察性可以是任何事情,从实现日志记录、添加适当的日志上下文、添加或配置监控、开指标,或添加请求跟踪,以便在出现问题时帮助调试故障,因为,让我们面对现实吧,它们确实会出现。(you can help debug failures when things go wrong because, let’s face it, they will.)

可观察性之后,事件管理是自然而然的进步,因为您必须首先能够检测到事件,然后才能对其进行管理。事件管理的重点是如何在一个定义明确、清晰和结构化的流程中管理事件,并支持诸如运行手册之类的文档,这些文档提供了有关如何为故障服务提供服务的详细说明。

你的事件管理流程应该规定管理事件的期望和角色,以及这些角色的职责。通常情况下,事件管理角色包括事件指挥官、技术负责人和通信负责人,尽管事件的规模和组织的合规性要求通常会决定在事件中是由一个人处理所有角色还是由不同的人处理。

测试和发布程序不足往往既是事故的根源,又会在事故发生时不必要地延长事故时间。这通常是由于过程中缺乏可重复性造成的,这些过程通常涉及大量的人工流程,容易出错,完成速度也很慢。寻找可以从自动化中受益的机会是提高可重复性并减少这些操作的周期时间的好方法。

通过从小处着手并获得一些快速的成功,你将能够通过渐进式的变化来证明SRE的积极好处,并减少你自己或其他工程师的日常工作。

展示这种积极的变化并让其他人参与到这个过程中来,是发展你的SRE文化的重要一步,你很快就会发现,越来越多的工程师会表现出学习和接受你正在努力建立的SRE文化的意愿。

作为一名单独的SRE,最重要的一点是,虽然你可以在公司内实现变革,但你不能单独完成,所以不要试图将公司问题的重担只放在自己的肩上。对你自己和公司来说,最糟糕的事情就是试图把所有的事情都揽在自己身上。在一些极端的情况下,这可能会导致职业倦怠。你的心理健康很重要。请记住这一点!

我们如何构建本书的结构

SRE虽然涉及复杂的技术系统,但归根结底是一种文化实践。文化是人的产物,这启发我们根据你在组织中的SRE数量来组织本书的各个部分–你具体处理什么,你的一天是怎样的,取决于有多少个SRE工程师。我们将本书的文章分为 “SRE新手” 、0-1个SRE、1-10个SRE、10-100个SRE和 “SRE的未来 ”。

读者如果想找寻先从哪里开始的指导,可以直接跳到最适用于自己的部分;但是,你仍然会发现阅读那些目前并不适用于你日常的部分的文章的价值。

在0到1个SRE时,还没有人被指定为SRE,或者你已经找到了你的第一个SRE,这个角色看起来几乎是孤独的。

在1到10名SRE时,你正在组建一个团队,有知识共享和分工的能力。

在10到100个SRE时,你已经成为一个组织,你需要思考的不仅仅是你所从事的系统,还需要思考如何组织这么多SRE。

“SRE新手” 涵盖了基础性的话题(尽管并不详尽!),对于那些刚刚开始SRE之旅的人来说是很有帮助的,即使是最有经验的SRE,也是一种复习。 “SRE的未来” 包含了一些文章,这些文章探讨了SRE潜在的发展方向,或者是(目前)坐拥时代潮流。

没有必要按照任何特定的顺序阅读本书。你可以从头到尾读一遍。或者,如果你对某个特定的主题感到好奇,可以翻到索引,在那里你可以找到关于该主题的所有文章。把它作为参考指南,或者是灵感的来源–可以在需要的时候提供一个震撼。或者,也许可以建立一个阅读俱乐部,每周一次挑选一篇文章与同事讨论。这就是散文集的魅力所在。我们希望你和我们一样喜欢阅读它们。

结语

SRE系列的文章,有时间我就会翻译一些,希望大家能学到对自己有用的东西。谢谢

延伸阅读

1.Site Reliability Engineering