Table of Contents

Everyone Is an SRE in a Small Organization

在小公司中,每个人都是SRE

“网站可靠性工程是答案。”

几年前,当我说服自己在一家小软件公司担任第一个SRE职位时,我是这么想的。最后,我作为一个软件工程师和系统管理员的工作有了一个清晰的机制–当事情出错时,最终的例外处理程序。任何人都有机会采用并实施与大型跨国企业相同的运维方法,这对任何人来说都应该是令人兴奋的。然而,很明显,成功需要脱离脚本。

在小型公司中采用SRE方法具有挑战性。资源是有限的,人才招聘是困难的,客户群也不能想当然。SRE从业者的任务绝大部分结合了多种角色,力求少花钱多办事。工程、系统管理或运维方面的技术背景不太可能是足够的。SRE的成功需要深刻的情感理解、影响力和组织背景,以倡导变革和培养无愧于心的工程文化。SRE的成功意味着建立一种优先考虑用户幸福感的文化,这种结果只有在技术诀窍和人的因素交汇的情况下才能实现。

与标准的教科书方法相反,在这些较小的公司中建立专门的SRE资源,最好的办法是广泛分担责任。对于新的SRE团队来说,在以向客户交付特性来衡量成功与否时,开拓自己的利基市场[1]()并赋予他人权力是一项挑战。可靠性不可能成为头等战略关注点;不能假定它是一个公理,可能只有在被突如其来的故障所蒙蔽时,才会作为一个不方便的问题频繁出现。

当每一项新功能都能推动可衡量的增长并增加服务的实用性时,每个人都有动力去提供任何必要的价值以维护他们未来的生计,这很可能意味着新功能。组织风险“恒温器”的校准更多的是临时性的、不精确的,是由情感动机而不是量化判断驱动的。你可能甚至不需要专门关注可靠性,服务的早期采用者通常会容忍相对较差的正常运行时间!

拥抱 “你来构建,你来运行” 的理念,让组织中的每一个人都能分担可靠性的责任,并广泛利用团队的技能。此外,通过分担运行生产服务的痛苦,发展共享同理心和技术理解的机会也得到了改善,而这些都是大规模运行所必需的。

同样,实施SRE的实践者必须小心翼翼地支持那些促进共享环境而不是集中控制的想法。这个例子通常出现在帮助质量管理的错误尝试中,例如,对于操作上的过度劳累,他们会将告警手机退回(handing back a pager in response to perceived excesses in operational toil.)。遗憾的是,重新安排一个规模为1的优先队列的优先级,不会产生明显的顺序变化。对于小规模的SRE来说,只有一种生产服务需要支持,而且有很大的个人和组织激励来继续提供这种支持。从长远来看,支持分担责任和交流而不是额外的摩擦更有可能产生丰硕的成果。

软件系统的复杂度在不断提高。在广泛的、不断发展的社区支持下,SRE提供了一个可持续发展此类系统的模式,该模式对各种规模的组织都有足够的灵活性。最成功的实施都明白分担责任和减少摩擦的重要性,所有这些都是为了追求客户的成功。

我们如何构建本书的结构

SRE虽然涉及复杂的技术系统,但归根结底是一种文化实践。文化是人的产物,这启发我们根据你在组织中的SRE数量来组织本书的各个部分–你具体处理什么,你的一天是怎样的,取决于有多少个SRE工程师。我们将本书的文章分为 “SRE新手” 、0-1个SRE、1-10个SRE、10-100个SRE和 “SRE的未来 ”。

读者如果想找寻先从哪里开始的指导,可以直接跳到最适用于自己的部分;但是,你仍然会发现阅读那些目前并不适用于你日常的部分的文章的价值。

在0到1个SRE时,还没有人被指定为SRE,或者你已经找到了你的第一个SRE,这个角色看起来几乎是孤独的。

在1到10名SRE时,你正在组建一个团队,有知识共享和分工的能力。

在10到100个SRE时,你已经成为一个组织,你需要思考的不仅仅是你所从事的系统,还需要思考如何组织这么多SRE。

“SRE新手” 涵盖了基础性的话题(尽管并不详尽!),对于那些刚刚开始SRE之旅的人来说是很有帮助的,即使是最有经验的SRE,也是一种复习。 “SRE的未来” 包含了一些文章,这些文章探讨了SRE潜在的发展方向,或者是(目前)坐拥时代潮流。

没有必要按照任何特定的顺序阅读本书。你可以从头到尾读一遍。或者,如果你对某个特定的主题感到好奇,可以翻到索引,在那里你可以找到关于该主题的所有文章。把它作为参考指南,或者是灵感的来源–可以在需要的时候提供一个震撼。或者,也许可以建立一个阅读俱乐部,每周一次挑选一篇文章与同事讨论。这就是散文集的魅力所在。我们希望你和我们一样喜欢阅读它们。

结语

SRE系列的文章,有时间我就会翻译一些,希望大家能学到对自己有用的东西。谢谢

延伸阅读

1.Site Reliability Engineering

2.利基市场

利基市场是在较大的细分市场中具有相似兴趣或需求的一小群顾客所占有的市场空间。大多数成功的创业型企业一开始并不在大市场开展业务,而是通过识别较大市场中新兴的或未被发现的利基市场而发展业务。