Table of Contents

The Best Advice I Can Give to Teams

我能给团队的最佳建议

如果我不得不说一件事,那就是:整合你的团队。

就这样吧。这就是建议。一起工作。多交流。

如果说在过去十年(或更长时间)里,我们在开发和交付软件方面学到了一件事,那就是更多的交流和更少的孤岛是关键。这真的是所有关于信息流的问题。这一点对SRE【1】团队来说也不奇怪。划分出另一个特殊的团队只是创造了一个新的孤岛,他们的工作和影响力无法触及最需要它的人。通过将SRE团队与他们所支持的开发团队分开——有时是通过创建一个卓越中心——你最终会造成比你解决的问题更多的问题。将SRE与开发团队分离会导致一些问题,包括:

精英主义(Elitism)
  我明白,成为特殊俱乐部的一员感觉很好,但通过隔离专业知识,你只是创造了一个瓶颈,限制了其他人完成工作的能力。这可能会导致每个人在习得性无助(learned helplessness)【2】的情况下什么都来找你,或者因为过程太难而什么都不找你。这两种情况都不是好事,因为它们会使你远离重要的、高度优先的工作。

知识限制(Knowledge constraints)
  当一个中心小组拥有并囤积了所有的知识时,知识就更难分享,指导就更难,最佳实践就更难推广。

与工作分离(Separation from the work)
  SRE和他们所支持的团队之间的巨大鸿沟会让人觉得有人在指手画脚,中间缺少一个翻译层。如果你从来没有和开发团队一起工作,就很难对他们的工作有真正的感觉。他们也很难理解那些不断反馈给他们的可靠性和可扩展性问题;他们的环境只是在根本上表现得不同。

赞助(Sponsorship)
  办公室政治并不总是有趣的,但这是一个需要记住的重要部分。SRE通常是由高管驱动和赞助的,这使得CoE结构(CoE structure)【3】成为一个冒险的举措。如果你的赞助人离开了公司,或者不再看到你所做的事情的价值,你可能会失去与公司其他部门的强大联系,你的职能可能会被取消。这对你、你的团队和你的用户都不是好事。

什么是最好的整合方式?当然,找到一种最适合你的组织的方式。一个解决方案是将SRE嵌入到开发团队中,通过定期会议来分享工作、最佳实践和业务中出现的模式。(通过培养这种松散的结构,有时被称为实践社区,你会得到两个世界的最好结果:一个共享的社区,而没有孤岛的成本。) 然而,并不总是有足够的SRE嵌入到每个开发团队中。一些组织通过让他们的SRE在开发团队中进行轮换,有时让开发人员在SRE中进行轮换来解决这个问题。

通过在软件交付过程中的合作,SRE可以帮助任何规模的组织专注于用户的观点,优先考虑正确的工作,并采用系统的方法来提高可靠性和可用性。这一切的核心是沟通和协作。

我们如何构建本书的结构

SRE虽然涉及复杂的技术系统,但归根结底是一种文化实践。文化是人的产物,这启发我们根据你在组织中的SRE数量来组织本书的各个部分–你具体处理什么,你的一天是怎样的,取决于有多少个SRE工程师。我们将本书的文章分为 “SRE新手” 、0-1个SRE、1-10个SRE、10-100个SRE和 “SRE的未来 ”。

读者如果想找寻先从哪里开始的指导,可以直接跳到最适用于自己的部分;但是,你仍然会发现阅读那些目前并不适用于你日常的部分的文章的价值。

在0到1个SRE时,还没有人被指定为SRE,或者你已经找到了你的第一个SRE,这个角色看起来几乎是孤独的。

在1到10名SRE时,你正在组建一个团队,有知识共享和分工的能力。

在10到100个SRE时,你已经成为一个组织,你需要思考的不仅仅是你所从事的系统,还需要思考如何组织这么多SRE。

“SRE新手” 涵盖了基础性的话题(尽管并不详尽!),对于那些刚刚开始SRE之旅的人来说是很有帮助的,即使是最有经验的SRE,也是一种复习。 “SRE的未来” 包含了一些文章,这些文章探讨了SRE潜在的发展方向,或者是(目前)坐拥时代潮流。

没有必要按照任何特定的顺序阅读本书。你可以从头到尾读一遍。或者,如果你对某个特定的主题感到好奇,可以翻到索引,在那里你可以找到关于该主题的所有文章。把它作为参考指南,或者是灵感的来源–可以在需要的时候提供一个震撼。或者,也许可以建立一个阅读俱乐部,每周一次挑选一篇文章与同事讨论。这就是散文集的魅力所在。我们希望你和我们一样喜欢阅读它们。

结语

SRE系列的文章,有时间我就会翻译一些,希望大家能学到对自己有用的东西。谢谢

翻译不易,转载时请注明原文链接,谢谢

延伸阅读

1.Site Reliability Engineering-中文
   Site Reliability Engineering-english

2.learned helplessness
“习得性无助”是美国心理学家塞利格曼1967年在研究动物时提出的,他用狗作了一项经典实验,起初把狗关在笼子里,只要蜂音器一响,就给以难受的电击,狗关在笼子里逃避不了电击,多次实验后,蜂音器一响,在给电击前,先把笼门打开,此时狗不但不逃而是不等电击出现就先倒在地开始呻吟和颤抖,本来可以主动地逃避却绝望地等待痛苦的来临,这就是习得性无助。

3.COE
一个卓越中心COE)是一个团队,共享设施或提供领导,一个实体的最佳实践,研究,支持和/或训练的一个重点领域。

由于其广泛的用法和模糊的法律先例,在一种情况下的“卓越中心”可能与另一种情况具有完全不同的特征。重点领域可能是技术(例如Java)、商业概念(例如BPM)、技能(例如谈判)或广泛的研究领域(例如女性健康)。卓越中心也可能旨在振兴停滞不前的举措。[1]该术语也可以指一个机构网络,它们相互合作以在特定领域追求卓越。[2](例如罗彻斯特地区学院数学和科学卓越中心)。相比之下,在欧洲国防共同体中,欧洲应对混合威胁卓越中心是对其周边混合战争的回应;COE 寻求通知并保护其非北约成员以及非PESCO成员。[[3]](h