Table of Contents

Sneaking in Your DevOps Deliciously

巧妙地潜入你的 DevOps

当我在《纽约时报》谈论DevOps时,人们会感到惊讶。我的意思是,我们已经有100多年的历史了。我们是怎么做到的?推动文化变革意味着你必须狠狠地投入到这个事业中。抓住每一个机会来倡导这个价值,即使这意味着要偷偷摸摸地做这件事。任何在孩子的食物中偷偷加入蔬菜的父母都知道我在说什么。

也许这看起来具有欺骗性。我的意思是,我们难道不应该公开说我们都要致力于可靠性,而只是让我们的领导层知道优先考虑它吗?当然,在一个完美的世界里,这是真的,但推动文化变革意味着你不仅要对愿景充满热情,还要有足够的耐心,知道人们将需要一段时间的辅助(training wheel)。

DevOps文化意味着它已经根植于我们所做的一切。这不仅仅是把它当作特殊的东西,而是让它成为我们DNA的一部分。这就是为什么我们塑造了我们的选举准备工作——包括地球上每个人都听说过的选举针(election needle)【1】——不只是关注一个晚上,而是关注如何为创建一个运作成熟的组织奠定基础。

我们没有列出应用程序,而是从确定关键工作流程或关键用户体验开始。我们的用户,或我们内部所说的内部客户,是新闻编辑部(Newsroom)、读者(Readers)和业务人员(Business workers)。一个工作流程的例子是,”新闻室可以在我们的网站上发布一篇文章”。接下来,我们会确定每个工作流程所需的系统。支持一个功能的系统可以跨越多个团队甚至部门,但这并不重要。创建这个视图使我们能够专注于客户的整体体验,而不仅仅是一个特定的团队。它还确保了公司里的每个人都能达成一致。

然后,该工作流中的每个工作流和系统都被划分为一个关键级别。 我们为每个级别的关键性创造了期望。 将其与工作流视图相结合,使我们能够同时查看工作流和系统级别的弹性。 单个团队不再需要单独承担负担。

我们与团队进行了架构审查。这是对架构的详细评估,以确定任何有风险的区域、库存运行手册,并发现系统如何协同工作。

我们带领团队通过一个运营成熟度模型的评分标准,详细说明了服务供应和退役或容量规划等做法。这突出了团队可以集中精力的地方,并对他们的应用程序的可靠性产生最大的影响。

我们定期对生产进行性能测试,以衡量系统和团队如何处理不断增加的负载或各种情况。之后,我们举行了一次学习回顾,回顾时间线并确定如何改进。

如果所有这些听起来都不是特别光鲜,这就是部分目的。就像我说的,我们是蔬菜——嘿,蔬菜做得好就很好吃。有时蔬菜是明星,有时他们作为一个突出的伴唱歌手更好。

我认为,通过影响力推动变革的一个重要因素是,不要在某些努力中占据中心位置,而是合作并指导那些处于中心位置的人。我的团队是我们网站和应用程序的舞台工作人员(stage crew)【2】。尽管如此,我不会只从一个事件中衡量成功——作为一个组织,我们还有很长的路要走和学习——但是前面提到的实践和过程让我们能够关注事件之外的事情。

我们的成功是当你不知道我们在那里的时候。在这个新闻密集的时期,我们的网站继续提供可靠的用户体验,与我们的新闻质量相称。对于超过100年的历史来说,这并不坏。

我们如何构建本书的结构

SRE虽然涉及复杂的技术系统,但归根结底是一种文化实践。文化是人的产物,这启发我们根据你在组织中的SRE数量来组织本书的各个部分–你具体处理什么,你的一天是怎样的,取决于有多少个SRE工程师。我们将本书的文章分为 “SRE新手” 、0-1个SRE、1-10个SRE、10-100个SRE和 “SRE的未来 ”。

读者如果想找寻先从哪里开始的指导,可以直接跳到最适用于自己的部分;但是,你仍然会发现阅读那些目前并不适用于你日常的部分的文章的价值。

在0到1个SRE时,还没有人被指定为SRE,或者你已经找到了你的第一个SRE,这个角色看起来几乎是孤独的。

在1到10名SRE时,你正在组建一个团队,有知识共享和分工的能力。

在10到100个SRE时,你已经成为一个组织,你需要思考的不仅仅是你所从事的系统,还需要思考如何组织这么多SRE。

“SRE新手” 涵盖了基础性的话题(尽管并不详尽!),对于那些刚刚开始SRE之旅的人来说是很有帮助的,即使是最有经验的SRE,也是一种复习。 “SRE的未来” 包含了一些文章,这些文章探讨了SRE潜在的发展方向,或者是(目前)坐拥时代潮流。

没有必要按照任何特定的顺序阅读本书。你可以从头到尾读一遍。或者,如果你对某个特定的主题感到好奇,可以翻到索引,在那里你可以找到关于该主题的所有文章。把它作为参考指南,或者是灵感的来源–可以在需要的时候提供一个震撼。或者,也许可以建立一个阅读俱乐部,每周一次挑选一篇文章与同事讨论。这就是散文集的魅力所在。我们希望你和我们一样喜欢阅读它们。

结语

SRE系列的文章,有时间我就会翻译一些,希望大家能学到对自己有用的东西。谢谢

翻译不易,转载时请注明原文链接,谢谢

延伸阅读

1.election needle
2.stage crew
Running crew, run crew or stage crew, is a collective term used in theatre to describe the members of the technical crew who supervise and operate (“run”) the various technical aspects of the production during a performance.[1][2] While the “technical crew” includes all persons other than performers involved with the production, such as those who build and take down the sets and place the lighting, the term “running crew” is generally limited to those who work during an actual performance.

The term is typically not applied to crew or department heads, although there are exceptions. The running crew may include performers if they also function in technical capacities while offstage.