Table of Contents

The Importance of Margins in Systems

系统中边际的重要性

边际是处理不确定性的工具,也是管理技术或人类系统时需要平衡的多个目标之一。在从心理学到机械工程再到排队理论和可靠性工程等领域,一个系统的适应能力(在某些情况下,甚至完全发挥作用)关键取决于作为系统一部分的时间和空间缓冲。正如我所讨论的边际对个人的价值一样,边际对系统也很重要。

在功能系统的设计中必须包括边际,以考虑不确定性和单个系统容差的累加效应。计算机网络是一个很好的例子,边际的计算是实践中的一个标准部分。确保路径中的每条网络链路都有超出预期带宽使用量的多余容量,是管理网络性能的一个关键部分。旧的经验法则是升级任何平均利用率为50%的链路;其中一部分是考虑到采购过程中的准备时间,但另一部分是为了优雅地处理瞬时流量负载中不可预测的峰值。

新的指导方针,以及QOS(服务质量)优先化等措施,使网络工程师能够将平均利用率推到70-80%的范围内,只要他们对通过其链路的流量有良好的了解。在不太确定的情况下,需要更高的利润率。如果平均利用率的增长远远超过这些水平,延迟和丢包的水平就会迅速增长,超过可接受的水平。

导致网络工程中需要保证金的排队理论的基本原理也适用于许多领域。大量的研究与医院手术室的安排有关,试图确定在面对病人取消、不确定的手术时间以及非常昂贵的设备和人力资源时的最佳利用平衡。如果你遇到过令人无法接受的漫长的看病等待,那可能是因为他们被过度安排了,而缺乏边际造成了服务上的延迟。

就像网络和手术室一样,团队在超计划时也会遇到问题。这是Dominica DeGrandis的《让工作看得见》中的核心原则。团队的负荷常常被忽视。如果没有对团队工作量的全面了解,他们(或他们的管理层)就不能正确地分配任务工作,同时为学习和处理意外变化保留必要的边际。

Avery Pennarun【1】和Will Larson【2】分别开发了团队生产力(从交付给最终用户的价值来看)在面对变化的目标和过多的任务时如何波动的模拟。这些模拟强调了适当数量的边际的重要性。在面对更大的不确定性时,需要更多的边际来保持团队的有效生产。

多少边际取决于系统的情况。如果没有足够的边际,当最轻微的破坏导致广泛的系统故障时,系统就会束手无策,因为没有适应能力。如果边际太大,系统就不能达到最大的生产力,因为工作被分散到系统的空隙中去了。当我们与复杂的、分布式的社会技术系统合作时,我们需要不断地重新评估我们在约束和自由度之间的平衡,以优化我们团队和系统的产出。

我们如何构建本书的结构

SRE虽然涉及复杂的技术系统,但归根结底是一种文化实践。文化是人的产物,这启发我们根据你在组织中的SRE数量来组织本书的各个部分–你具体处理什么,你的一天是怎样的,取决于有多少个SRE工程师。我们将本书的文章分为 “SRE新手” 、0-1个SRE、1-10个SRE、10-100个SRE和 “SRE的未来 ”。

读者如果想找寻先从哪里开始的指导,可以直接跳到最适用于自己的部分;但是,你仍然会发现阅读那些目前并不适用于你日常的部分的文章的价值。

在0到1个SRE时,还没有人被指定为SRE,或者你已经找到了你的第一个SRE,这个角色看起来几乎是孤独的。

在1到10名SRE时,你正在组建一个团队,有知识共享和分工的能力。

在10到100个SRE时,你已经成为一个组织,你需要思考的不仅仅是你所从事的系统,还需要思考如何组织这么多SRE。

“SRE新手” 涵盖了基础性的话题(尽管并不详尽!),对于那些刚刚开始SRE之旅的人来说是很有帮助的,即使是最有经验的SRE,也是一种复习。 “SRE的未来” 包含了一些文章,这些文章探讨了SRE潜在的发展方向,或者是(目前)坐拥时代潮流。

没有必要按照任何特定的顺序阅读本书。你可以从头到尾读一遍。或者,如果你对某个特定的主题感到好奇,可以翻到索引,在那里你可以找到关于该主题的所有文章。把它作为参考指南,或者是灵感的来源–可以在需要的时候提供一个震撼。或者,也许可以建立一个阅读俱乐部,每周一次挑选一篇文章与同事讨论。这就是散文集的魅力所在。我们希望你和我们一样喜欢阅读它们。

结语

SRE系列的文章,有时间我就会翻译一些,希望大家能学到对自己有用的东西。谢谢

翻译不易,转载时请注明原文链接,谢谢

延伸阅读

1.
Avery Pennarun (2018). “The Math behind Project Scheduling, Bug Tracking, and Triage”
Avery Pennarun (2017). “SimSWE Part 1: Indecisiveness Simulator”.
Avery Pennarun (2017).“SimSWE Part 2: The Perils of Multitasking”.

2. Will Larson (2019). “Why Limiting Work-in-Progress Works”.