Table of Contents

Beyond Local Risk: Accounting for Angry Birds

超越局部风险:应对愤怒的小鸟

数据驱动的分析只有在应用于我们已经知道的问题时,才能提供我们想要的工程投资指导——或者无论如何,应该知道。它们已经在我们的风险登记册中了:我们以前见过,如果我们真的将可靠的、可量化的已实现风险历史与它们联系起来,就很可能经常见到。

在处理已知但无法量化的风险,或实际的黑天鹅和未知的未知数时,我们的最大努力往往会失败,我们很快就会到达一个需要神灵或心理治疗的帮助的地方。或者可能两者都需要。

这些东西几乎永远不会出现在我们的数据中,直到为时已晚,或者即使出现了,它们仍然不适合实际计算风险和预测的影响和成本。尽管所有这些东西都是工程师生活中的重要工具,但它们本身并不可靠,或者至少不太可能产生那种能够说服多数副总裁实施 “黄色预警”(Code Yellow)的证据。

然而,这就是事情变得有趣的地方。在一些公司建立失败分类法的过程中,我对将这种机制扩展到单一部门或组织之外的想法非常感兴趣。通过一个更广泛的共享分类法和数据池,我们能够实现什么?如果我们开始把系统故障当作一个承销项目,会怎么样?实际上是建立一个关于不同类型系统的故障类型和频率的工业标准数据库?

从数据共享的角度来看,如果我们开发的用于我们自己的事件报告的影响因素和失败模式的分类法,并且在内部起到了很好的效果,是否被一个开放标准的分类法和度量系统所取代,该系统可用于跨许多组织生成和收集数据?

如果我们在整个行业中对这些事件应用一个共同的分类法,并开发共享的事件报告,结合该分类法的诱因和量化的影响,我们用于模式生成和频率-风险预测的数据集的质量就会发生很大的变化。对单个供应商来说不常见的事情,即使是大规模的,也可能在多个供应商中变得清晰可见。我们可能开始将一些已知的不可量化的风险转移到可预测的风险,甚至将一些局部未知的未知因素转化为已知的失败模式,针对这些情况,我们可以根据它们每年的预期影响采取合理的预防措施。

对我们的不可测量或未知的未知因素(unknown unknowns)的答案,与电气工业和消费电子产品在其早期阶段时面临的答案是一样的,就像今天的计算部门一样。作为一个行业,我们可以致力于为我们的信息系统建立本质上与用于我们的物理系统的精算表相同的东西。

我们已经在预测,如果我们的办公室里有一定的组件和布线代码实现的组合,那么保险公司将不得不因电气火灾而支付保险金的可能性。我们也许可以做同样的事情,来确定与关系数据库相比,在管道上实施生产金丝雀测试有多重要,或者由于我们数据中心的变压器蒸发了一只大鸟(due to a transformer at our data center vaporizing a large bird)而导致的平均每年预期停电时间,甚至使用 Vim 与 Emacs 的基础架构工程师的相对比例对可靠性的影响。 现在这将是有趣的。

再说一次,尝试回答某些问题可能很危险。

我们如何构建本书的结构

SRE虽然涉及复杂的技术系统,但归根结底是一种文化实践。文化是人的产物,这启发我们根据你在组织中的SRE数量来组织本书的各个部分–你具体处理什么,你的一天是怎样的,取决于有多少个SRE工程师。我们将本书的文章分为 “SRE新手” 、0-1个SRE、1-10个SRE、10-100个SRE和 “SRE的未来 ”。

读者如果想找寻先从哪里开始的指导,可以直接跳到最适用于自己的部分;但是,你仍然会发现阅读那些目前并不适用于你日常的部分的文章的价值。

在0到1个SRE时,还没有人被指定为SRE,或者你已经找到了你的第一个SRE,这个角色看起来几乎是孤独的。

在1到10名SRE时,你正在组建一个团队,有知识共享和分工的能力。

在10到100个SRE时,你已经成为一个组织,你需要思考的不仅仅是你所从事的系统,还需要思考如何组织这么多SRE。

“SRE新手” 涵盖了基础性的话题(尽管并不详尽!),对于那些刚刚开始SRE之旅的人来说是很有帮助的,即使是最有经验的SRE,也是一种复习。 “SRE的未来” 包含了一些文章,这些文章探讨了SRE潜在的发展方向,或者是(目前)坐拥时代潮流。

没有必要按照任何特定的顺序阅读本书。你可以从头到尾读一遍。或者,如果你对某个特定的主题感到好奇,可以翻到索引,在那里你可以找到关于该主题的所有文章。把它作为参考指南,或者是灵感的来源–可以在需要的时候提供一个震撼。或者,也许可以建立一个阅读俱乐部,每周一次挑选一篇文章与同事讨论。这就是散文集的魅力所在。我们希望你和我们一样喜欢阅读它们。

结语

SRE系列的文章,有时间我就会翻译一些,希望大家能学到对自己有用的东西。谢谢

翻译不易,转载时请注明原文链接,谢谢

延伸阅读

第一篇:Expected Risk Limitations
本篇为第二篇