Table of Contents

Expected Risk Limitations

预期风险限制

我一般采用两种主要的风险分析方法。

第一种是架构分析。这通常是通过某种形式的FMA(故障模式分析)(failure mode analysis)来观察感知的或未实现的风险。FMEA(故障模式和效果分析) (failure mode and effects analysis),FMECA(故障模式、效果和临界性分析)(failure mode, effects, and criticality analysis),或者甚至只是一个基本的坐在白板上的会议,寻找系统设计中常见的反模式,并把它们记下来,如缺乏断路、节流、指数回退和重试、抖动等。这些可以是纯粹的定性和主观的,并且仍然有价值,但它们也在很大程度上依赖于你对你的系统已经知道的东西。或者,更确切地说,是在您系统的心理地图(mental map)上以及您认为自己了解的内容上。

第二种是数据驱动的分析,当我们将已实现的风险的历史可靠性数据添加到FMA过程中(故障模式、影响和诊断分析[FMEDA]) (failure modes, effects, and diagnostic analysis [FMEDA]) ,或在一些维度上建立故障的促成因素热图——如故障类型、涉及的服务以及地理位置,并根据退化情况、受影响的用户数量和持续时间将它们与用户影响关联起来。

这里的目标是得出对某一特定风险的实现影响的年化(或其他定期)预期。这些都是简短的文章,所以我不会详细介绍这些方法,因为通过网络搜索应该能很快让你找到正确的方法。你可以根据你的需要选择简单或复杂的风险建模结构,基于你要处理的复杂程度以及你已经从系统的分支上敲下了多少低垂的果实。互联网会提供。也许吧。毕竟,它也是一个复杂的系统,而且容易出现自己的紧急故障情况。(The internet will provide. Probably. After all, it’s a complex system, too, and prone to its own emergent failure conditions.)

建立这类数据地图可以帮助我们找到我们的最佳投资领域是什么,不仅是针对那些最重要的 “根源”,而且还针对那些不是大多数甚至很多故障的主要促成因素,但在很多故障中起着促进作用的问题。在过去,我已经能够找出一些东西,比如一个令人沮丧的节流系统,大家都认为它很好,不需要投资更换,但它实际上是我们公司第七大最常见的停机因素,尽管它只在不到2%的事件中被确定为 “根本原因”。

这种方法也很强大,但和建筑学的方法一样,它也有局限性。数据驱动的分析只能为我们在某种程度上已经知道的问题提供这种投资指导。或者无论如何应该知道。它们已经在我们的风险登记册中了——如果有可靠的、可量化的已实现风险的历史与之相关,那么我们以前就见过,而且可能相对频繁地见过。

在处理已知但无法量化的风险时,该方法会在提供年度预期风险方面遇到困难:我们在风险登记册中输入的东西,因为我们认为它们可能不好,或者有一天会成为一个问题,但我们实际上无法用任何数据来描述。

因此,我们可能难以决定如何平衡修复它们所需的工作与功能和其他更可衡量的技术债务,或者为项目提供资金,并在这种竞争性的优先事项下为工作辩护,即使我们自己认为它是关键的。这种方法在实际的黑天鹅(或带电的鹈鹕)和未知的未知因素上完全被打破。

然而,就像我们尊敬的编辑的内容长度规则一样,我认为有一种方法可以突破这种限制。因此,我将在下一篇文章中告诉你!

我们如何构建本书的结构

SRE虽然涉及复杂的技术系统,但归根结底是一种文化实践。文化是人的产物,这启发我们根据你在组织中的SRE数量来组织本书的各个部分–你具体处理什么,你的一天是怎样的,取决于有多少个SRE工程师。我们将本书的文章分为 “SRE新手” 、0-1个SRE、1-10个SRE、10-100个SRE和 “SRE的未来 ”。

读者如果想找寻先从哪里开始的指导,可以直接跳到最适用于自己的部分;但是,你仍然会发现阅读那些目前并不适用于你日常的部分的文章的价值。

在0到1个SRE时,还没有人被指定为SRE,或者你已经找到了你的第一个SRE,这个角色看起来几乎是孤独的。

在1到10名SRE时,你正在组建一个团队,有知识共享和分工的能力。

在10到100个SRE时,你已经成为一个组织,你需要思考的不仅仅是你所从事的系统,还需要思考如何组织这么多SRE。

“SRE新手” 涵盖了基础性的话题(尽管并不详尽!),对于那些刚刚开始SRE之旅的人来说是很有帮助的,即使是最有经验的SRE,也是一种复习。 “SRE的未来” 包含了一些文章,这些文章探讨了SRE潜在的发展方向,或者是(目前)坐拥时代潮流。

没有必要按照任何特定的顺序阅读本书。你可以从头到尾读一遍。或者,如果你对某个特定的主题感到好奇,可以翻到索引,在那里你可以找到关于该主题的所有文章。把它作为参考指南,或者是灵感的来源–可以在需要的时候提供一个震撼。或者,也许可以建立一个阅读俱乐部,每周一次挑选一篇文章与同事讨论。这就是散文集的魅力所在。我们希望你和我们一样喜欢阅读它们。

结语

SRE系列的文章,有时间我就会翻译一些,希望大家能学到对自己有用的东西。谢谢

翻译不易,转载时请注明原文链接,谢谢

延伸阅读

1.Failure mode and effects analysis
故障模式和影响分析FMEA;通常用复数形式的“故障模式”)是审查尽可能多的组件、组件和子系统以识别系统中潜在故障模式及其原因和影响的过程。对于每个组件,故障模式及其对系统其余部分的影响都记录在特定的 FMEA 工作表中。此类工作表有多种变体。FMEA 可以是定性分析[1],但当数学故障率模型[2]与统计故障模式比率数据库相结合时,可以将其置于定量的基础上。它是最早的用于故障分析的高度结构化、系统化的技术之一. 它由可靠性工程师在 1950 年代后期开发,用于研究军事系统故障可能引起的问题。FMEA 通常是系统可靠性研究的第一步。