Table of Contents

Why Training Matters to an SRE Practice and SRE Matters to Your Training Program

为什么培训对 SRE 实践很重要,而 SRE 对您的培训计划很重要

当涉及到网站可靠性工程时,有很多东西需要学习。无论你是想成为一个SRE【1】,还是在一个新的服务上加速发展,你可能会觉得你是在从一个信息的消防水管中喝水。你需要学习复杂的生产系统的来龙去脉,事件管理的最佳实践,以及更多。

对于成年学习者,特别是对于团队中的新人,传授技术知识并不是培训的首要考虑因素。相反,建立信心和对抗自我能力否定倾向(impostor syndrome)【2】是最重要的。除了灌输信心,培训也是为了推动或延续一种理想的组织文化。培训是对你的组织和员工的一种投资。

那么,你应该从哪里开始呢?我为你准备了一个缩写词:ASSBAT,它代表着:a student should be able to。ASSBATs是学习目标,专注于您想要推动和观察的行为。要明白,$foo服务是一个糟糕的ASSBAT。更好的ASSBATS可能包括:

  • 使用$tool来识别一个作业正在使用多少内存。
  • 解释$monitoring_tool中的图表,以确定$foo服务的健康状况。
  • 通过使用$drain_tool在5分钟内将流量从集群中移走。

通过使用这些类型的ASSBATs,你可以观察和衡量每天的训练是如何应用的。从ASSBATs开始,你就为自己配备了一个伟大的培训策略的开端,而不是依靠希望。

现在让我们来讨论一下。这篇文章是关于培训网站可靠性工程师的。你知道SRE的基本原则可以应用于培训项目本身吗?让我们重温一下SRE原书中概述的服务可靠性层次结构。这个层次涵盖了使服务可靠的要素,从最基础的到最先进的。服务可靠性层次结构的要素可以适应培训环境(见这里,第84页【3】)。

首先,以出勤率跟踪和调查反馈的形式监测你的培训项目的表现。为培训项目定义SLO(服务水平目标)并进行沟通。

解决通过监测而浮现的问题。如果在调查问卷中,学生对某些问题的评分是负面的,这就需要进行调查和跟踪,以了解出错的原因。是课程问题、后勤问题,还是教师的问题?

当事情出错的时候,要写事后总结,从失败中无怨无悔地学习。当一个问题严重影响到学生的体验时,写一份事后总结,让培训团队确定行动项目,推动项目的真正改进。

始终用试点课程测试新的内容和项目。对于测试教学环节(试点),要让学生清楚地知道你在测试新材料,并在课程结束时留出时间让学生反馈。

通过寻找机会,通过自动化消灭劳作,使有限的人力资源得到最大限度的利用,实现规模化经营。只有这样,项目才能完全实际化,实现课程设计和项目本身的全部潜力。

很多时候,公司允许对培训采取不成功便成仁的策略。这不仅是无效的,而且正如我所展示的,有效的SRE培训是在你的能力范围内的。深思熟虑的培训确保你为你的员工准备好成功,同时通过将SRE原则应用于项目本身来推动持续改进。

我们如何构建本书的结构

SRE虽然涉及复杂的技术系统,但归根结底是一种文化实践。文化是人的产物,这启发我们根据你在组织中的SRE数量来组织本书的各个部分–你具体处理什么,你的一天是怎样的,取决于有多少个SRE工程师。我们将本书的文章分为 “SRE新手” 、0-1个SRE、1-10个SRE、10-100个SRE和 “SRE的未来 ”。

读者如果想找寻先从哪里开始的指导,可以直接跳到最适用于自己的部分;但是,你仍然会发现阅读那些目前并不适用于你日常的部分的文章的价值。

在0到1个SRE时,还没有人被指定为SRE,或者你已经找到了你的第一个SRE,这个角色看起来几乎是孤独的。

在1到10名SRE时,你正在组建一个团队,有知识共享和分工的能力。

在10到100个SRE时,你已经成为一个组织,你需要思考的不仅仅是你所从事的系统,还需要思考如何组织这么多SRE。

“SRE新手” 涵盖了基础性的话题(尽管并不详尽!),对于那些刚刚开始SRE之旅的人来说是很有帮助的,即使是最有经验的SRE,也是一种复习。 “SRE的未来” 包含了一些文章,这些文章探讨了SRE潜在的发展方向,或者是(目前)坐拥时代潮流。

没有必要按照任何特定的顺序阅读本书。你可以从头到尾读一遍。或者,如果你对某个特定的主题感到好奇,可以翻到索引,在那里你可以找到关于该主题的所有文章。把它作为参考指南,或者是灵感的来源–可以在需要的时候提供一个震撼。或者,也许可以建立一个阅读俱乐部,每周一次挑选一篇文章与同事讨论。这就是散文集的魅力所在。我们希望你和我们一样喜欢阅读它们。

结语

SRE系列的文章,有时间我就会翻译一些,希望大家能学到对自己有用的东西。谢谢

翻译不易,转载时请注明原文链接,谢谢

延伸阅读

1.Site Reliability Engineering-中文
   Site Reliability Engineering-english

2.impostor syndrome
冒充者综合征(Impostor syndrome),又称自我能力否定倾向,是保琳(Pauline R. Clance)和苏珊娜(Suzanne A. Imes)在1978年发现并命名的,是指个体按照客观标准评价为已经获得了成功或取得成就,但是其本人却认为这是不可能的,他们没有能力取得成功,感觉是在欺骗他人,并且害怕被他人发现此欺骗行为的一种现象。

3.Training Site Reliability Engineers: What Your Organization Needs to Create a Learning Program