Table of Contents

Using ChatOps to Implement Empathy

利用ChatOps实现同理心

“Janet正在处理一个持续超过一个小时的事件。另一位空闲的指挥官应该主动提出交接或否决他们剩余的班次(Another available commander should offer to hand off or override the rest of their shift),这样Janet就可以休息一下了!”

在我们的ChatOps[1]事件响应提醒序列中增加的这句话起初听起来很简单,但不久后我就发现它对on-call[2]的SRE有多大影响。这两句话的提示使空闲的指挥官立即伸出援手,提供帮助——这一举动似乎给on-call的指挥官带来了新的活力。

这时我意识到,ChatOps除了自动化和提供一个简单的界面来管理事件响应和基础设施之外,还能使我们的工作更具有可持续性。

我们期待着SRE[3]工具箱中的一个值得信赖的工具:自动化。在做了为同理心工作创建边界、限制和预算的艰难工作后,使用ChatOps是一个很好的方法,以确保它们可以在不需要持续观察的情况下实现。ChatOps是关于对话驱动的操作,使用群组聊天工具来超越基本的对话,并从聊天工具本身中获取背景和操作。这有助于建立同理心和自动化的行动,防止倦怠和疲惫。

介绍性的例子显示了这是如何运作的:通过跟踪事件开始以来的时间,并向指挥官的Slack频道发送自动提醒。因此,它自动提示其他指挥官做出反应,否则他们将不知道这种情况。

同样地,ChatOps也可以作为on-call的数量和质量的保障。聊天机器人和第三方服务(PagerDuty、Datadog等)之间的沟通通常是通过webhooks完成的。通过执行on-call的调度命令,聊天机器人可以作为回应,根据设定的黄金标准验证所需时间表的可持续性。

例如,一个新的经理试图改变时间表,在最低限度是8个工程师的情况下只安排3个工程师,可以看到机器人拒绝他们的请求,并提示他们遵循最佳做法。至于跟踪on-call质量,聊天机器人可以在每次轮班后自动发送调查,帮助跟踪团队士气。当SRE在on-call中遇到特别大的压力时,它也可以提示他们休息。

通过跟踪事件的数量和严重程度,聊天机器人可以让SRE知道他们有一个on-call休整日,或者在剩下的班次中休息。通过提取时间表的数据和告警的工具来跟踪on-call的数量和质量,ChatOps确保了团队之间的均匀负荷,对防止倦怠至关重要。它不仅有助于维持SRE,还可以为管理层提供有用的数据,以便及早发现问题并修复盲点。

这里介绍的例子表明,通过利用自动化的力量,ChatOps可以用来维持一个健康的团队。它防止了原本花在手动跟踪元素上的时间,并提高了对既定预算的遵守。

我们如何构建本书的结构

SRE虽然涉及复杂的技术系统,但归根结底是一种文化实践。文化是人的产物,这启发我们根据你在组织中的SRE数量来组织本书的各个部分–你具体处理什么,你的一天是怎样的,取决于有多少个SRE工程师。我们将本书的文章分为 “SRE新手” 、0-1个SRE、1-10个SRE、10-100个SRE和 “SRE的未来 ”。

读者如果想找寻先从哪里开始的指导,可以直接跳到最适用于自己的部分;但是,你仍然会发现阅读那些目前并不适用于你日常的部分的文章的价值。

在0到1个SRE时,还没有人被指定为SRE,或者你已经找到了你的第一个SRE,这个角色看起来几乎是孤独的。

在1到10名SRE时,你正在组建一个团队,有知识共享和分工的能力。

在10到100个SRE时,你已经成为一个组织,你需要思考的不仅仅是你所从事的系统,还需要思考如何组织这么多SRE。

“SRE新手” 涵盖了基础性的话题(尽管并不详尽!),对于那些刚刚开始SRE之旅的人来说是很有帮助的,即使是最有经验的SRE,也是一种复习。 “SRE的未来” 包含了一些文章,这些文章探讨了SRE潜在的发展方向,或者是(目前)坐拥时代潮流。

没有必要按照任何特定的顺序阅读本书。你可以从头到尾读一遍。或者,如果你对某个特定的主题感到好奇,可以翻到索引,在那里你可以找到关于该主题的所有文章。把它作为参考指南,或者是灵感的来源–可以在需要的时候提供一个震撼。或者,也许可以建立一个阅读俱乐部,每周一次挑选一篇文章与同事讨论。这就是散文集的魅力所在。我们希望你和我们一样喜欢阅读它们。

结语

SRE系列的文章,有时间我就会翻译一些,希望大家能学到对自己有用的东西。谢谢

翻译不易,转载时请注明原文链接,谢谢

延伸阅读

1.ChatOps-中文
   ChatOps-english

2.on-call

3.Site Reliability Engineering-中文
   Site Reliability Engineering-english