Table of Contents

Auditing Your Environment for Improvements

审核您的环境,以进行改进

采用SRE(现场可靠性工程)的思路,并不是只有在你的第一个正式SRE项目之后才开始。当你想让你的公司更可靠时,你没有SRE[1]人员可以做什么?第一步是回顾你已经拥有的东西。你需要更好地了解你的环境。审计它并记录风险。从你最坏的情况开始。安全漏洞,数据丢失和宕机对每个人都不好,但什么会摧毁你的业务?了解你的弱点(kryptonite)[2],并首先关注这个问题。

接下来,继续关注容量。如果你不知道你的极限,你就无法保证安全或规划你的增长。确定你是否有任何容量问题。您有多少剩余容量(headroom)(如果有)?得到更多容量的前置时间是多少?探究您的流量或使用模式是否高峰。

另一个重要领域是安全。在一个快速发展的公司中,不幸的是,这可能会被忽视,直到它成为一个问题。谁可以访问什么,当人们离开时,他们是否正确地离开了?你是否有密码管理器,你是否开启了云账户的审计日志?有多少人可以毁掉你的公司?

对于基础设施的需求,你就要考虑备份的问题。首先制作一个快速的基础设施图–只需要在白板上画出来,然后拍张照片。有没有单点故障什么的(Is there one of anything)?它们都是可以复制的吗?练习在非紧急情况下重现其中的部分内容,记录该过程,并始终记得测试你的备份。

接下来,考虑你的业务所依赖的第三方,如服务器托管提供商、DNS和安全性。仔细查看你的账单/发票,以确保你知道所有你使用的工程相关服务的第三方。建立一个列表,在某些情况下,考虑冗余/备份链接。你是否在wiki上有他们每个人的详细信息(如支持号码和账号)?更新与这些公司的联系信息,以确保他们通过电子邮件发送给一系列人,而不仅仅是你公司的一个人。

另一个很容易被遗忘的地方是域名和SSL证书。如果忽略了这一点,会对你的业务造成巨大的损失。你知道所有对你的业务至关重要的域名吗?你对所有的域名注册商都有登录权限吗? 你如何通知到期的情况?即使设置一个日历提醒也比什么都没有好。最后,记录你的更新过程–有可能有五个证书都有不同的更新要求,所以要确保它们都被记录下来。如果你的更新节奏是三年,那么很有可能已经丢失了一些知识。


在你完成检查之后,选择一些任务。你要在有限的时间内做出最大程度的改进。为你的努力设定一个时间表,从每周两个小时开始,让你有小而稳定的进步。确保你的老板同意你把时间花在这上面。不要被需要完成的大量工作所淹没。不要试图承担另一份全职工作。你会有倦怠的风险,并降低公司为你提供更多SRE资源的可能性。如果你也在做这些工作,为什么还要雇佣别人呢?

你无法解决所有问题。即使有一个完整的SRE团队,这也是不可能的! 我们不追求完美,我们只追求更好。(We’re not aiming for perfection; we’re just looking for better.)你正在为公司增加SRE的一项项任务,并使事情变得更好。只要坚持下去,就会有好运! 不要有压力。服务总是会有问题的(Things will always break),这是工程中正常的一部分。这不是你的主要工作,即使你得到了减少一些其他任务的绿灯,也不可能解决所有的问题,即使有一个完整的SRE工程师团队。

你正在为公司增加SRE的一项项任务,并使事情变得更好。只要坚持下去,就会有好运! (You are adding SRE to your company one task at a time and making things better. Just keep going, and good luck!)

我们如何构建本书的结构

SRE虽然涉及复杂的技术系统,但归根结底是一种文化实践。文化是人的产物,这启发我们根据你在组织中的SRE数量来组织本书的各个部分–你具体处理什么,你的一天是怎样的,取决于有多少个SRE工程师。我们将本书的文章分为 “SRE新手” 、0-1个SRE、1-10个SRE、10-100个SRE和 “SRE的未来 ”。

读者如果想找寻先从哪里开始的指导,可以直接跳到最适用于自己的部分;但是,你仍然会发现阅读那些目前并不适用于你日常的部分的文章的价值。

在0到1个SRE时,还没有人被指定为SRE,或者你已经找到了你的第一个SRE,这个角色看起来几乎是孤独的。

在1到10名SRE时,你正在组建一个团队,有知识共享和分工的能力。

在10到100个SRE时,你已经成为一个组织,你需要思考的不仅仅是你所从事的系统,还需要思考如何组织这么多SRE。

“SRE新手” 涵盖了基础性的话题(尽管并不详尽!),对于那些刚刚开始SRE之旅的人来说是很有帮助的,即使是最有经验的SRE,也是一种复习。 “SRE的未来” 包含了一些文章,这些文章探讨了SRE潜在的发展方向,或者是(目前)坐拥时代潮流。

没有必要按照任何特定的顺序阅读本书。你可以从头到尾读一遍。或者,如果你对某个特定的主题感到好奇,可以翻到索引,在那里你可以找到关于该主题的所有文章。把它作为参考指南,或者是灵感的来源–可以在需要的时候提供一个震撼。或者,也许可以建立一个阅读俱乐部,每周一次挑选一篇文章与同事讨论。这就是散文集的魅力所在。我们希望你和我们一样喜欢阅读它们。

结语

SRE系列的文章,有时间我就会翻译一些,希望大家能学到对自己有用的东西。谢谢

延伸阅读

1.Site Reliability Engineering

2.kryptonite

氪石是DC漫画《超人》系列中的一种假想矿物,最早出现于1943年的广播剧《超人历险》(Bud Collyer与Joan Alexander主演),被引入漫画则已经是1949年的《超人》第61期。它在长久以来都被设定为超人众所周知的弱点之一,但是在特定条件下超人也能免疫氪石伤害。