数据文化从幕后走向台前才能真正提高系统可靠性

阿里云最近的一次宕机事件引起了广泛争议。这次事件发生在上周末,影响了香港地区的服务器,给大量依赖云服务的客户带来了巨大的困扰。OKGroup的创始人徐明星直接把这次事件形容为阿里云发展史上的重大丑闻。这次事件把阿里云的SLA和MTTR等可靠性指标推到了风口浪尖,让人们开始重新审视这些指标的可靠性。阿里云一直以来都标榜自己有99.995%的SLA,这次长达十几个小时的恢复时间让外界对其产生了质疑。MTTR作为衡量系统故障修复时间的指标,原本是为制造业设计的,用于评估机械故障后的平均响应时间。但是把这个指标应用到软件系统上,就遇到了很多问题。软件系统故障的原因、影响范围和修复路径都是多种多样的,而且团队之间的处理方式也可能因为知识背景、风险偏好和情绪压力而有所不同。Verica最新报告用大量案例证明了MTTR无法捕捉复杂系统的真实可靠性。Verica引用了Štěpán Davidovič的研究结果,通过两组对照实验揭示了MTTR的问题。实验中,控制样本总量,只把事件时长下调10%,重新计算MTTR,结果几乎没有变化。但是引入极端异常值后,MTTR的数值就出现了剧烈波动。这个实验说明了只要故障样本足够多样,MTTR就会失去稳定性。针对MTTR的问题,Verica给出了替代方案:SLO、社会技术事件数据、未遂事故和事后审查等。SLO是服务提供者对用户的公开承诺,它关注用户是否感知到影响,而不是后台折腾了多久。社会技术事件数据将人的维度纳入度量标准中,考虑到团队沟通成本、决策节奏等因素。未遂事故指那些差一点出事的情况,它们能暴露知识缺口和技术盲区。事后审查是让数据流动起来的过程,通过阅读报告、参加复盘会议和知识沉淀等方式促进组织学习。Verica报告还提到了劳拉·马奎尔博士提出的“协调成本”概念。她建议建立“影子指标”,主动监测接近阈值的情况,并把未遂事故纳入组织后事学习(PAI)流程。报告总结道:单一MTTR无法描述复杂软件系统的可靠性。高SLA和低MTTR并不等于高用户体验。要真正提升云计算时代的可靠性进化方向,就需要把指标从“修复时间”转向“用户影响”、“组织学习”和“社会技术协调”。总之,在云计算时代,抛弃MTTR这一指标是必须要做的事情。只有让数据文化从幕后走向台前才能真正提高系统可靠性。