数据文化从幕后走向台前才能真正提高系统可靠性

阿里云最近的一次宕机事件引起了广泛争议。这次事件发生在上周末，影响了香港地区的服务器，给大量依赖云服务的客户带来了巨大的困扰。OKGroup的创始人徐明星直接把这次事件形容为阿里云发展史上的重大丑闻。这次事件把阿里云的SLA和MTTR等可靠性指标推到了风口浪尖，让人们开始重新审视这些指标的可靠性。阿里云一直以来都标榜自己有99.995%的SLA，这次长达十几个小时的恢复时间让外界对其产生了质疑。MTTR作为衡量系统故障修复时间的指标，原本是为制造业设计的，用于评估机械故障后的平均响应时间。但是把这个指标应用到软件系统上，就遇到了很多问题。软件系统故障的原因、影响范围和修复路径都是多种多样的，而且团队之间的处理方式也可能因为知识背景、风险偏好和情绪压力而有所不同。Verica最新报告用大量案例证明了MTTR无法捕捉复杂系统的真实可靠性。Verica引用了Štěpán Davidovič的研究结果，通过两组对照实验揭示了MTTR的问题。实验中，控制样本总量，只把事件时长下调10%，重新计算MTTR，结果几乎没有变化。但是引入极端异常值后，MTTR的数值就出现了剧烈波动。这个实验说明了只要故障样本足够多样，MTTR就会失去稳定性。针对MTTR的问题，Verica给出了替代方案：SLO、社会技术事件数据、未遂事故和事后审查等。SLO是服务提供者对用户的公开承诺，它关注用户是否感知到影响，而不是后台折腾了多久。社会技术事件数据将人的维度纳入度量标准中，考虑到团队沟通成本、决策节奏等因素。未遂事故指那些差一点出事的情况，它们能暴露知识缺口和技术盲区。事后审查是让数据流动起来的过程，通过阅读报告、参加复盘会议和知识沉淀等方式促进组织学习。Verica报告还提到了劳拉·马奎尔博士提出的“协调成本”概念。她建议建立“影子指标”，主动监测接近阈值的情况，并把未遂事故纳入组织后事学习（PAI）流程。报告总结道：单一MTTR无法描述复杂软件系统的可靠性。高SLA和低MTTR并不等于高用户体验。要真正提升云计算时代的可靠性进化方向，就需要把指标从“修复时间”转向“用户影响”、“组织学习”和“社会技术协调”。总之，在云计算时代，抛弃MTTR这一指标是必须要做的事情。只有让数据文化从幕后走向台前才能真正提高系统可靠性。