OpenAI 报告 ChatGPT 由于配置错误导致的故障
OpenAI 报告 ChatGPT 由于配置错误导致的故障
在 2024 年 12 月 11 日,OpenAI 的 ChatGPT 及相关服务经历了一次持续约 4小时10分钟 的重大故障,影响了众多用户。对此,该组织发布了一份全面报告,详细说明了事件及其根本原因。

故障概述
故障源于遥测服务新部署中的 小变化,该服务旨在收集 Kubernetes (K8S) 控制平面的指标。不幸的是,这一变化导致了一个无意中广泛的配置,使得在所有集群的每一个节点上同时执行资源密集型的操作。这种过载导致 K8S API 服务器 崩溃,导致大多数集群无法处理请求。
虽然 K8S 数据平面可以独立于控制平面运行,但 域名系统 (DNS) 的操作却严重依赖于控制平面。API 操作的失败损害了服务发现机制,最终导致了完全的服务失败。尽管问题在三分钟内被识别,工程师却无法访问控制平面以实施必要的回滚,形成了 “死锁”情况。控制平面的崩溃妨碍了移除故障服务的努力,进一步复杂化了恢复过程。
恢复努力
在事件发生后,OpenAI 工程师采取了各种策略来恢复受影响的集群。他们的初步措施包括缩减集群规模,以减轻 K8S 上的 API 负载,并阻止对管理 K8S API 的访问,从而促进恢复正常操作。此外,他们还增加了 K8S API 服务器的资源配置,以更好地管理传入的请求。
经过几次尝试,工程师重新获得对 K8S 控制平面的控制,从而移除了问题服务,并逐步恢复了集群的功能。在恢复期间,他们还将流量重定向到健康集群,以减轻仍在承受压力的集群的负担。
然而,同时尝试恢复多个服务导致了资源饱和,恢复过程需要进一步的手动干预。某些集群的恢复时间因此变得更长。OpenAI 希望从此次事件中汲取宝贵教训,以防止未来发生类似的 “锁定”情况。
结论
这份详细报告不仅记录了故障,也作为改善类似未来事件响应策略的蓝图。OpenAI 强调了仔细监控和配置管理的重要性,以避免服务中断。
有关更多详细信息,完整报告可在 此处 访问。
关键点
- 故障原因:遥测服务部署期间的配置错误导致 K8S API 操作过载,导致服务失败。
- 工程师困境:控制平面的崩溃限制了工程师的访问,复杂化了解决过程。
- 恢复过程:工程师通过调整集群规模和增强资源成功恢复了服务。



