跳转到主要内容

OpenAI 报告 ChatGPT 由于配置错误导致的故障

OpenAI 报告 ChatGPT 由于配置错误导致的故障

在 2024 年 12 月 11 日,OpenAI 的 ChatGPT 及相关服务经历了一次持续约 4小时10分钟 的重大故障,影响了众多用户。对此,该组织发布了一份全面报告,详细说明了事件及其根本原因。

image

故障概述

故障源于遥测服务新部署中的 小变化,该服务旨在收集 Kubernetes (K8S) 控制平面的指标。不幸的是,这一变化导致了一个无意中广泛的配置,使得在所有集群的每一个节点上同时执行资源密集型的操作。这种过载导致 K8S API 服务器 崩溃,导致大多数集群无法处理请求。

虽然 K8S 数据平面可以独立于控制平面运行,但 域名系统 (DNS) 的操作却严重依赖于控制平面。API 操作的失败损害了服务发现机制,最终导致了完全的服务失败。尽管问题在三分钟内被识别,工程师却无法访问控制平面以实施必要的回滚,形成了 “死锁”情况。控制平面的崩溃妨碍了移除故障服务的努力,进一步复杂化了恢复过程。

恢复努力

在事件发生后,OpenAI 工程师采取了各种策略来恢复受影响的集群。他们的初步措施包括缩减集群规模,以减轻 K8S 上的 API 负载,并阻止对管理 K8S API 的访问,从而促进恢复正常操作。此外,他们还增加了 K8S API 服务器的资源配置,以更好地管理传入的请求。

经过几次尝试,工程师重新获得对 K8S 控制平面的控制,从而移除了问题服务,并逐步恢复了集群的功能。在恢复期间,他们还将流量重定向到健康集群,以减轻仍在承受压力的集群的负担。

然而,同时尝试恢复多个服务导致了资源饱和,恢复过程需要进一步的手动干预。某些集群的恢复时间因此变得更长。OpenAI 希望从此次事件中汲取宝贵教训,以防止未来发生类似的 “锁定”情况。

结论

这份详细报告不仅记录了故障,也作为改善类似未来事件响应策略的蓝图。OpenAI 强调了仔细监控和配置管理的重要性,以避免服务中断。

有关更多详细信息,完整报告可在 此处 访问。

关键点

  1. 故障原因:遥测服务部署期间的配置错误导致 K8S API 操作过载,导致服务失败。
  2. 工程师困境:控制平面的崩溃限制了工程师的访问,复杂化了解决过程。
  3. 恢复过程:工程师通过调整集群规模和增强资源成功恢复了服务。

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

OpenAI悄然筹备2026年推出的语音优先AI设备

OpenAI正在重组团队以开发先进的语音AI技术,计划明年发布专注于音频的硬件产品。该公司旨在打造能理解自然对话模式(包括打断和同时说话)的设备。这一举措反映了行业向语音界面转型的大趋势,Meta、Google和特斯拉也在采取类似行动。值得注意的是,苹果设计传奇人物Jony Ive正协助塑造OpenAI对无屏幕技术的愿景。

January 4, 2026
voice_aiopenaihuman_computer_interaction
Yinfu Cloud借助Kubernetes驱动平台让AI开发更触手可及
News

Yinfu Cloud借助Kubernetes驱动平台让AI开发更触手可及

Yinfu Cloud正通过其Kubernetes原生架构应对AI开发中的算力挑战,为研究人员和初创企业提供更灵活、更具成本效益的解决方案。该平台提供与云原生工具的无缝集成、弹性资源调度以及包含免费试用额度与学术支持计划的专项补贴,旨在降低跨行业AI创新的门槛。

December 3, 2025
AI开发云计算Kubernetes
Akamai借助AI驱动平台将云成本削减70%
News

Akamai借助AI驱动平台将云成本削减70%

Akamai Technologies通过采用Cast AI的Kubernetes自动化平台,将云支出最高降低70%,在保持性能和安全标准的同时实现了资源的实时优化。

June 17, 2025
云计算AI优化Kubernetes
News

Character.AI 用户因故障评论感到困惑

Character.AI 是一个 AI 聊天平台,最近遭遇了一次故障,导致用户之间的对话变得混乱,充满了无意义的评论,包括意想不到的性玩具参考。用户报告了混合语言的输出,并在 Reddit 上分享了他们的经历,表达了对平台可靠性和数据安全的担忧。

January 18, 2025
Character.AIAI 聊天平台故障
微软论文无意中揭示AI模型参数
News

微软论文无意中揭示AI模型参数

最近一篇微软研究论文无意中披露了多个AI模型的参数大小,包括OpenAI的模型。这些发现引发了关于模型架构和性能的讨论,特别是与医疗AI评估相关的讨论。

January 2, 2025
医疗AI大型语言模型微软
2024 年回顾:大型 AI 模型与服务成本下降
News

2024 年回顾:大型 AI 模型与服务成本下降

2024 年大型 AI 模型的年度回顾强调了技术和定价的显著进展。随着新竞争者的出现和创新产品的推出,GPT-4 的主导地位受到了挑战,导致服务成本下降,用户的可访问性扩大。

January 2, 2025
LargeModelopenaiGoogleGemini