跳转到主要内容

Google DeepMind新技术让AI在硬件故障时仍能持续学习

Google DeepMind在容错AI训练领域的突破

想象一下,如果一位音乐家晕倒,整个音乐会就会停止。这基本上就是当今大多数AI训练的运作方式——直到现在。Google DeepMind的新Decoupled DiLoCo架构通过创建工程师所称的"计算孤岛"来改变游戏规则,这些孤岛可以独立运行。

当前系统的问题

传统的AI训练方法要求所有硬件组件完美同步。每个处理器都必须等待其他所有处理器完成计算才能继续前进——这是一种数字版的"匆忙等待"。当哪怕一个芯片出现故障时(在拥有数千个组件的大型系统中,故障会不断发生),一切都会陷入停滞。

Image

DiLoCo如何改变现状

该系统将处理器组织成称为"学习单元"的自包含集群,这些单元像微型训练中心一样运作。每个单元可以完成多轮计算,然后将汇总的更新发送给中央协调器。这种异步方法意味着:

  • 硬件故障时不再有连锁反应
  • 带宽需求大幅减少(从198 Gbps降至不到1 Gbps)
  • 新旧芯片可以协同工作,延长设备寿命

"这就像从接力赛切换到平行停车一样,"一位熟悉该项目的工程师解释道。"每辆车都能在不阻挡其他车的情况下找到自己的位置。"

实际性能表现

数据说明了一切:

指标 传统方法 DiLoCo 改进幅度

该系统甚至在混沌工程测试中表现出卓越的韧性——当所有学习单元暂时失效时仍能继续运行,并在恢复后顺利重新整合它们。

这项技术为何超越科技圈的重要性

这一突破可能对各行业产生连锁反应:

  • 环境影响:延长硬件寿命减少电子垃圾
  • 全球协作:使跨大洲的分布式训练成为可能
  • 成本节约:更少的停机时间意味着更快的模型开发周期

随着AI模型变得日益庞大(有些现在需要连续数月的训练),像DiLoCo这样的解决方案可能成为必要的基础设施,而非可有可无的升级。

关键点:

  • 🛡️ 容错设计确保硬件故障时训练不中断
  • 🌐 带宽效率实现实用的全球协作
  • ♻️ 硬件灵活性允许新旧设备混用
  • ⚡ 自愈能力自动从中断中恢复

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

美团携独家模型进军万亿参数AI领域

美团悄然推出拥有万亿参数的尖端AI模型,目前仅限特定用户使用。这一发展的特别之处在于其完全依赖国内计算基础设施,既彰显了技术自主性,也体现了行业雄心。尽管细节尚不明确,此举将美团置于中国AI创新竞赛的前沿。

April 24, 2026
AI创新中国科技机器学习
News

寒武纪科技助力DeepSeek-V4实现闪电般AI性能

寒武纪科技在DeepSeek尖端V4模型发布首日即实现无缝兼容。其专有的Torch-MLU-Ops技术为关键组件注入强劲动力,配合vLLM框架优化带来疾速处理体验。真正的突破点在于DeepSeek-V4的百万字符记忆容量——这为复杂AI任务带来革命性改变。开发者现可通过更新后的API获取这些技术进步,标志着可及性AI能力的重大飞跃。

April 24, 2026
AI加速DeepSeek-V4寒武纪
News

Meta利用员工数据训练AI引发隐私担忧

Meta正在收集员工详细的工作行为数据——包括鼠标移动和键盘输入——用于训练其新的'Muse Spark'AI模型。虽然公司声称这将帮助AI更好地理解人类的计算机使用方式,但此举在数据敏感度提升的时代引发了关于职场隐私界限的担忧。

April 24, 2026
AI伦理职场隐私机器学习
认识GPT Image2 AI艺术革命背后的13人团队
News

认识GPT Image2 AI艺术革命背后的13人团队

GPT Image2背后出人意料的精干团队完成了许多人认为不可能的任务——在短短四个月内彻底重构了AI图像生成技术。这支由前谷歌研究员陈博渊带领的紧密协作团队创造了他们称之为'图像版GPT'的系统,解决了文本渲染和空间理解等长期难题。他们的成果证明,专注的创新可以超越大型企业团队的产出。

April 23, 2026
AI艺术机器学习科技创新
小米新AI模型在公测中展现惊人编程能力
News

小米新AI模型在公测中展现惊人编程能力

小米公开测试其MiMo-V2.5系列AI模型,展示了处理复杂任务的卓越能力。旗舰Pro版本用8,192行代码构建了一个网页视频编辑器,并在仅4.3小时内完成编译器挑战。通过提升token效率及推出新定价方案,小米旨在让先进AI技术更触手可及,同时在激烈的AI竞争中展现了快速发展成果。

April 23, 2026
小米AI发展机器学习
小米新AI模型发布:强大性能与亲民价格的完美结合
News

小米新AI模型发布:强大性能与亲民价格的完美结合

小米正式推出MiMo-V2.5系列,标志着AI能力的重大飞跃。该系列包含四款模型,其中Pro版专攻复杂任务,标准版则提供多模态功能。最引人注目的是小米对开源和成本效益的承诺——在性能比肩行业龙头的同时,将API费用削减了一半。

April 23, 2026
AIXiaomi机器学习