蚂蚁集团推出高性价比的MoE语言模型
蚂蚁集团的Ling团队在人工智能领域取得了突破性进展,推出了两款新的混合专家(MoE)大语言模型:Ling-Lite和Ling-Plus。这些模型在预印本平台Arxiv上发表的技术论文中详细介绍了其设计,旨在显著降低训练成本,同时在低性能硬件上保持高性能。
模型:Ling-Lite与Ling-Plus
Ling-Lite拥有168亿参数(包括27.5亿激活参数),而其增强版Ling-Plus则拥有惊人的2900亿参数(包含288亿激活参数),代表了AI效率的重大飞跃。值得注意的是,Ling-Plus中的3000亿参数MoE模型在性能上可与使用高端Nvidia GPU训练的模型相媲美,尽管它是在国产低规格硬件上训练的。
图片来源说明:由AI生成的图像,图像授权由Midjourney提供
打破资源壁垒
传统上,训练MoE模型需要昂贵的高性能GPU,如Nvidia的H100和H800。这不仅推高了成本,还因芯片短缺限制了可访问性。为了解决这些挑战,蚂蚁集团的Ling团队设定了一个雄心勃勃的目标:在不依赖高端GPU的情况下扩展模型规模。他们的创新方法包括:
- 动态参数分配:优化训练期间的资源使用。
- 混合精度调度:减少计算开销。
- 升级的训练异常处理:将中断响应时间缩短50%以上并压缩验证周期。
成本效益与性能
在实验中,团队对Ling-Plus进行了9万亿个token的预训练。使用高性能硬件训练1万亿个token通常需要约635万元人民币的成本。然而,蚂蚁集团的优化方法将这一成本降至约508万元人民币,实现了近20%的成本节约。在性能方面,这些模型与阿里巴巴的通义Qwen2.5-72B-Instruct和DeepSeek-V2.5-1210-Chat等成熟系统不相上下。
对AI发展的影响
这些模型的成功可能通过为开发大语言模型提供更具成本效益的解决方案来彻底改变AI行业。通过减少对Nvidia芯片的依赖并实现在低规格硬件上的高效训练,蚂蚁集团正在为在资源受限的环境中更广泛地采用先进AI技术铺平道路。
关键点
- 蚂蚁集团推出了两款MoE大语言模型:Ling-Lite(168亿参数)和Ling-Plus(2900亿参数)。
- 这些模型在低性能硬件上实现了高性能,将训练成本降低了近20%。
- 创新包括动态参数分配、混合精度调度和改进的异常处理。
- 该技术减少了对Nvidia GPU的依赖,为AI开发提供了更具成本效益的替代方案。
- 模型的性能可与阿里巴巴的通义Qwen2.5和DeepSeek-V2.5等成熟系统相媲美。

