蚂蚁集团开源高性能扩散模型框架dInfer
蚂蚁集团开源AI框架取得重大突破
10月13日,蚂蚁集团在AI社区引起轰动,开源了dInfer——一个专为扩散语言模型设计的突破性高性能推理框架。此次发布标志着扩散模型在工业应用中实现实际可行性的重要里程碑。
性能突破
基准测试揭示了dInfer的卓越能力:
- 相比NVIDIA的Fast-dLLM框架,推理速度快10.7倍
- 在HumanEval代码生成任务的单批次推理中达到1011 Tokens/秒
- 平均推理速度比同类自回归模型快2.5倍
该框架证明,通过系统性工程创新,扩散语言模型可以在保持与顶级自回归模型相当的精度的同时,实现其理论上的效率潜力。
克服扩散模型的挑战
扩散语言模型将文本生成视为从随机噪声逐步"去噪"的过程,具有三个关键优势:
- 高并行性
- 全局视角
- 灵活结构
然而实际实施面临三大瓶颈:
- 高计算成本
- KV缓存失效问题
- 并行解码限制
dInfer的架构通过模块化设计专门解决了这些挑战。
图:dInfer架构
技术架构
该框架包含四个核心模块:
- 模型模块 - 支持多种扩散语言模型变体
- KV缓存管理器 - 优化内存使用
- 迭代管理器 - 协调去噪过程
- 解码器 - 处理输出生成
这种即插即用的设计使开发者能够在保持标准化评估指标的同时,尝试不同的优化策略。
行业影响
此次发布将尖端AI研究与实际应用连接起来,是使扩散语言模型真正成为自回归方法可行替代方案的关键一步。
蚂蚁集团将dInfer定位为对全球开发者社区的开放邀请,共同探索扩散模型的潜力并构建更高效的AI生态系统。
该框架目前支持多种模型变体,包括LLaDA、LLaDA-MoE和LLaDA-MoE-TD。
关键点:
- 首个实现比自回归更快速度的扩散模型开源框架
- 通过系统工程解决长期存在的效率瓶颈
- 模块化架构支持灵活实验
- 代表了迈向实用AGI发展路径的重要进展



