跳转到主要内容

寒武纪实现与DeepSeek-V4即时兼容,并公开共享代码

寒武纪为最新AI模型架设硬件桥梁

在AI基础设施领域的一项重大进展中,寒武纪成功实现了DeepSeek最新开源模型在其硬件平台上的即日流畅运行。这一成就涵盖DeepSeek-V4的两个版本——2850亿参数的Flash版和庞大的1.6万亿参数Pro版。

技术突破

适配过程并非一帆风顺。DeepSeek-V4独特的稀疏注意力和压缩结构需要特殊处理。寒武纪团队使用其Torch-MLU-Ops库和BangC编程语言开发了优化内核,重点针对稀疏注意力(Attention)和GroupGemm等关键运算进行优化。

"我们已全面支持五维混合并行策略,"一位寒武纪工程师解释道,"包括TP/PP/SP/DP/EP配置、低精度量化以及在vLLM框架内的PD分离部署。"这些优化显著提升了token吞吐量,同时满足严格的延迟要求。

硬件优势

寒武纪的MLU硬件具备以下突出优势:

  • 增强的内存访问能力
  • 先进的排序加速特性
  • 高互联带宽
  • 超低延迟通信

这些特性在处理DeepSeek-V4复杂的索引结构和百万字上下文窗口时尤为宝贵。该硬件在Prefill和Decode阶段都最小化了通信开销,将推理效率推向新高度。

行业影响

此次成功适配标志着中国AI生态系统日趋成熟。以往尖端模型在国内硬件上运行可能存在延迟,而寒武纪的零日兼容性证明本土解决方案现已能跟上全球技术进步的步伐。

DeepSeek-V4代表了当前最具挑战性的AI架构之一,拥有前所未有的上下文长度和顶级推理能力。寒武纪能够即时支持如此复杂的模型,表明中国AI基础设施正达到新的成熟度水平。

通过GitHub开源适配代码的决定,使这一技术成果可供全球开发者使用,有望加速DeepSeek模型和寒武纪硬件平台的普及。

关键要点:

  • 实现与DeepSeek-V4模型(2850亿和1.6万亿参数)的即时兼容
  • 优化代码已在GitHub上开放供社区使用
  • 为稀疏注意力机制开发了专用加速方案
  • 充分发挥硬件优势以实现最大推理效率
  • 中国AI硬件能力的重要里程碑

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

DeepSeek-V4震撼登场:1元即可体验媲美顶级模型的开源AI
News

DeepSeek-V4震撼登场:1元即可体验媲美顶级模型的开源AI

DeepSeek发布了其最新AI模型V4,性能可媲美领先的闭源系统。凭借惊人的100万token上下文窗口和针对不同需求的专用版本,此次发布标志着开源AI的重大飞跃。真正具有颠覆性的是其定价——每百万token仅需1元起,以前所未有的方式让尖端AI技术触手可及。

April 24, 2026
AI开发开源机器学习
News

美团在国内技术基础上测试万亿参数AI模型

美团已悄然开始测试下一代具有万亿参数的AI模型,完全运行在国内计算基础设施上。目前仅限受邀用户使用,此举既展现了技术雄心,也显示出对中国本土技术能力日益增长的信心。随着国内企业不断加大对人工智能和云计算的投入,这一发展可能重塑竞争格局。

April 24, 2026
AI发展中国科技机器学习
Google DeepMind新技术让AI在故障中持续学习
News

Google DeepMind新技术让AI在故障中持续学习

Google DeepMind针对AI训练中的硬件故障问题提出了创新解决方案——新型Decoupled DiLoCo系统。该系统使训练过程的不同部分能够独立运作,当某台设备崩溃时,其余部分仍可继续工作。就像团队中有人请假时其他人能自动调整继续工作一样。早期测试显示,即使在硬件开始出现故障时,该系统仍能保持近90%的效率,而传统方法会骤降至27%。此外,它还大幅降低了带宽需求,为全球AI协作开辟了新可能。

April 24, 2026
AI研究机器学习分布式计算
News

Meta利用员工数据训练AI引发隐私担忧

Meta正在收集员工详细的工作行为数据——包括鼠标移动和键盘输入——用于训练其新的'Muse Spark'AI模型。虽然公司声称这将帮助AI更好地理解人类的计算机使用方式,但此举在数据敏感度提升的时代引发了关于职场隐私界限的担忧。

April 24, 2026
AI伦理职场隐私机器学习
DeepSeek V4双版本震撼发布:全新价位带来快速与强大的AI体验
News

DeepSeek V4双版本震撼发布:全新价位带来快速与强大的AI体验

中国DeepSeek推出V4 AI模型的两个版本——面向快速任务的Flash版和擅长复杂推理的Pro版。新定价策略奖励高效缓存使用,最低可达每百万token ¥0.2。此次发布通过保持高性能标准的同时降低使用门槛,展现了战略布局。

April 24, 2026
AI模型DeepSeek机器学习
认识GPT Image2 AI艺术革命背后的13人团队
News

认识GPT Image2 AI艺术革命背后的13人团队

GPT Image2背后出人意料的精干团队完成了许多人认为不可能的任务——在短短四个月内彻底重构了AI图像生成技术。这支由前谷歌研究员陈博渊带领的紧密协作团队创造了他们称之为'图像版GPT'的系统,解决了文本渲染和空间理解等长期难题。他们的成果证明,专注的创新可以超越大型企业团队的产出。

April 23, 2026
AI艺术机器学习科技创新