跳转到主要内容

DeepSeek R1增强版效率提升200%

DeepSeek R1增强版实现重大效率突破

德国技术咨询公司TNG发布了DeepSeek-TNG-R1T2-Chimera,这是DeepSeek模型的增强版本,标志着深度学习性能的显著飞跃。新版本通过创新的自适应专家(AoE)架构展示了200%更高的推理效率,同时降低了运营成本。

Image

混合模型架构

Chimera版本结合了三个DeepSeek模型(R1-0528、R1和V3-0324),采用了一种新颖的AoE架构,改进了传统的专家混合(MoE)方法。这种优化允许更高效的参数使用,在保持令牌输出的同时提升性能。

包括MTBench和AIME-2024在内的基准测试显示,Chimera版本在推理能力和成本效益方面均优于标准R1模型。

MoE架构优势

AoE架构基于MoE原则构建,其中Transformer的前馈层被划分为专门的“专家”。每个输入令牌仅路由到这些专家的一个子集,显著提高了模型效率。例如,Mistral的Mixtral-8x7B模型通过激活远少于大型模型的参数匹配了其性能,展示了这一原则。

AoE方法进一步推进了这一理念,使研究人员能够:

  • 从现有MoE框架创建专门的子模型
  • 插值并选择性合并父模型权重
  • 动态调整性能特征

技术实现

研究人员通过精细的权重张量操作开发了新模型:

  1. 通过直接文件解析准备父模型权重张量
  2. 定义权重系数以实现平滑特征插值
  3. 实施阈值控制和差异过滤以降低复杂性
  4. 优化路由专家张量以增强子模型推理能力

团队使用PyTorch实现了合并过程,保存优化后的权重以创建最终的高效子模型。

Image

增强版DeepSeek模型现已在Hugging Face开源提供。

关键点:

  • 与先前版本相比推理效率提升200%
  • 通过AoE架构实现显著成本降低
  • MTBench和AIME-2024基准测试中超越标准模型
  • 基于MoE原则并采用增强的权重合并技术
  • 开源可用性促进更广泛的采用和研究

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

智谱与华为联手推出基于国产芯片的开源图像模型

智谱AI与华为联合发布GLM-Image,这一突破性多模态模型完全运行在中国昇腾芯片上。这标志着国产AI发展的重大进展,将尖端图像生成技术与完全自主的硬件体系相结合。混合架构融合了语言建模与扩散技术,有望为中国开发者提供更智能的内容创作工具。

January 14, 2026
AI自主化中国科技多模态模型
DeepSeek-V4将于今年二月彻底革新代码生成领域
News

DeepSeek-V4将于今年二月彻底革新代码生成领域

DeepSeek正筹备在农历新年期间推出其强大的新型AI模型DeepSeek-V4。此次更新将在代码生成和处理复杂编程任务方面实现重大突破,有望超越Claude和GPT系列等竞争对手。开发者可以期待这款创新工具提供更有条理的响应和更强的推理能力。

January 12, 2026
AI发展编程工具机器学习
News

斯坦福研究揭示:中国在开源AI发展中领先

斯坦福大学一项突破性分析显示,中国已在开源权重AI开发领域超越美国,其中阿里巴巴的通义千问模型系列领跑全球下载量。尽管中国科技巨头和初创企业推动创新,但随着这些模型获得国际采用,安全问题依然存在。

January 12, 2026
人工智能中国科技开源AI
Lightricks推出开源AI,数秒内生成带声音的视频
News

Lightricks推出开源AI,数秒内生成带声音的视频

以色列科技公司Lightricks发布了LTX-2,这是一款创新的AI系统,能够根据文本提示生成20秒高清视频并完美同步音频。与传统方法不同,它采用独特的双流架构同时处理视觉和声音。这款开源模型以惊人的速度超越竞争对手——每步仅需一秒多即可生成720p内容。

January 12, 2026
AI视频生成开源AILightricks
中国研究人员教会AI在图像生成中自我纠错
News

中国研究人员教会AI在图像生成中自我纠错

中国高校取得突破性进展,解决了AI的'视觉读写障碍'——图像系统能理解概念却难以正确呈现的问题。他们的UniCorn框架如同内部质检团队,能在创作过程中捕捉并修正错误。早期测试显示其在空间准确性和细节处理方面有显著提升。

January 12, 2026
AI创新计算机视觉机器学习
Falcon H1R7B:小巧AI模型性能超越大型竞争对手
News

Falcon H1R7B:小巧AI模型性能超越大型竞争对手

阿布扎比创新研究院发布了Falcon H1R7B,这款拥有70亿参数的开源语言模型出人意料地强大,正在改写AI性能的规则。通过将创新训练技术与混合架构相结合,这个灵活的竞争者提供的推理能力可与两倍于其大小的模型相媲美。现已在Hugging Face上提供,对于需要高效AI解决方案的开发者来说可能是一个改变游戏规则的产品。

January 6, 2026
AI创新语言模型机器学习