AI D-A-M-N

语言

AI D-A-M-N/DeepSeek R1增强版效率提升200%

DeepSeek R1增强版效率提升200%

德国技术咨询公司TNG发布了DeepSeek-TNG-R1T2-Chimera，这是DeepSeek模型的增强版本，标志着深度学习性能的显著飞跃。新版本通过创新的自适应专家（AoE）架构展示了200%更高的推理效率，同时降低了运营成本。

Chimera版本结合了三个DeepSeek模型（R1-0528、R1和V3-0324），采用了一种新颖的AoE架构，改进了传统的专家混合（MoE）方法。这种优化允许更高效的参数使用，在保持令牌输出的同时提升性能。

包括MTBench和AIME-2024在内的基准测试显示，Chimera版本在推理能力和成本效益方面均优于标准R1模型。

AoE架构基于MoE原则构建，其中Transformer的前馈层被划分为专门的“专家”。每个输入令牌仅路由到这些专家的一个子集，显著提高了模型效率。例如，Mistral的Mixtral-8x7B模型通过激活远少于大型模型的参数匹配了其性能，展示了这一原则。

AoE方法进一步推进了这一理念，使研究人员能够：

研究人员通过精细的权重张量操作开发了新模型：

团队使用PyTorch实现了合并过程，保存优化后的权重以创建最终的高效子模型。

增强版DeepSeek模型现已在Hugging Face开源提供。