跳转到主要内容

DeepSeek的记忆增强:AI模型如何变得更智能

DeepSeek的突破使AI更高效

Image

想象一个不断忘记简单事实、需要反复查找的助手——这基本上就是当今AI模型的运作方式。DeepSeek的新Engram模块通过赋予人工智能类似人类记忆的功能改变了这一现状。

解决AI的健忘问题

传统的Transformer模型浪费能量反复重新计算相同信息。“这就像每次去商店都要从头重建购物清单,”一位熟悉该项目的研究人员解释道。Engram模块通过为常用知识创建专门的记忆通道来解决这个问题。

与试图取代现有架构的类似系统不同,Engram与它们协同工作。它将古老的N-gram技术现代化为一个可扩展的查找系统,以闪电般的速度运行——在恒定时间内检索信息(对技术精通的读者来说是O(1)复杂度)。

现实世界中的性能提升

DeepSeek团队使用包含2620亿个token的大规模数据集对Engram进行了严格测试。结果引人注目:

  • 将20-25%容量分配给Engram的模型显示出显著提高的准确性
  • 270亿和400亿参数版本在各种基准测试中均优于传统模型
  • 该系统尤其在数学、编码任务和常识测试中表现出色

这项创新在处理长文档时表现最为突出。在上下文窗口扩展到32,768个token(约50页文本)的情况下,配备Engram的模型在查找特定信息时保持了令人印象深刻的准确性——就像在数字干草堆中找到针一样。

为何这不仅关乎基准测试分数

Engram的特殊之处不仅在于更好的测试分数。通过卸载常规记忆任务,该系统有效地赋予AI模型更深层次的思考能力,而无需更多计算能力。这类似于释放心智RAM,使系统能够解决更棘手的问题。

这项技术可能带来:

  • 能记住用户偏好的响应更快的聊天机器人
  • 能够处理冗长文档的更快速研究助手
  • AI服务的能耗降低

DeepSeek团队继续完善Engram,但早期结果表明我们正在见证迈向更高效人工智能的重要一步。

关键点:

  • 记忆升级:Engram为存储常识创建专门路径,同时保留推理能力
  • 性能提升:测试模型在数学(GSM8K)、常识(MMLU)和编码任务中表现出改进
  • 长文档处理大师:即使在处理相当于50多页文本的内容时,系统仍保持准确性
  • 节能高效:通过消除冗余计算,相同的计算能力提供更智能的结果

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

中国文心ERNIE 5.0凭借数学突破掀起全球AI浪潮
News

中国文心ERNIE 5.0凭借数学突破掀起全球AI浪潮

百度最新AI模型引发全球瞩目。新发布的文心ERNIE 5.0已跻身全球排名前十,在LMArena基准测试中以1460分的优异成绩位列第八。更令人惊讶的是?其数学能力现已媲美OpenAI未发布的GPT-5.2-High,标志着中国AI能力的重大飞跃。

January 15, 2026
人工智能中国科技机器学习
百度ERNIE-5.0在全球AI模型数学能力排行榜中夺冠
News

百度ERNIE-5.0在全球AI模型数学能力排行榜中夺冠

百度发布了其最新AI力作——ERNIE-5.0-0110,引发全球关注。这款中国开发的模型不仅与国际竞争者齐头并进,更在数学领域领先全球,仅次于GPT-5.2-High。除了数字运算,ERNIE在编程、专业知识和创造性任务方面同样出色,彰显了中国在人工智能领域日益增长的实力。

January 15, 2026
AI发展中国科技机器学习
News

GPT-5.2在浏览器构建马拉松中超越Claude Opus

在一项突破性的AI编程耐力测试中,OpenAI的GPT-5.2展现了惊人的持久力——成功从零开始构建完整网页浏览器,在长期工程任务中表现优于Anthropic的Claude Opus 4.5。虽然两款模型都擅长短时编码冲刺,但GPT-5.2在长达数周的项目中展现出更出色的专注力维持能力,能修正错误并协调复杂依赖关系而不偏离最终目标。

January 15, 2026
AI编程机器学习软件工程
印度Alpie AI模型引发热议——但它真的是本土研发吗?
News

印度Alpie AI模型引发热议——但它真的是本土研发吗?

印度新晋AI竞争者Alpie凭借媲美GPT-4o和Claude3.5等行业巨头的表现引人注目。虽然其数学和编程能力令人印象深刻,但技术审查显示它基于中国开源技术构建。这个高性价比模型可能 democratize AI access,但也引发了关于全球AI竞赛中创新起源的疑问。

January 15, 2026
AI创新机器学习科技创业
腾讯WeDLM通过扩散模型突破性进展为AI推理加速
News

腾讯WeDLM通过扩散模型突破性进展为AI推理加速

腾讯微信AI团队发布了创新扩散语言模型WeDLM,该模型在保持文本生成质量的同时显著提升了速度。通过巧妙融合扩散模型与注意力机制,这项技术在特定任务中实现了比现有模型快10倍的处理速度。早期测试显示,该技术在需要快速响应的应用场景(如客服和实时问答)中表现尤为突出。

January 13, 2026
AI创新自然语言处理腾讯技术
DeepSeek-V4将于今年二月彻底革新代码生成领域
News

DeepSeek-V4将于今年二月彻底革新代码生成领域

DeepSeek正筹备在农历新年期间推出其强大的新型AI模型DeepSeek-V4。此次更新将在代码生成和处理复杂编程任务方面实现重大突破,有望超越Claude和GPT系列等竞争对手。开发者可以期待这款创新工具提供更有条理的响应和更强的推理能力。

January 12, 2026
AI发展编程工具机器学习