跳转到主要内容

DeepSeek发布30亿参数OCR模型,实现高效文档解析

DeepSeek突破性OCR模型树立新标杆

人工智能研究公司DeepSeek发布了DeepSeek-OCR,这是一套尖端的光学字符识别系统,标志着文档处理技术的重大飞跃。该新型模型采用端到端架构,融合了计算机视觉与语言处理能力,旨在实现最高效率。

Image

技术规格与性能表现

该模型在严格的Fox基准测试中实现了97%的解码准确率,即使在极端压缩比下仍保持强劲性能。测试显示其在10倍压缩时结果可靠,并在20倍压缩时仍保持有用特性。在OmniDocBench基准测试中,DeepSeek-OCR以显著更少的视觉令牌超越了传统模型。

架构包含两大核心组件:

  1. DeepEncoder:采用基于SAM的局部感知窗口注意力的高分辨率视觉编码器
  2. DeepSeek3B-MoE-A570M:总参数量达30亿(每个令牌激活570M)的混合专家解码器

Image

灵活的部署选项

DeepSeek-OCR提供多种操作模式:

  • 标准模式:Tiny、Small、Base、Large(不同分辨率/令牌数)
  • 动态模式:Gundam和Gundam-Master根据页面复杂度调整令牌预算

训练过程包括:

  1. 初始DeepEncoder训练用于下一令牌预测
  2. 跨多节点的全系统训练
  3. 每日超过200,000页的生产级生成规模

开发团队建议大多数应用从Small模式开始,仅在处理密集文本或高令牌数时才切换至Gundam模式。

Image

行业影响与获取方式

此次发布标志着文档AI技术的重大进步,潜在应用领域包括:

  • 法律文件处理
  • 医疗记录数字化
  • 财务报表分析
  • 历史档案保存

The model's papers and implementation are available through:

The model's papers and implementation are available through:

核心亮点:

🌟 Fox基准测试中达97%准确率并保持高效压缩\ 📊 OmniDocBench上超越传统模型\ 🔧 多种分辨率模式适应文档复杂度\ 💻 开源实现已开放获取

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

微软全新AI模型以智能轻巧设计展现强大实力
News

微软全新AI模型以智能轻巧设计展现强大实力

微软发布了Phi-4-reasoning-vision-15B,这款AI模型虽轻巧却拥有惊人性能,在视觉推理任务中表现卓越。其独特之处在于能以较低计算成本提供顶级性能,非常适合资源受限的环境。成功秘诀在于高质量训练数据和创新的混合推理方法,能自动适应简单或复杂任务。该模型现已开源,或将改变我们对高效AI的认知。

April 13, 2026
微软AI多模态推理高效AI
News

蚂蚁集团以突破性技术在全球AI检测挑战赛中占据主导地位

在 prestigious CVPR 2026 大会上,蚂蚁集团的安全团队在AI内容检测领域取得了惊人的双料胜利。他们创新的方法将复杂的视觉分析与真实场景测试相结合,为对抗深度伪造和AI生成欺诈提供了强大的新工具。这一胜利凸显了中国在实用AI安全解决方案领域日益增长的领导地位,这些方案保护从数字支付到身份验证的方方面面。

April 10, 2026
AI安全深度伪造检测蚂蚁集团
Meta推出Muse Spark:一款更智能、更高效的日常任务AI助手
News

Meta推出Muse Spark:一款更智能、更高效的日常任务AI助手

Meta发布了新型AI模型Muse Spark,以惊人效率提供专业级性能。该模型由1000多名医生参与训练,能可视化分析健康数据,甚至可通过照片解数独。其独特之处在于:在仅消耗Llama4Maverick十分之一算力的情况下,仍能提供与顶级模型相媲美的结果。

April 9, 2026
AI助手计算机视觉健康科技
News

美团新AI模型实现类人视觉与听觉能力

美团发布突破性AI模型LongCat-Next,可流畅处理图像、语音和文本。与传统系统将这些格式分开处理不同,该技术将所有输入转换为AI原生理解的通用语言。早期测试显示,该模型在文档阅读、视觉数学解题甚至模仿人声方面表现优异,同时保持顶尖文本理解能力。

April 3, 2026
AI创新多模态学习计算机视觉
IBM Granite 4.0 3B Vision:以更智能的方式应对文档混乱
News

IBM Granite 4.0 3B Vision:以更智能的方式应对文档混乱

IBM发布了Granite 4.0 3B Vision,这是一款灵活而强大的人工智能工具,专为从复杂的商业文档中提取有价值数据而设计。凭借其30亿参数的架构,该模型擅长处理财务报表和医疗记录等棘手格式,同时保持低成本。它的突出之处在于能够在边缘设备上高效运行,并且具有开源特性,允许企业根据自身需求定制解决方案。

April 2, 2026
文档AI企业技术数据提取
News

智谱AI新模型实现类人视觉与编程能力

中国AI企业智谱推出突破性模型GLM-5V-Turbo,融合视觉理解与编程能力。这不仅是普通聊天机器人——它能分析设计稿、解读复杂图表,并将草图转化为可运行代码。该模型20万token的上下文窗口可处理大型项目,同时在基准测试中保持顶尖性能。早期测试表明,它能通过简单截图生成完整前端项目,或将彻底改变开发者工作方式。

April 2, 2026
AI编程计算机视觉自动化开发