跳转到主要内容

DeepSeek发布30亿参数OCR模型,实现高效文档解析

DeepSeek突破性OCR模型树立新标杆

人工智能研究公司DeepSeek发布了DeepSeek-OCR,这是一套尖端的光学字符识别系统,标志着文档处理技术的重大飞跃。该新型模型采用端到端架构,融合了计算机视觉与语言处理能力,旨在实现最高效率。

Image

技术规格与性能表现

该模型在严格的Fox基准测试中实现了97%的解码准确率,即使在极端压缩比下仍保持强劲性能。测试显示其在10倍压缩时结果可靠,并在20倍压缩时仍保持有用特性。在OmniDocBench基准测试中,DeepSeek-OCR以显著更少的视觉令牌超越了传统模型。

架构包含两大核心组件:

  1. DeepEncoder:采用基于SAM的局部感知窗口注意力的高分辨率视觉编码器
  2. DeepSeek3B-MoE-A570M:总参数量达30亿(每个令牌激活570M)的混合专家解码器

Image

灵活的部署选项

DeepSeek-OCR提供多种操作模式:

  • 标准模式:Tiny、Small、Base、Large(不同分辨率/令牌数)
  • 动态模式:Gundam和Gundam-Master根据页面复杂度调整令牌预算

训练过程包括:

  1. 初始DeepEncoder训练用于下一令牌预测
  2. 跨多节点的全系统训练
  3. 每日超过200,000页的生产级生成规模

开发团队建议大多数应用从Small模式开始,仅在处理密集文本或高令牌数时才切换至Gundam模式。

Image

行业影响与获取方式

此次发布标志着文档AI技术的重大进步,潜在应用领域包括:

  • 法律文件处理
  • 医疗记录数字化
  • 财务报表分析
  • 历史档案保存

The model's papers and implementation are available through:

The model's papers and implementation are available through:

核心亮点:

🌟 Fox基准测试中达97%准确率并保持高效压缩\ 📊 OmniDocBench上超越传统模型\ 🔧 多种分辨率模式适应文档复杂度\ 💻 开源实现已开放获取

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

深度求索全新OCR技术模拟人类视觉,大幅降低成本
News

深度求索全新OCR技术模拟人类视觉,大幅降低成本

中国AI公司深度求索发布了突破性的视觉编码器OCR2,其处理文档的方式如同人眼浏览页面。通过摒弃僵化的网格处理方式,采用灵活的'因果流令牌'技术,该系统在性能超越Gemini3Pro的同时,将视觉令牌使用量减少了80%。这项开源技术可能为真正统一的多模态AI铺平道路。

February 2, 2026
计算机视觉AI突破文档AI
News

Anthropic通过收购Vercept为Claude赋予视觉能力

人工智能初创公司Anthropic收购了计算机视觉公司Vercept,为其Claude AI配备了先进的视觉理解能力。这笔交易带来了超越竞争对手的前沿UI识别技术,标志着在创造能够像人类一样真正驾驭数字环境的AI助手方面迈出了重要一步。通过此次收购,Anthropic巩固了其在开发实用AI代理竞赛中的领先地位。

February 27, 2026
人工智能计算机视觉科技并购
News

李飞飞的AI初创公司获得高达10亿美元巨额投资

由著名AI先驱李飞飞联合创立的人工智能初创公司World Labs已完成一轮高达10亿美元的巨额融资。主要投资者包括Autodesk、Andreessen Horowitz、NVIDIA和AMD。该公司旨在推动AI发展的边界,延续李飞飞在ImageNet项目上的开创性工作——该项目彻底改变了计算机视觉领域。

February 19, 2026
人工智能科技初创企业计算机视觉
阿里通义千问Qwen-Image-2.0震撼发布:创作与编辑合二为一,呈现2K超清细节
News

阿里通义千问Qwen-Image-2.0震撼发布:创作与编辑合二为一,呈现2K超清细节

阿里云推出突破性AI模型Qwen-Image-2.0,将图像生成与编辑功能无缝整合。这款轻量级7B架构模型可生成令人惊叹的2K分辨率图像,实现像素级文本渲染与逼真材质表现。从古典书法到现代信息图,它能处理多样化创意任务,并在复杂场景中保持角色一致性。该模型已通过阿里云百炼平台开放测试。

February 10, 2026
AI图像生成阿里云计算机视觉
News

商汤科技推出新型AI模型,思维模式堪比侦探

商汤科技发布开源AI模型SenseNova-MARS,该模型融合视觉推理与图文搜索能力。在多项基准测试中超越GPT-5.2,这项创新技术模拟人类调查技能——放大微小细节、串联信息点并自主解决复杂问题。公司已向全球开发者公开8B和32B两个版本。

January 30, 2026
AI创新计算机视觉机器学习
News

商汤科技发布革命性AI,具备视觉、推理与行动能力

中国AI领军企业商汤科技刚刚开放了其突破性的SenseNova-MARS模型访问权限——这项技术不仅能理解图像,还能像人类一样思考问题。该创新提供两个针对不同需求定制的版本,或将重新定义机器与视觉世界的交互方式。

January 30, 2026
人工智能计算机视觉商汤科技