跳转到主要内容

深度求索全新OCR技术模拟人类视觉,大幅降低成本

深度求索的远见飞跃:像人类一样'看见'的OCR技术

Image

想象一下,一个AI不仅能机械地扫描文档,还能像人类一样真正阅读它们——专注于重要内容,跳过不重要的部分。这正是深度求索通过其最新发布的OCR2视觉编码器所实现的成就。

这家中国AI公司的突破性技术模拟了人类视觉的工作原理。研究团队解释说:"当我们阅读时,眼睛不会像扫描仪那样按完美直线移动。它们会在重要单词和短语之间跳跃。"传统的计算机视觉系统浪费资源平等处理每个像素——OCR2彻底改变了这一点。

更智能的扫描,更快的处理

这项创新的核心在于架构上的根本性转变。深度求索放弃了传统的CLIP组件,转而采用基于"因果流令牌"的轻量级语言模型方法。这些令牌允许系统根据上下文重组视觉信息——就像你的大脑在阅读时会优先处理有意义的内容而非空白区域一样。

效率提升令人震惊。竞争对手可能需要消耗6000个令牌来处理一张图像,而OCR2仅需256-1120个令牌——减少80%的使用量意味着更快的性能和更低的成本。对于被文书工作淹没的企业或开发文档密集型应用程序的程序员来说,这些节省可能是颠覆性的改变。

Image

基准测试中的统治地位

数据说明了一切。在被视为文档AI黄金标准的OmniDocBench严格测试中,OCR2获得了令人印象深刻的91.09%得分,在多项目标上超越了谷歌的Gemini3Pro。其理解阅读顺序和提取意义(而非仅仅是文字)的能力使其在处理复杂布局(如表格或多栏文档)时表现尤为出色。

使这次发布特别令人兴奋的是深度求索决定开源代码和模型权重。这种透明度促进了协作精神,可能加速真正统一的多模态AI系统的进展——在这种系统中文本、语音和图像可以在单一框架内无缝衔接流动。

关键要点:

  • 类人效率:通过模拟自然眼球运动模式,比竞争对手少用80%的令牌处理文档
  • 超越基准的性能:在全面的文档理解测试中以91.09%(对比未公开数据)击败Gemini3Pro
  • 开放式创新:公开可用的架构可能引发多模态AI集成领域的新突破

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

苹果LiTo AI以惊艳光照效果将照片转化为3D世界
News

苹果LiTo AI以惊艳光照效果将照片转化为3D世界

苹果研究团队公布了突破性AI模型LiTo,可将单张图像转换为具有惊人准确光照细节的3D场景。该技术在光线一致性上比现有解决方案提升37%,有望彻底改变Vision Pro等设备的AR内容创作。通过将复杂光照数据压缩为高效数学表征,LiTo解决了3D重建领域的长期难题。

March 18, 2026
苹果AI3D重建计算机视觉
小红书发布升级版AI图片编辑器,速度大幅提升
News

小红书发布升级版AI图片编辑器,速度大幅提升

中国生活方式平台小红书近日推出FireRed-Image-Edit v1.1版本,全面增强AI图片编辑能力。此次更新带来更智能的面部识别、更流畅的多元素融合处理,性能显著提升——处理时间缩短近半。令人意外的是,该公司将公开全部代码和技术规格,为全球开发者提供这套专业级工具。

March 9, 2026
AI图片编辑小红书计算机视觉
微软发布Phi-4:一款能像人类一样观察与思考的敏捷AI
News

微软发布Phi-4:一款能像人类一样观察与思考的敏捷AI

微软推出了突破性的开源AI模型Phi-4-Reasoning-Vision-15B,该模型将视觉感知与深度推理能力相结合。与传统模型不同,Phi-4能在理解上下文的同时主动分析图像,使开发者能够从数据分析到UI自动化创建更智能的应用程序。其独特的双模式操作可根据需要在快速响应和深思熟虑的分析之间切换。

March 5, 2026
微软AI计算机视觉多模态模型
Ant Digital推出颈挂式改造方案,智能手机变身为AI数据采集器
News

Ant Digital推出颈挂式改造方案,智能手机变身为AI数据采集器

Ant Digital的天矶实验室将日常智能手机改造成强大的AI训练数据采集工具。其创新的颈挂支架系统以传统成本的一小部分捕捉第一人称视频,解决了具身智能领域的重大挑战。早期测试显示显著提升——当补充这一新数据源时,机器人任务成功率从45%跃升至95%。

March 3, 2026
具身智能AI训练计算机视觉
News

Anthropic通过收购Vercept为Claude赋予视觉能力

人工智能初创公司Anthropic收购了计算机视觉公司Vercept,为其Claude AI配备了先进的视觉理解能力。这笔交易带来了超越竞争对手的前沿UI识别技术,标志着在创造能够像人类一样真正驾驭数字环境的AI助手方面迈出了重要一步。通过此次收购,Anthropic巩固了其在开发实用AI代理竞赛中的领先地位。

February 27, 2026
人工智能计算机视觉科技并购
News

李飞飞的AI初创公司获得高达10亿美元巨额投资

由著名AI先驱李飞飞联合创立的人工智能初创公司World Labs已完成一轮高达10亿美元的巨额融资。主要投资者包括Autodesk、Andreessen Horowitz、NVIDIA和AMD。该公司旨在推动AI发展的边界,延续李飞飞在ImageNet项目上的开创性工作——该项目彻底改变了计算机视觉领域。

February 19, 2026
人工智能科技初创企业计算机视觉