跳转到主要内容

腾讯全新OCR模型以精简架构打破纪录

腾讯小巧却强悍的OCR模型引发关注

Image

在AI行业普遍追求规模效应的背景下,腾讯混元团队另辟蹊径。其最新开源的OCR(光学字符识别)模型仅用10亿参数就实现了尖端性能——以当今AI标准来看堪称精巧。

技术文档指出:"混元OCR的特殊之处不在于体积,而在于架构优化程度"。该模型融合三大智能组件:保持原始画质的视频编码器、自适应视觉处理器,以及腾讯高效语言模型。

令人惊讶的性能表现

Image

测试数据令人印象深刻:在OmniDocBench高难度文档解析测试中,混元OCR以94.1分小幅领先体积更大的谷歌Gemini3-Pro。它在九种现实场景中表现优异,包括:

  • 手写笔记转录
  • 街景标识识别
  • 复杂文档分析

最惊人的是,该模型在OCRBench小型模型类别(<30亿参数)中以860分独占鳌头——准确度堪比三倍于自身体积的模型。

不止于文字识别

该模型功能不仅限于字符辨认,还能:

  • 直接从票据表格提取数据生成JSON格式
  • 自动抓取视频双语字幕
  • 支持中英等14种小语种互译

这项多语言能力使其近期斩获ICDAR2025文档翻译竞赛冠军。

现有应用场景一览

Image

尽管技术听起来颇具未来感,它已在处理实际工作:

  • 政府证件信息处理
  • 辅助视频创作者自动生成字幕
  • 促进跨境商务沟通

开发团队特别强调易用性:"与需要多重处理步骤的复杂系统不同",一位开发者指出,"这个模型单次运行就能输出整洁结果"。

目前可通过GitHub和Hugging Face获取该模型,网页浏览器即可直接试用演示版。

核心亮点:

  • 小巧精悍:仅10亿参数却超越大型竞品
  • 实战利器:擅长文档、手写体、街景标识等多种场景
  • 多语专家:支持中英在内16种语言互译
  • 轻松集成:简化架构意味着更快部署

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

NVIDIA Lyra 2.0:将单张图片转化为广阔3D世界
News

NVIDIA Lyra 2.0:将单张图片转化为广阔3D世界

NVIDIA发布了开源框架Lyra 2.0,可将单张图像转换为细节丰富、可自由行走的3D环境。该技术解决了AI生成内容中长期存在的空间一致性问题和物体随时间漂移现象。通过Hugging Face平台提供的这一工具,有望通过创建持久可扩展的世界彻底改变游戏开发、虚拟环境构建和机器人训练领域,这些世界可直接用于实时渲染与模拟。

April 20, 2026
AI生成3DNVIDIA研究院Lyra 2.0
News

NVIDIA Lyra 2.0:从单张快照创建广阔3D世界

NVIDIA研究团队发布了Lyra 2.0,这是一款先进的3D场景生成系统,仅需一张照片即可构建庞大的虚拟环境。该技术能创建连贯的90米数字景观,同时解决传统失真问题。基准测试显示Lyra 2.0在图像质量和相机控制方面优于竞争对手,其快速版本效率提升13倍。该系统与Nvidia Isaac Sim等物理引擎无缝集成,为机器人训练和AI开发开辟了新可能。

April 17, 2026
NVIDIA3D生成AI创新
蚂蚁集团羚搏科技开源突破性3D建图工具
News

蚂蚁集团羚搏科技开源突破性3D建图工具

蚂蚁集团旗下羚搏科技宣布开源其革命性产品LingBot-Map,该系统仅需普通摄像头即可实现实时3D场景重建。与需要专业设备或后期处理的前沿技术不同,这项创新能在视频拍摄过程中即时运算,达到惊人的20帧/秒处理速度。该技术有望通过降低高质量空间建图门槛,彻底改变从机器人到增强现实等多个领域。

April 16, 2026
三维重建计算机视觉蚂蚁集团
腾讯视频技术突破:生成速度提升11.8倍
News

腾讯视频技术突破:生成速度提升11.8倍

腾讯混元团队通过全新DisCa技术攻克了视频生成速度慢的难题,在不损失画质的情况下实现了惊人的11.8倍速度提升。这项被顶级计算机视觉会议CVPR 2026收录的开源方案,引入了智能特征预测技术,彻底改变了AI生成视频的方式。该团队还改进了MIT的方法,使其更适用于复杂视频任务,成果已应用于其最新视频生成模型。

April 16, 2026
AI视频生成腾讯研究计算机视觉
京东发布用于下一代机器人技术的尖端AI训练摄像头
News

京东发布用于下一代机器人技术的尖端AI训练摄像头

京东推出了创新性数据采集设备JoyEgoCam,旨在通过真实世界观察来训练AI系统。这款工业级摄像头能以每秒60帧的速度拍摄超高清画面,使机器能够学习细微动作和环境变化。此次发布是京东雄心勃勃计划的一部分,目标是在两年内收集1000万小时的视频数据,有望彻底改变仓储自动化和物流机器人技术。

April 16, 2026
AI训练机器人技术计算机视觉
谷歌AI重大突破:让机器像人类一样观察世界
News

谷歌AI重大突破:让机器像人类一样观察世界

Google DeepMind通过其新推出的TIPSv2系统攻克了AI视觉领域的一大难题。当前模型虽能大致描述图像内容,但在精确定位细节(如熊猫左后腿位置)时仍显不足。这项突破源于一个意外发现:在分割任务中,小型模型有时反而胜过大型模型。通过优化训练方法并减少计算开销,TIPSv2在减少42%参数量的同时,分割准确率提升了14%。这一进展可能为从医学影像到自动驾驶等多个领域带来革命性变化。

April 16, 2026
计算机视觉机器学习AI研究