跳转到主要内容

腾讯全新OCR模型以精简架构打破纪录

腾讯小巧却强悍的OCR模型引发关注

Image

在AI行业普遍追求规模效应的背景下,腾讯混元团队另辟蹊径。其最新开源的OCR(光学字符识别)模型仅用10亿参数就实现了尖端性能——以当今AI标准来看堪称精巧。

技术文档指出:"混元OCR的特殊之处不在于体积,而在于架构优化程度"。该模型融合三大智能组件:保持原始画质的视频编码器、自适应视觉处理器,以及腾讯高效语言模型。

令人惊讶的性能表现

Image

测试数据令人印象深刻:在OmniDocBench高难度文档解析测试中,混元OCR以94.1分小幅领先体积更大的谷歌Gemini3-Pro。它在九种现实场景中表现优异,包括:

  • 手写笔记转录
  • 街景标识识别
  • 复杂文档分析

最惊人的是,该模型在OCRBench小型模型类别(<30亿参数)中以860分独占鳌头——准确度堪比三倍于自身体积的模型。

不止于文字识别

该模型功能不仅限于字符辨认,还能:

  • 直接从票据表格提取数据生成JSON格式
  • 自动抓取视频双语字幕
  • 支持中英等14种小语种互译

这项多语言能力使其近期斩获ICDAR2025文档翻译竞赛冠军。

现有应用场景一览

Image

尽管技术听起来颇具未来感,它已在处理实际工作:

  • 政府证件信息处理
  • 辅助视频创作者自动生成字幕
  • 促进跨境商务沟通

开发团队特别强调易用性:"与需要多重处理步骤的复杂系统不同",一位开发者指出,"这个模型单次运行就能输出整洁结果"。

目前可通过GitHub和Hugging Face获取该模型,网页浏览器即可直接试用演示版。

核心亮点:

  • 小巧精悍:仅10亿参数却超越大型竞品
  • 实战利器:擅长文档、手写体、街景标识等多种场景
  • 多语专家:支持中英在内16种语言互译
  • 轻松集成:简化架构意味着更快部署

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

小型AI模型威力惊人:Step3-VL-10B挑战业界巨头
News

小型AI模型威力惊人:Step3-VL-10B挑战业界巨头

StepZen新开源的视觉语言模型Step3-VL-10B正在AI圈引发轰动。尽管仅有100亿参数的紧凑体积,它在视觉推理和数学竞赛中的表现却超越了体积大二十倍的模型。秘诀何在?创新的训练技术或将彻底改变我们在日常设备上部署AI的方式。

January 20, 2026
AI创新计算机视觉边缘计算
News

日立科技UEX系统为工业X射线成像带来AI驱动的清晰度

中国企业日立科技发布了突破性的AI系统UEX,该系统彻底改变了工业X射线成像技术。能够在短短15毫秒内增强1536×1536像素图像,这项技术有望革新半导体、电池和汽车制造领域的质量控制。该系统结合了降噪、锐化和对比度优化功能,同时减少辐射暴露——对于需要速度和精度的生产线来说是一项革命性突破。

January 15, 2026
工业人工智能X射线技术质量控制
智谱与华为联合发布完全基于国产技术的突破性AI图像模型
News

智谱与华为联合发布完全基于国产技术的突破性AI图像模型

中国AI企业智谱与华为合作推出GLM-Image,这是一款完全基于国产硬件训练的革命性多模态模型。这一创新系统结合了文本与图像生成能力,尤其在汉字渲染和复杂视觉任务方面表现优异。现已作为开源软件发布,有望使先进的AI图像创作更加普及。

January 14, 2026
AI创新国产技术计算机视觉
MIT自动化'运动工厂'赋予AI物理直觉
News

MIT自动化'运动工厂'赋予AI物理直觉

来自MIT、NVIDIA和加州大学伯克利分校的研究人员攻克了视频分析领域的一大难题——教会AI理解物理运动。他们的自动化'FoundationMotion'系统无需人工干预即可生成高质量训练数据,帮助AI系统以惊人准确度掌握轨迹与时机等概念。初期测试显示其性能超越更庞大模型,标志着机器真正理解物体运动规律的进展。

January 12, 2026
计算机视觉AI训练运动分析
中国研究人员教会AI在图像生成中自我纠错
News

中国研究人员教会AI在图像生成中自我纠错

中国高校取得突破性进展,解决了AI的'视觉读写障碍'——图像系统能理解概念却难以正确呈现的问题。他们的UniCorn框架如同内部质检团队,能在创作过程中捕捉并修正错误。早期测试显示其在空间准确性和细节处理方面有显著提升。

January 12, 2026
AI创新计算机视觉机器学习
News

科技行业资深人士创立liko.ai,推出更智能的隐私保护家用摄像头

美团前硬件负责人李瑞安(Ryan Li)的新创企业liko.ai已获得商汤科技和科大讯飞关联公司的投资。这家初创公司旨在通过基于边缘的人工智能技术革新家用安防摄像头——该技术在本地而非云端处理视频,既解决了日益增长的隐私担忧,又增添了更智能的检测功能。他们的首批产品预计将于2026年年中面市。

January 7, 2026
智能家居计算机视觉边缘计算