跳转到主要内容

IBM与Hugging Face推出SmolDocling:文档转换领域的革命性突破

在计算机科学领域,将复杂文档转换为结构化数据一直是一个重大挑战。传统方法通常涉及繁琐的工作流程,或依赖于容易出错且计算成本高的大型多模态模型。然而,一种新的解决方案出现了:SmolDocling,这是由IBMHugging Face合作开发的项目,有望彻底改变这一领域。

Image

SmolDocling是一个256M参数的开源视觉语言模型(VLM),旨在为多模态文档转换提供端到端的解决方案。与拥有数十亿参数的更大模型不同,SmolDocling的紧凑尺寸使其成为一种轻量级但功能强大的工具,显著降低了计算复杂性和资源需求。

SmolDocling的独特方法

该模型的关键创新在于其DocTags格式,这是一种通用的标签系统,能够以清晰简洁的方式捕捉页面元素、其结构和空间上下文。这一特性使得机器能够精确理解文档布局、文本内容以及表格、公式、代码片段和图表等视觉元素。

基于Hugging Face的SmolVLM-256M,SmolDocling利用优化的分词和激进的视觉特征压缩来最小化计算需求。其训练过程采用课程学习——从冻结的视觉编码器开始,逐步使用更丰富的数据集进行微调,以增强视觉语义对齐。值得注意的是,SmolDocling在消费级GPU上平均每页处理时间为0.35秒,消耗不到500MB的显存

Image

轻量级冠军

在基准测试中,SmolDocling表现出了卓越的性能。例如,在全页文档OCR中,它超越了Qwen2.5VL(70亿参数)和Nougat(3.5亿参数)等更大的模型,实现了更低的编辑距离(0.48)和更高的F1分数(0.80)。在公式转录中,它以F1分数为0.95的表现与最先进的模型持平。此外,它在代码片段识别方面设定了新标准,精确率和召回率分别达到0.94和0.91。

处理复杂文档的多功能性

SmolDocling的能力不仅限于科学论文,还包括专利、表格、商业文档等。它处理代码、图表和多样化布局等复杂元素的能力使其与传统OCR解决方案区别开来。通过提供全面的结构化元数据(通过DocTags),SmolDocling消除了HTML或Markdown等格式中固有的歧义性,增强了下游可用性。

该模型的紧凑尺寸还使其能够在资源需求最小的情况下进行大规模批量处理,为处理大量复杂文档的企业提供了经济高效的解决方案。

结论

SmolDocling代表了文档转换技术的一项重大突破。它表明紧凑模型不仅能够与大型基础模型竞争,还能在某些关键任务中超越它们。其开源性质为OCR技术的效率和多功能性设定了新标准,同时通过开放数据集和高效的模型架构为社区提供了宝贵的资源。

关键点

  1. SmolDocling是由IBM与Hugging Face开发的256M参数开源视觉语言模型。
  2. 它引入了DocTags格式以实现对文档元素的精确机器理解。
  3. 该模型在消费级GPU上每页处理时间为0.35秒且显存使用极少。
  4. 它在OCR、公式转录和代码识别任务中超越了更大的模型。
  5. SmolDocling的多功能性使其适用于处理专利、商业文档和科学论文等场景.

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

IBM逆势而行:赋能初级员工担任AI监督者
News

IBM逆势而行:赋能初级员工担任AI监督者

当科技巨头因担忧AI冲击而削减初级岗位时,IBM正采取大胆的反向策略。该公司计划到2026年将初级员工招聘规模扩大三倍,彻底重塑岗位职责——聚焦人机协作而非易被自动化取代的任务。IBM首席人力资源官解释称,该战略旨在为员工队伍和领导梯队构建未来竞争力。

February 13, 2026
IBM未来工作AI战略
DeepSeek全新OCR模型实现类人化文档阅读
News

DeepSeek全新OCR模型实现类人化文档阅读

DeepSeek发布突破性产品DeepSeek-OCR2,彻底革新机器理解文档的方式。与传统机械扫描页面的模型不同,该AI能根据内容含义动态调整处理顺序,模拟人类阅读模式。早期测试显示在保持效率的同时准确率显著提升3.7%,这对处理复杂报告、表格和技术文档可能带来革命性变化。

January 27, 2026
OCRAIdocument-processing
News

IBM豪掷110亿美元收购Confluent,押注实时数据领域

IBM正以高达110亿美元的巨额交易收购实时数据流领域领导者Confluent。这笔战略性收购旨在通过强化数据基础设施来提升IBM的人工智能能力。基于Apache Kafka技术的Confluent解决方案将帮助企业更快部署AI,同时管理系统间的关键数据流。此次收购正值Confluent的市场潜力预计在2025年翻倍至1000亿美元之际。

December 9, 2025
IBMConfluentAI基础设施
腾讯OCR技术突破:小模型,大成效
News

腾讯OCR技术突破:小模型,大成效

腾讯推出开源OCR模型HunyuanOCR,这款仅含10亿参数的轻量级模型展现出惊人性能。在文档解析和多语言翻译任务中,其表现超越体积更大的竞品,并能处理从收据到路牌等各种场景。端到端设计使其比传统方法更快输出精准结果。

November 25, 2025
OCRTencentComputerVision
IBM裁员以优先发展AI和软件业务
News

IBM裁员以优先发展AI和软件业务

IBM宣布裁员数千人,作为向AI和软件服务战略转型的一部分。此举将影响2700至5000名员工,主要涉及基础设施部门,与CEO Arvind Krishna专注于高利润的云和AI解决方案(如watsonx)的战略一致。

November 6, 2025
IBM人工智能科技裁员
IBM发布Granite 4.0 Nano AI模型,专为边缘计算设计
News

IBM发布Granite 4.0 Nano AI模型,专为边缘计算设计

IBM推出四款全新Granite 4.0 Nano AI模型,参数量从350万到15亿不等,兼顾高效与易用性。这些模型可在标准笔记本或浏览器中运行,实现无需依赖云端的本地部署。基于Apache 2.0协议发布,支持商业用途并在基准测试中超越竞争对手。

October 29, 2025
AImodelsEdgeComputingIBM