跳转到主要内容

Grab开发针对东南亚语言的AI模型

Grab用定制AI模型解决语言识别难题

根据最新技术博客,总部位于新加坡的超级应用公司Grab开发了自研视觉语言模型,以解决处理东南亚语言时的不足。这项创新源于现有商业解决方案在Grab业务覆盖的八国非拉丁文字处理上的普遍困境。

Image

图片来源说明:该图片由AI生成

合规性挑战

Grab平台在新加坡、马来西亚、印尼等国家提供网约车、外卖和金融服务,其客户验证流程需要精确的文档处理。传统OCR系统在处理区域文字编写的各类身份证件时表现欠佳。

"我们发现商业模型在东南亚语言上频繁出错",Grab工程师指出,"尽管开源视觉语言模型效率更高,但准确性仍然不足"。

打造专业解决方案

2025年,Grab开始研发自有的视觉大语言模型(VLLM),能够将图像向量化以提取文本。团队选择阿里云的Qwen2-VL2B作为基础架构,原因包括:

  • 适中的模型体积
  • 原生支持东南亚语言
  • 动态适应不同图像分辨率

公司通过以下方式创建专项训练数据:

  1. 从Common Crawl提取区域语言内容
  2. 建立合成数据管道生成不同字体/背景的文本
  3. 应用低秩自适应微调技术

最终模型在处理印尼文档时表现突出,同时持续开发泰语和越南语识别功能。

性能突破

定制解决方案展现多项优势:

  • 准确率超越通用OCR工具
  • 在区域语言能力上优于商业LLM
  • 通过针对性训练保持轻量高效
  • 实现可靠的合规文件处理 "高质量数据的战略运用证明,小型专业模型可以兼顾效果与效率",Grab表示。 随着运营复杂度增加,公司计划进一步开发模型以扩展文档处理能力。 ### 核心要点: 📊 商业模型在东南亚文字上表现不佳促使Grab开发定制方案 🔍 视觉LLM突破提升身份证件/执照处理准确率 🚀 持续开发计划中以支持更多文档类型和语言

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

AI行业呈惊人增长态势,OpenAI估值飙升至8500亿美元

人工智能领域正经历前所未有的增长,OpenAI估值在短短六个月内飙升至8500亿美元。与此同时,印度企业巨头正对AI基础设施开发进行1.45万亿美元的巨额押注。尽管这些数字描绘出爆炸式扩张的景象,但如何将这些投资转化为可持续的技术领先地位仍面临挑战。

February 24, 2026
AIOpenAITechInvestment
阿里巴巴Qwen3.5 AI模型即将发布,具备视觉语言能力
News

阿里巴巴Qwen3.5 AI模型即将发布,具备视觉语言能力

阿里巴巴新一代AI模型Qwen3.5似乎已准备就绪,代码出现在HuggingFace仓库中。据报道,该模型采用混合注意力机制,并可能作为原生视觉语言模型(VLM)首次亮相。开发者发现了紧凑型2B密集模型和更强大的35B-A3B MoE变体的相关引用。若当前传闻属实,中国春节庆祝活动可能与AI社区这一重要的开源发布同时进行。

February 9, 2026
AIMachine LearningAlibaba
News

Anthropic以3500亿美元估值推出新股票计划,引发AI人才争夺战

AI巨头Anthropic正以3500亿美元员工股票出售计划震撼科技界,同时筹集超过20亿美元新资金。这一举措效仿了OpenAI等竞争对手的策略,旨在硅谷残酷的AI竞争中留住顶尖人才。随着各公司争抢工程师和研究人员,早期股权变现正成为新的金手铐。

February 4, 2026
AI风险投资科技人才
苹果支持应用更智能:AI助手结束测试阶段
News

苹果支持应用更智能:AI助手结束测试阶段

苹果最新支持应用更新带来重大变化。AI助手已摘除'早期预览'标签,表明对其处理客户查询能力的信心。新诊断工具让用户无需前往门店即可检查设备健康状况。这些升级反映了苹果通过自动化使技术支持更易获取的推动。

February 4, 2026
AppleTechSupportAI
Fitbit创始人携AI驱动的家庭健康平台回归
News

Fitbit创始人携AI驱动的家庭健康平台回归

Fitbit联合创始人James Park带着新项目Luffu重出江湖。这个由人工智能驱动的平台旨在通过将医疗记录、日常作息和通讯整合到一个直观系统中,解决家庭医疗保健的混乱现状。源于Park个人护理经历中的困境,Luffu承诺为数百万管理家庭健康的人们减轻精神负担。

February 4, 2026
healthtechAIcaregiving
谷歌Project Genie将草图变为可玩世界
News

谷歌Project Genie将草图变为可玩世界

谷歌DeepMind发布了Project Genie,这款AI工具能将文本提示或简单绘画转化为交互式虚拟环境。它融合了多种先进AI模型,让用户即时生成并探索个性化数字世界——从外星景观到丛林冒险——且具备实时响应能力。目前该技术处于严格限时的早期测试阶段,预示着游戏、电影制作和教育领域的革命性应用前景。

February 2, 2026
AIVirtualRealityGoogleDeepMind