Grab开发针对东南亚语言的AI模型
Grab用定制AI模型解决语言识别难题
根据最新技术博客,总部位于新加坡的超级应用公司Grab开发了自研视觉语言模型,以解决处理东南亚语言时的不足。这项创新源于现有商业解决方案在Grab业务覆盖的八国非拉丁文字处理上的普遍困境。

图片来源说明:该图片由AI生成
合规性挑战
Grab平台在新加坡、马来西亚、印尼等国家提供网约车、外卖和金融服务,其客户验证流程需要精确的文档处理。传统OCR系统在处理区域文字编写的各类身份证件时表现欠佳。
"我们发现商业模型在东南亚语言上频繁出错",Grab工程师指出,"尽管开源视觉语言模型效率更高,但准确性仍然不足"。
打造专业解决方案
2025年,Grab开始研发自有的视觉大语言模型(VLLM),能够将图像向量化以提取文本。团队选择阿里云的Qwen2-VL2B作为基础架构,原因包括:
- 适中的模型体积
- 原生支持东南亚语言
- 动态适应不同图像分辨率
公司通过以下方式创建专项训练数据:
- 从Common Crawl提取区域语言内容
- 建立合成数据管道生成不同字体/背景的文本
- 应用低秩自适应微调技术
最终模型在处理印尼文档时表现突出,同时持续开发泰语和越南语识别功能。
性能突破
定制解决方案展现多项优势:
- 准确率超越通用OCR工具
- 在区域语言能力上优于商业LLM
- 通过针对性训练保持轻量高效
- 实现可靠的合规文件处理 "高质量数据的战略运用证明,小型专业模型可以兼顾效果与效率",Grab表示。 随着运营复杂度增加,公司计划进一步开发模型以扩展文档处理能力。 ### 核心要点: 📊 商业模型在东南亚文字上表现不佳促使Grab开发定制方案 🔍 视觉LLM突破提升身份证件/执照处理准确率 🚀 持续开发计划中以支持更多文档类型和语言



