粤语迈向数字化:AI平台守护文化瑰宝
粤语文化的数字盛宴
在本周举行的第十届语言服务高级论坛上,研究人员呈现了一项特别成果:AI-DimSum多模态粤语语料库平台。广州大学的这一雄心勃勃的项目旨在数字时代保护和推广中国最具活力的方言之一。

不仅仅是语言数据库
项目负责人戚佳音教授解释了其重要性:“粤语在广东及周边地区的家庭和餐馆中生机勃勃,但在数字空间中却逐渐式微。我们的平台改变了这一现状。”
团队构建了他们所谓的粤语数字化“全套餐”:
- 文本主菜:包括新闻文章和文学作品在内的超过100万字
- 音频点心:3000小时经过精心标注的语音录音
- 视觉盛宴:1TB视频内容,包含《功夫熊猫》等经典作品的粤语配音版
- 质量控制:20万道评估问题,确保AI模型理解文化细微差别
当下的重要意义
随着AI越来越依赖语言,像粤语这样的方言有被边缘化的风险。该平台的模块化设计使研究人员能够:
- 为粤语使用者训练更准确的语音助手
- 通过数字化媒体保护文化遗产
- 开发更好的粤语与其他语言之间的翻译工具
时机恰到好处。随着中国粤港澳大湾区计划的推进,为地区语言提供强大的数字资源对文化保护和技术发展都至关重要。
关键要点:
- 文化救援行动:平台在数字通信发展中守护粤语
- AI就绪资源:提供完美适合训练语言模型的结构化数据
- 超越翻译:帮助保留机器翻译中常丢失的文化语境
- 开放访问:设计兼顾研究者和商业应用需求



