跳转到主要内容

粤语迈向数字化:AI平台守护文化瑰宝

粤语文化的数字盛宴

在本周举行的第十届语言服务高级论坛上,研究人员呈现了一项特别成果:AI-DimSum多模态粤语语料库平台。广州大学的这一雄心勃勃的项目旨在数字时代保护和推广中国最具活力的方言之一。

Image

不仅仅是语言数据库

项目负责人戚佳音教授解释了其重要性:“粤语在广东及周边地区的家庭和餐馆中生机勃勃,但在数字空间中却逐渐式微。我们的平台改变了这一现状。”

团队构建了他们所谓的粤语数字化“全套餐”:

  • 文本主菜:包括新闻文章和文学作品在内的超过100万字
  • 音频点心:3000小时经过精心标注的语音录音
  • 视觉盛宴:1TB视频内容,包含《功夫熊猫》等经典作品的粤语配音版
  • 质量控制:20万道评估问题,确保AI模型理解文化细微差别

当下的重要意义

随着AI越来越依赖语言,像粤语这样的方言有被边缘化的风险。该平台的模块化设计使研究人员能够:

  • 为粤语使用者训练更准确的语音助手
  • 通过数字化媒体保护文化遗产
  • 开发更好的粤语与其他语言之间的翻译工具

时机恰到好处。随着中国粤港澳大湾区计划的推进,为地区语言提供强大的数字资源对文化保护和技术发展都至关重要。

关键要点:

  • 文化救援行动:平台在数字通信发展中守护粤语
  • AI就绪资源:提供完美适合训练语言模型的结构化数据
  • 超越翻译:帮助保留机器翻译中常丢失的文化语境
  • 开放访问:设计兼顾研究者和商业应用需求

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

粤语迈向数字化:新AI平台守护岭南文化
News

粤语迈向数字化:新AI平台守护岭南文化

广州大学推出革命性平台AI-DimSum,通过数字技术保护粤语及岭南文化。该项目收录超百万字文本数据及数千小时音频记录,为粤港澳大湾区架起传统与现代的桥梁。这套完整系统涵盖从经典电影到日常对话的方方面面,为研究者和学习者提供了接触这一重要汉语方言的前所未有的机会。

December 8, 2025
粤语保护语言技术广州大学
商汤科技NEO以更精简、更快速的人工智能突破多模态壁垒
News

商汤科技NEO以更精简、更快速的人工智能突破多模态壁垒

商汤科技与南洋理工大学S-Lab联合推出突破性多模态AI架构NEO,摒弃传统拼凑式设计。这一创新方法将数据需求削减90%,同时在关键基准测试中超越竞争对手。通过从注意力机制到位置编码的全面革新,NEO在低于80毫秒延迟下实现闪电级边缘设备性能。开源模型或将重新定义紧凑型AI系统的构建方式。

December 3, 2025
AI创新多模态学习边缘计算
DeepEyesV2:这款紧凑型AI如何智胜大型模型
News

DeepEyesV2:这款紧凑型AI如何智胜大型模型

中国研究人员发布了DeepEyesV2——一款以小博大的多模态人工智能。它没有依赖蛮力计算,而是巧妙利用代码执行和网络搜索等外部工具来分析图像和解决问题。当大型模型在复杂任务上仅取得46%准确率时,这个聪明的小型模型却达到了63.7%,证明在人工智能领域有时智慧确实能胜过蛮力。

November 17, 2025
AI创新多模态学习计算机视觉
News

百度文心一言5.0以原生多模态AI实现新突破

在百度年度大会上,CEO李彦宏发布了文心一言5.0——这款突破性的多模态AI能够同步处理文本、图像和声音,而非顺序处理。与竞争对手'拼接式'方案不同,百度的原生解决方案有望带来更自然的理解能力和创造力。该模型现已通过百度千帆平台开放,为开发者提供从智能客服到工业质检等应用开发的便捷接入。

November 13, 2025
人工智能多模态学习百度
News

百度ERNIE-4.5-VL以革命性AI思维让图像焕发生机

百度发布了突破性的ERNIE-4.5-VL模型,将先进语言处理与创新的'图像思维'能力相结合。这款灵活的AI引擎仅需30亿激活参数即可高效运行,同时提供放大和搜索等复杂图像处理功能。开源发布有望通过更智能的多模态交互改变从电子商务到教育等多个领域。

November 11, 2025
人工智能创新计算机视觉多模态学习
上海研究人员提升AI反思能力
News

上海研究人员提升AI反思能力

上海交通大学与上海人工智能实验室联合开发了突破性框架MM-HELIX,该框架增强了多模态AI模型的反思推理能力。他们的解决方案包含基准测试、训练数据集和优化算法,实现了18.6%的准确率提升。

October 21, 2025
AI研究多模态学习机器推理