跳转到主要内容

Tilde AI发布面向欧洲语言的开源大语言模型

Tilde AI发布开源语言模型 促进欧洲语言多样性

拉脱维亚语言技术公司Tilde正式推出TildeOpen LLM——一个专门为欧洲语言设计的开源基础大语言模型,尤其关注使用人数较少的地区性语言。该项目于2025年9月3日发布,标志着欧盟在推动语言公平性数字主权方面取得重大进展。

Image

技术规格与训练过程

这款采用密集解码器架构的30亿参数模型基于宽松的CC-BY-4.0许可协议,支持从拉脱维亚语、立陶宛语到乌克兰语、土耳其语等多种语言。训练工作在欧洲超级计算机LUMI(芬兰)JUPITER上完成,总计消耗了欧盟委员会"大型AI挑战赛"提供的200万GPU小时计算资源。

技术实现采用了受EleutherAI启发的GPT-NeoX脚本,具体包含:

  • 45万次参数更新
  • 约20万亿已处理词元
  • 三阶段采样方法:
    1. 跨语言的均匀分布采样
    2. 对高资源语言的天然分布增强
    3. 最终均匀扫描确保平衡性

关键架构特性包括:

  • 60个网络层与6144维嵌入空间
  • 48个注意力头
  • 8192词元的上下文窗口
  • SwiGLU激活函数
  • RoPE位置编码
  • RMSNorm层归一化

解决语言公平性挑战

传统大语言模型在处理波罗的海语系、斯拉夫语系等欧洲小语种时往往表现不佳,容易出现语法错误和不自然的表达。TildeOpen创新性地引入了"公平分词器",能够:

  • 在词元空间中对所有语言进行均衡表征
  • 通过减少词元数量提升效率
  • 显著改善小语种的推理性能

    该模型还允许组织在本地数据中心或符合欧盟标准的安全云环境中自主部署,既满足《通用数据保护条例》(GDPR)等数据保护法规要求,也解决了外国托管平台涉及的主权顾虑。

    未来发展路线图

    作为基础模型,TildeOpen将衍生出多个专用版本包括:

  • 经过指令微调的变体
  • 增强型翻译模型

    该项目使拉脱维亚成为全球AI发展领域的新兴力量,同时有力推动了语言学多样性的保护工作。

    核心亮点

    🌍 多语言支持: 专注服务欧洲小众语言的独特需求 💻 欧盟本土训练: 依托欧洲超级计算机与先进采样技术 🔒 主权合规: 为组织机构提供符合GDPR的部署方案

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

印度Alpie AI模型引发热议——但它真的源自本土吗?
News

印度Alpie AI模型引发热议——但它真的源自本土吗?

印度新晋AI竞争者Alpie凭借在数学和编程测试中媲美GPT-4o和Claude3.5等巨头的表现引发关注。然而技术分析显示其实际基于中国开源模型构建,引发了关于创新与优化的讨论。Alpie的特殊之处在于能在消费级硬件上高效运行,有望为中小开发者降低AI使用门槛。

January 15, 2026
AI机器学习印度科技
阿里巴巴的通义千问以破纪录下载量主导AI领域
News

阿里巴巴的通义千问以破纪录下载量主导AI领域

阿里巴巴的通义千问大语言模型在全球应用率上遥遥领先,累计下载量突破7亿次——超过Meta、OpenAI等主要竞争对手的总和。其全面的开源策略和多场景应用能力将中国人工智能发展推向了国际新高度。

January 9, 2026
人工智能开源科技创新
Meta的Spatial Lingo将你的客厅变成语言教室
News

Meta的Spatial Lingo将你的客厅变成语言教室

Meta发布了创新的开源Unity应用Spatial Lingo,它能将日常物品转化为语言学习工具。这款应用通过混合现实技术,引导用户利用周围环境中的物品进行词汇练习。开发者可以通过实际案例探索Meta的SDK,同时创造引人入胜的教育体验。该项目展示了AR如何让语言学习更具沉浸感和情境相关性。

January 8, 2026
增强现实语言学习Meta
反重力工具:突破AI使用限制的秘密武器
News

反重力工具:突破AI使用限制的秘密武器

厌倦了AI使用限制?反重力工具横空出世,让用户能在Gemini和Claude等模型间无缝切换多个账户。这款开源桌面应用实时监控配额、智能路由请求,并在需要时自动切换账户——所有操作都在本地完成。开发者称其为绕过烦人API限制的必备工具。

January 4, 2026
AI工具开发者工具Gemini
阿里巴巴新AI能听懂你的语气——或许还能感知你的情绪
News

阿里巴巴新AI能听懂你的语气——或许还能感知你的情绪

阿里巴巴通义实验室推出开源语音AI模型Fun-Audio-Chat-8B,展现出惊人的情感智能。不同于仅处理文字的普通聊天机器人,该模型能捕捉细微的声音线索——从你的语音中识别快乐、疲惫或沮丧情绪。它在实现接近人类响应速度的同时,仅需同类系统一半的计算资源。开发者现可免费获取该技术,或将加速语音助手、客服机器人和情感支持应用的创新进程。

December 24, 2025
语音AI情感AI开源
MiniMax开源突破:编程模型性能超越科技巨头
News

MiniMax开源突破:编程模型性能超越科技巨头

中国AI公司MiniMax震撼科技界,开源其M2.1模型——这款专精编程的模型在编码任务上表现优于谷歌Gemini和Anthropic的Claude。凭借仅激活100亿参数的高效稀疏架构,开发者如今无需承担高昂计算成本即可获得尖端性能。此次发布标志着开源模型有望在专业领域引领闭源替代方案的重大转折。

December 24, 2025
AI开发开源编程工具