腾讯发布企业级AI文本表征模型Youtu-Embedding
腾讯开源Youtu-Embedding文本表征模型
腾讯优图实验室正式发布开源文本表征模型Youtu-Embedding,致力于革新企业级智能客服与知识管理系统。该模型专门解决大语言模型在专业领域生成误导性回复的行业痛点。

破解垂直领域难题
新模型直击企业AI应用的核心挑战:通用模型虽在广泛语料上表现良好,但在法律、医疗等专业领域效果显著下降。腾讯通过使用3万亿token中英文语料从头训练,并辅以大量人工标注数据来确保商业场景适用性。
先进训练方法论
为增强用户意图理解能力,腾讯采用了大规模弱监督训练的创新方案。该方法使模型能识别语义相同但表述不同的查询,例如可自动关联"保修期多久"与"是否提供免费维修"同属保修政策范畴。
研发团队还首创了多任务微调框架,其特性包括:
- 统一数据格式
- 差异化损失函数
- 动态采样机制 该架构在提升文本相似度、检索和分类任务表现的同时,保持各维度均衡发展。
基准测试与应用场景
Youtu-Embedding取得突破性成果,在中文语义评测基准(CMTEB)获得77.46分,位列中文语义模型第一梯队。典型应用场景包括:
- 智能问答系统
- 内容推荐引擎
- 知识管理平台
- 检索增强生成(RAG)系统
该模型在需要精准语义理解且避免通用大模型幻觉反应的场景中展现特殊优势。
腾讯的开源承诺
此次发布延续了腾讯优图实验室赋能AI社区的传统。除Youtu-Embedding外,实验室还同步开源了Youtu-Agent和Youtu-GraphRAG等项目,为开发者提供先进的AI实施工具链。
项目已登陆GitHub:TencentCloudADP/youtu-embedding
核心亮点:
✅ 垂直优化: 专为解决通用模型在企业场景的失效问题而设计
🧠 高阶训练: 融合海量语料与弱监督技术的意图识别方案
🏆 基准领跑: CMTEB中文语义评测77.46高分
🛠️ 多任务适配: 统一框架高效处理多样化NLP任务

