昆仑万维开源Skywork-Reward-V2奖励模型

AI D-A-M-N

, 欢迎来到AI-D-A-M-N！发现最震撼的最新AI新闻、最酷的AI产品和最前沿的AI项目。从ChatGPT到最新模型，我们精选让你惊呼'太牛了！'的AI发展动态。涵盖机器学习、深度学习等前沿技术，每日更新最精彩的人工智能世界。

语言

AI D-A-M-N/昆仑万维开源Skywork-Reward-V2奖励模型

昆仑万维开源Skywork-Reward-V2奖励模型

昆仑万维开源Skywork-Reward-V2奖励模型

2025年7月4日，昆仑万维正式开源第二代奖励模型——Skywork-Reward-V2，标志着开源AI工具的重大进步。该系列包含8个参数规模从6亿到80亿不等的模型，在七大主流评估基准中均取得顶尖排名。

高质量数据集与训练流程

Skywork-Reward-V2的开发基于混合数据集Skywork-SynPref-40M，其中包含4000万对偏好对比数据。团队采用两阶段人机协作流程：

初始阶段：通过大语言模型(LLM)构建未验证偏好池辅助标注属性，再经人工严格审核形成高质量"黄金标准"数据集
扩展阶段：自动化生成大规模数据，利用训练好的奖励模型进行一致性过滤以平衡规模与质量

性能表现与核心能力

Skywork-Reward-V2系列在以下维度表现卓越：

与人类偏好的普适对齐性
客观正确性
安全性与抗偏见能力
Best-of-N扩展性

最小模型(Skywork-Reward-V2-Qwen3-0.6B)即可达到上一代最强模型的平均水准，而最大模型(Skywork-Reward-V2-Llama-3.1-8B)则超越所有主流基准。

关键创新点

可扩展性：数据筛选流程提升模型表现，迭代训练显示显著改进效果
高效性：早期实验表明，仅用1.8%高质量数据训练的8B模型性能已超越700B参数的SOTA模型
多功能性：覆盖知识密集型任务和复杂指令理解等多重维度

获取方式

模型可通过以下平台获取：

核心亮点

顶尖性能：在七大基准测试中实现SOTA指标
混合数据集：融合人类专家知识与LLM的扩展能力
广泛适用性：涵盖安全性、抗偏见和正确性等多重领域