跳转到主要内容

腾讯AI绘画技术突破:图像质量提升300%

腾讯AI绘画技术突破:实现300%质量提升

腾讯开发了突破性的微调技术,显著提升了AI生成图像的质量,在人类评估分数上实现了300%的改进。这些新方法解决了扩散模型长期存在的挑战,同时实现了对输出美学的空前控制。

当前模型面临的挑战

虽然现有扩散模型可以通过奖励机制优化图像,但它们面临两个关键限制:

  1. 奖励作弊:模型生成的图像质量低下但技术上获得高分
  2. 调整不灵活:离线奖励模型无法实现实时优化

Image

腾讯的创新解决方案

研究团队引入了两种新颖方法:

Direct-Align技术

该方法允许模型通过预注入噪声从生成过程中的任何点恢复原始图像。主要优势包括:

  • 减少反向传播期间的梯度爆炸
  • 支持在整个扩散过程中进行优化(不仅限于最终步骤)
  • 提高训练稳定性

语义相对偏好优化(SRPO)

SRPO将奖励信号转化为文本控制参数,从而实现:

  • 通过简单提示修改调整风格(例如添加"明亮"或"黑暗"前缀)
  • 无需额外训练数据
  • 实时自定义输出特性

性能结果

采用SRPO训练的FLUX.1-dev模型展现出显著改进:

  • 真实感优秀率从8.2%提升至38.9%
  • 美学质量优秀率从9.8%上升至40.5%
  • 在保持高视觉吸引力的同时实现了自然纹理

该技术以高效训练达成这些成果——仅使用32块H20 GPU在10分钟内完成收敛

未来影响

这一进步为以下领域带来重大飞跃:

  • 专业数字艺术创作工具
  • 营销和广告内容生成
  • 游戏资产开发流程

研究论文可在此获取:https://arxiv.org/pdf/2509.06942

关键要点:

  • 腾讯新方法使AI图像质量提升300%
  • Direct-Align实现全流程优化
  • SRPO允许基于文本的风格控制而无需额外数据
  • 真实感和美学表现显著提升
  • GPU使用高效且收敛迅速

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

Inception Labs以Mercury2颠覆AI领域——一款像编辑一样思考的扩散模型
News

Inception Labs以Mercury2颠覆AI领域——一款像编辑一样思考的扩散模型

AI初创公司Inception Labs发布了突破性的语言模型Mercury2,该模型摒弃了标准的Transformer架构,转而采用扩散模型。与逐字生成的传统AI不同,Mercury2能同时编辑整段文字——想象一个能重写段落而非逐个字母输入的AI助手。早期测试显示其速度惊人,在保持质量的同时每秒生成超过1000个token。凭借具有竞争力的价格和针对速度敏感应用的专有功能,这可能是AI文本生成新方法的开端。

February 25, 2026
AI创新扩散模型自然语言处理
字节跳动Seedream 5.0 Lite:您的新型AI视觉思维伙伴
News

字节跳动Seedream 5.0 Lite:您的新型AI视觉思维伙伴

字节跳动推出Seedream 5.0 Lite图像生成模型,实现'先思考后绘图'。与以往单纯执行指令的版本不同,该AI现在能理解上下文、进行视觉推理并接入实时数据。想象一个不仅能创建图像,还能与您协作的助手——无论是设计信息图、编辑照片还是可视化复杂概念。该模型对物理法则和专业知识的理解能力,使其特别适合需要精确技术插图的专业人士。

February 13, 2026
AI图像生成视觉推理字节跳动
阿里通义千问Qwen-Image-2.0震撼发布:创作与编辑合二为一,呈现2K超清细节
News

阿里通义千问Qwen-Image-2.0震撼发布:创作与编辑合二为一,呈现2K超清细节

阿里云推出突破性AI模型Qwen-Image-2.0,将图像生成与编辑功能无缝整合。这款轻量级7B架构模型可生成令人惊叹的2K分辨率图像,实现像素级文本渲染与逼真材质表现。从古典书法到现代信息图,它能处理多样化创意任务,并在复杂场景中保持角色一致性。该模型已通过阿里云百炼平台开放测试。

February 10, 2026
AI图像生成阿里云计算机视觉
小红书全新AI工具让你像专业人士一样构图
News

小红书全新AI工具让你像专业人士一样构图

小红书与复旦大学合作推出开源AI工具InstanceAssemble,解决了图像生成中最棘手的挑战之一——精确物体定位。这项被NeurIPS 2025收录的技术,允许用户在生成图像中定义元素的精确位置,同时只需极少的额外参数即可适配现有模型。

December 26, 2025
AI图像生成InstanceAssemble计算机视觉
蚂蚁集团LLaDA2.0:千亿参数突破AI语言模型新高度
News

蚂蚁集团LLaDA2.0:千亿参数突破AI语言模型新高度

蚂蚁集团发布革命性的千亿参数扩散语言模型LLaDA2.0,打破了传统认知中的规模限制。这项创新技术不仅提供更快的处理速度,还在代码生成等复杂任务中表现卓越。通过开源该模型,蚂蚁集团正邀请全球开发者共同探索其潜力,同时拓展扩散模型的性能边界。

December 12, 2025
LLaDA2.0扩散模型AI创新
vLLM-Omni:统一AI多模态的强大框架
News

vLLM-Omni:统一AI多模态的强大框架

vLLM团队发布了突破性框架vLLM-Omni,它能无缝整合文本、图像、音频和视频生成能力。这一创新方案将不同AI模态视为独立微服务,支持跨GPU弹性扩展。早期基准测试显示其性能显著优于传统方案,或将彻底改变开发者构建多模态应用的方式。

December 2, 2025
多模态AIvLLM扩散模型