跳转到主要内容

上海研究人员提升AI反思能力

上海团队推进AI推理能力

来自上海交通大学上海人工智能实验室的研究人员在增强多模态大模型(MLLMs)的反思能力方面取得重大进展。他们创新的MM-HELIX项目解决了当前AI系统的关键局限——面对复杂挑战时无法有效回溯和重新考虑方法的能力。

AI中的反思挑战

虽然MLLMs在解决复杂问题方面展现出令人印象深刻的能力,但在推理过程中常常表现出"僵化"行为。与人类遇到障碍后能反思方法不同,当前模型缺乏这种元认知能力。这一局限在处理需要多次尝试解决方案或适应性策略的任务时尤为明显。

Image

构建MM-HELIX:全面解决方案

研究团队采取了三管齐下的方法:

  1. 终极考试基准:开发用于评估跨越算法、图论、谜题和策略游戏等42项高度复杂任务的反思推理能力。
  2. MM-HELIX-100K数据集:包含10万个高质量样本,通过"逐步启发式响应生成"(SERG)教授模型进行反思。
  3. 自适应混合策略优化(AHPO):一种智能辅导算法,逐步引导模型从专家指导过渡到独立探索。

基准测试显示,即使是尖端模型在反思任务上也表现不佳,特别是在多模态输入条件下。

Image

可衡量的改进

实施结果令人鼓舞:

  • SERG过程显著减少了问题解决时间,同时最小化了冗余思考
  • 配备MM-HELIX的模型展现出更强的泛化能力
  • Qwen2.5-VL-7B模型在基准测试中实现了18.6%的准确率提升

关键要点:

  • 当前MLLMs缺乏针对复杂推理任务的有效反思能力
  • MM-HELIX提供了评估(基准)、训练(数据集)和优化(算法)工具
  • 该系统模拟了人类从引导式到独立问题解决的学习进程
  • 已证实的性能改进验证了该方法的有效性

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

AI领军人物彭天宇执掌腾讯混元多模态研究

AI研究新星彭天宇,这位与清华大学渊源深厚的学者,已加入腾讯混元部门担任首席研究科学家。这位机器学习专家将引领多模态强化学习的创新,融合视觉与语言AI能力。拥有包括顶级会议奖项和论文发表在内的卓越履历,彭的加入彰显了腾讯在生成式AI技术前沿突破的决心。

January 30, 2026
AI研究腾讯混元多模态学习
News

谷歌Gemini 3将AI推理能力推向科学新高度

谷歌发布Gemini 3 Deep Think,标志着AI能力在日常对话之外的重大飞跃。这款专业模型以奥林匹克竞赛级别的推理能力解决复杂科学问题,在数学和编程挑战中表现惊人。现已面向精选研究人员和Google AI Ultra订阅用户开放,有望从基准测试冠军转型为真正的实验室伙伴。

February 13, 2026
AI研究机器学习科学计算
News

苹果的制胜秘诀:为何调优后的开源模型在UI设计上超越GPT-5

苹果研究团队在AI辅助UI开发领域取得惊人突破。通过与21位设计专家合作,通过草图与代码修改提供针对性反馈,他们证明了在AI训练中质量胜过数量。经过微调的Qwen3-Coder模型虽规模较小,却在生成应用界面时超越了GPT-5——这印证了在人工智能时代,专业的人类洞察力依然不可替代。

February 6, 2026
AI研究UI开发机器学习
News

阿里巴巴Qwen3-Max-Thinking在AI推理竞赛中挑战GPT-5.2

阿里巴巴发布了其Qwen3-Max-Thinking模型,标志着中国对西方AI主导地位的最新挑战。这款旗舰级推理系统拥有自适应工具调用和测试时扩展技术,在19项基准测试中展现出与GPT-5.2相媲美的性能。此次发布为阿里巴巴Qwen系列短短四个月的快速演进画上句点,预示着高级AI推理能力领域的竞争日益激烈。

January 27, 2026
AI竞赛机器推理阿里巴巴技术
NeurIPS会议因虚假引用丑闻陷入信任危机
News

NeurIPS会议因虚假引用丑闻陷入信任危机

人工智能领域最负盛名的会议之一曝出惊人发现,大规模引用欺诈行为被揭露。GPTZero调查发现51篇NeurIPS论文中存在100多个伪造参考文献,包括虚构作者和无效DOI。这一丑闻凸显了学术出版日益增长的压力——自2020年以来会议投稿量翻倍增长,使同行评审系统不堪重负。

January 23, 2026
学术诚信AI研究同行评审
News

AI以全新方法破解著名数学难题

OpenAI最新模型通过解决一个长期存在的数论问题在数学界引起轰动。这个对埃尔德什问题的解决方案引起了菲尔兹奖得主陶哲轩的注意,他称赞其独创性。但成功背后隐藏着一个发人深省的现实——AI解决此类问题的总体成功率仍然很低,提醒我们这些工具是助手而非人类数学家的替代品。

January 19, 2026
AI研究数学机器学习