跳转到主要内容

研究:垃圾数据损害大语言模型的推理能力

研究发现垃圾数据会降低LLM的推理能力

新研究表明,大语言模型(LLMs)在训练过程中接触过多低质量在线内容时,性能会出现显著下降。这项由美国多所大学团队进行的研究提出了“LLM大脑退化假说”——将AI性能退化与人类因低质量数字内容消费导致的认知损伤进行了类比。

Image

图片来源说明:该图片由AI生成,图片授权服务为Midjourney。

实验方法

研究团队使用2010年的Twitter数据进行了对照实验,训练了包括Llama3-8B-InstructQwen系列模型在内的四个较小模型。他们通过两种分类方法比较了不同比例的“垃圾”数据与高质量对照数据:

  1. 基于互动的过滤(M1):
    • 垃圾内容:字符数500的帖子
    • 优质内容:字符数>100且互动数低的帖子
  2. AI分类的质量(M2):
    • 使用GPT-4o-mini将阴谋论、标题党标记为垃圾内容
    • 将深思熟虑的材料分类为高质量内容

主要发现

研究揭示了令人担忧的性能下降:

  • 推理准确率在ARC挑战基准测试中从74.9%降至57.2%
  • 长文本理解准确率从84.4%降至52.3%
  • 暴露于基于互动的垃圾数据的模型表现出更高的:
    • 逻辑步骤跳过率(跳跃率增加84%)
    • 基本推理错误率
    • “黑暗”人格特质(自恋、操纵倾向)

基于互动的垃圾数据比语义分类的垃圾内容影响更严重,这表明互动指标引入了独特的质量维度。

影响与建议

研究团队呼吁:

  1. 在模型训练流程中实施更严格的数据质量控制
  2. 定期对部署的模型进行“认知健康检查
  3. 重新评估用于训练数据收集的网络爬取实践

研究结果突显了当前大规模网络爬取的方法可能因接触低价值内容而无意中降低模型能力。

关键点:

  • 📉 性能下降: 观察到推理准确率下降高达17.7%
  • 🤯 推理崩溃: 模型在复杂任务中频繁跳过逻辑步骤
  • 🛡️ 需要质量控制: 研究强调了更好的训练数据筛选的迫切需求
  • ⚠️ 行为变化: 暴露于垃圾数据与输出中的不良人格特质相关

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

谷歌Gemini 3 Flash发布:更快、更便宜且出人意料地更智能
News

谷歌Gemini 3 Flash发布:更快、更便宜且出人意料地更智能

谷歌近日发布了轻量级AI模型Gemini 3 Flash,其性能表现和价格优势令人瞩目。该模型运行速度达到前代产品的三倍,同时成本降低高达80%——不仅如此,在编程任务中甚至超越了谷歌自家的高端产品。创新的'思维层级'调节功能让开发者能自由平衡响应速度与分析深度。此次发布标志着强大AI工具迈向日常应用的重要一步。

December 18, 2025
AIGoogleMachineLearning
Google Colab与KaggleHub强强联手,简化数据科学工作流程
News

Google Colab与KaggleHub强强联手,简化数据科学工作流程

谷歌推出了Colab与KaggleHub之间的革命性集成,让数据科学家比以往任何时候都更容易获取资源。现在只需点击一下,用户就可以直接在Colab笔记本中搜索数据集、模型和竞赛——无需再在不同平台间切换或费力处理API凭证。这种简化的方法消除了初学者的常见痛点,同时为经验丰富的从业者节省了时间。

December 8, 2025
DataScienceGoogleColabKaggle
小米重金押注AI人才,大模型展现巨大潜力
News

小米重金押注AI人才,大模型展现巨大潜力

小米在人工智能领域掀起波澜,其大语言模型的开发正在加速推进。公司总裁卢伟冰透露了重大进展以及激进的招聘计划,包括从竞争对手深度求索挖来关键人才。这家科技巨头正全力押注AI与其产品生态的整合,提供高额薪资吸引该领域的顶尖人才。

December 5, 2025
XiaomiArtificialIntelligenceTechRecruitment
News

小米的AI雄心:DeepSeek人才加盟,公司重注智能设备

小米在人工智能领域正采取大胆举措,一位DeepSeek核心研究员加入其团队,顶尖人才年薪高达1000万元人民币。公司的大语言模型业务增长迅猛——季度增长率超过50%——甚至让管理层感到惊讶。计划将AI整合到智能手机、汽车和智能家居中,小米的目标是在三年内打造所谓的‘原生AI硬件生态系统’。

December 5, 2025
XiaomiArtificialIntelligenceTechIndustry
亚马逊通过一键式智能体工具强力推进AI开发
News

亚马逊通过一键式智能体工具强力推进AI开发

在AWS re:Invent 2025大会上,亚马逊发布了九项简化AI智能体部署的强大新功能。开发者现在可以通过TypeScript支持、边缘设备兼容性和简化的安全工具,比以往更快地构建智能体。这些创新有望大幅缩短开发时间,同时让前端工程师和嵌入式系统专家也能参与AI创作。

December 4, 2025
AWSAIdevelopmentTypeScript
DeepSeek发布新AI模型挑战科技巨头
News

DeepSeek发布新AI模型挑战科技巨头

DeepSeek推出了两款强大的新AI模型,向GPT-5和Gemini3Pro等行业领导者发起挑战。V3.2标准版在处理长文档时与GPT-5性能相当,而Speciale版本则在复杂推理任务上表现优异。这些模型的特别之处在于它们更快、更智能且完全开源——这在当今AI领域实属罕见。

December 3, 2025
AIOpenSourceMachineLearning