跳转到主要内容

Moonshot推出Kimi-Researcher,专为深度研究任务设计

Moonshot推出Kimi-Researcher,专为深度研究任务设计

Moonshot Dark Side正式发布了其首款AI驱动的深度研究代理Kimi-Researcher,目前正在进行限量内部测试。这一新模型利用端到端自主强化学习(agentic RL)技术,为用户提供高效、深入的研究能力。

先进的自主研究能力

在处理复杂查询时,Kimi-Researcher展现出卓越的自主性:

  • 平均每项任务执行23步推理
  • 每次查询规划74个搜索关键词
  • 评估206个URL,仅保留质量最高的前3.2%内容 Image

该系统超越了简单的信息检索功能:

  • 自动调用浏览器和代码解释器等工具
  • 将原始数据处理为可操作的见解
  • 生成包含可追溯来源的全面报告

基准测试表现与实际应用

为验证其能力,开发者对Kimi-Researcher进行了严格的Humanity's Last Exam (HLE)基准测试,涵盖数百个专业领域包括:

  • 数学与物理学
  • 医学研究
  • 政治学与历史学 该模型取得了令人印象深刻的成绩:26.9% Pass@140.17% Pass@4准确率,超越多个成熟AI系统。

在实际场景中,Kimi-Researcher已证明对以下领域具有重要价值:

  • 寻求高价值基准的算法工程师
  • 研究行业趋势的商业分析师
  • 比较国际数据隐私法的法律专业人士 该系统可生成10,000+字的报告并附带约26个高质量参考文献,同时提供可共享的交互式可视化内容。

技术创新与可用性

该模型的独特架构特点包括:

  • 零结构设计:无需复杂提示或预设工作流程
  • 自适应能力:完全通过试错强化学习进行学习 这种方法使其在处理冲突信息或适应环境变化时表现出色。

目前该服务处于限量测试阶段。感兴趣的用户可在kimi.com申请访问权限,审核通过后可激活"深度研究"功能。

关键点:

  1. Moonshot Dark Side发布AI研究代理Kimi-Researcher进入测试阶段
  2. 系统自主规划搜索、筛选内容并生成详细报告
  3. 在极具挑战性的Humanity's Last Exam基准测试中取得顶级表现
  4. 目前可通过kimi.com的限量访问计划获取

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

DeepSeek发现更智能的AI未必需要更大的模型

DeepSeek最新研究揭示了人工智能发展的重大突破——优化神经网络架构比单纯扩大模型规模更能有效提升推理能力。他们创新的'流形约束超连接'方法在仅增加极小训练成本的情况下,将复杂推理准确率提高了7%以上,挑战了业界对不断增大模型的执着追求。

January 4, 2026
AI研究机器学习神经网络
StepStellar全新AI研究模型以十分之一成本实现顶尖性能
News

StepStellar全新AI研究模型以十分之一成本实现顶尖性能

StepStellar发布了突破性的AI模型Step-DeepResearch,其性能可媲美高端商业产品,而成本仅为后者的10%。这款拥有320亿参数的开源解决方案通过创新的'原子能力'方法,在自主研究和报告生成方面表现出色。早期测试显示,尽管架构更为精简,但其表现已超越许多竞争对手。

December 29, 2025
AI研究高性价比技术开源AI
微型AI模型实力惊人,性能超越巨头
News

微型AI模型实力惊人,性能超越巨头

Liquid AI推出的新型实验模型LFM2-2.6B-Exp正引发科技界瞩目。这个仅有26亿参数的开源强者,在关键基准测试中超越了规模数百倍的模型。专为边缘设备设计,它在保持闪电速度与低内存占用的同时,为智能手机带来了博士级推理能力。这会是普惠AI的未来吗?

December 26, 2025
AI创新边缘计算强化学习
Claude Opus4.5打破AI耐力记录
News

Claude Opus4.5打破AI耐力记录

Anthropic的旗舰AI模型Claude Opus4.5在长时任务处理方面树立了新标杆,能在复杂挑战中保持近5小时的有效运行。虽然这一成就标志着AI处理长期项目的进步,但专家对测试方法的局限性提出了警告。

December 22, 2025
AI研究机器学习人工智能
AI的科学突破:FrontierScience如何测试新一代研究助手
News

AI的科学突破:FrontierScience如何测试新一代研究助手

人工智能正在科学研究领域掀起波澜,但我们如何衡量其真正的推理能力?新的FrontierScience基准测试对AI模型在物理、化学和生物学领域进行了严格测试。早期结果显示GPT-5.2处于领先地位,不过在开放式问题解决方面,人类科学家仍更胜一筹。这一进展可能重塑全球实验室的研究方式。

December 17, 2025
AI研究科学计算机器学习基准
AI2的Molmo 2将开源视频智能技术带到您指尖
News

AI2的Molmo 2将开源视频智能技术带到您指尖

艾伦人工智能研究所刚刚发布了革命性的开源视频语言模型Molmo 2,为开发者直接提供了强大的视觉理解工具。该模型参数规模从40亿到80亿不等,这些轻量级但功能强大的模型能够分析视频、追踪物体,甚至解释屏幕上的内容。此次发布的特别之处在于完全透明——您可以完整获取模型及其训练数据,这在当今专有AI领域实属罕见。

December 17, 2025
AI研究计算机视觉开源AI