跳转到主要内容

Grok4.20 Beta以创纪录的低幻觉率首发登场

xAI的Grok4.20 Beta:迄今为止最诚实的AI?

在AI"幻觉"已成为行业公开秘密的背景下,xAI的最新发布可能将改变游戏规则。2026年3月12日推出的Grok4.20 Beta拥有78%的非幻觉率——目前主流语言模型中事实可靠性的最高记录。

Image

极具说服力的性能表现

Artificial Analysis的独立测试揭示了以下发现:

  • 推理能力获得48分(较前版提升6分)
  • 基准测试仍落后于Gemini3.1Pro PreviewGPT-5.4(均为57分)
  • 在AA全知测试中以前所未有的真实性表现突出

这意味着什么?当Grok4.20不知道答案时,它更倾向于承认无知而非编造回答——这与那些有时自信满满却完全错误的模型形成鲜明对比。

三种接入方式

新模型提供多种版本:

  1. 支持推理的API
  2. 标准API(无推理功能)
  3. 多智能体模式

技术规格令人印象深刻:

  • 支持高达200万token的上下文窗口
  • 定价仅为每百万token 2美元起
  • 错误率较前代降低约20%

Image

准确性的军备竞赛

行业观察家指出AI领域正在发生剧变:

"我们清楚地看到行业焦点正从纯性能指标转向可信度,"AI分析师Mark Cheney指出,"在几起备受关注的幻觉事件削弱公众信任后,准确性已成为新战场。"

xAI似乎为这个强调严谨的新时代做好了准备:

  • 优先确保信息可靠性
  • 在保持先进功能的同时提供有竞争力的价格
  • 对不确定的回答提供明确标识

该公司致力于打造他们所称的"诚实AGI"——真正值得信赖的人工通用智能。

关键要点:

  • 🏆 Grok4.20以78%非幻觉率树立新标准
  • 💰 每百万token仅2-6美元的高性价比定价
  • 🧠 推理能力提升(+6分)但仍落后顶尖竞争对手
  • 🤖 提供三种API配置包括多智能体模式

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

快手AI人才争夺战升级:春季招聘大模型专家需求激增三倍

快手2026春季招聘以出人意料的方式拉开帷幕——大模型人才需求较往年增长三倍。这家中国科技巨头为吸引顶尖AI毕业生提供快速晋升通道和丰厚待遇,彰显了这些技能在当前竞争格局中的关键地位。从基础设施到应用层覆盖200多个岗位的招聘热潮,揭示了快手将AI深度融入视频生态的雄心。

March 13, 2026
AI招聘大语言模型科技职业
News

谷歌AI将新闻报道转化为脆弱地区的洪水预警

谷歌通过其Gemini AI分析数百万篇新闻文章,开发出一套创新的洪水预测系统。该技术将定性报告转化为定量数据,为缺乏传统天气监测的地区创建早期预警。目前已部署150个国家,这一方案标志着语言模型在灾害预防领域的突破性应用,同时解决了全球天气预报能力不平等的问题。

March 13, 2026
AI创新灾害预防气候科技
News

NVIDIA Nemotron 3 Super以开源实力撼动AI领域,媲美顶级模型

NVIDIA发布了开创性的开源AI模型Nemotron 3 Super,其性能几乎比肩GPT-5.4等闭源高端产品,引发业界瞩目。这个拥有1200亿参数的强大模型融合创新架构与实用效率,在保持惊人准确度的同时实现三倍推理速度。该模型已被多家科技巨头采用,或将 democratize 高性能AI工具的获取门槛。

March 12, 2026
AI开发开源技术NVIDIA
腾讯WorldCompass助力AI模型驾驭复杂指令
News

腾讯WorldCompass助力AI模型驾驭复杂指令

腾讯开源了强化学习框架WorldCompass,显著提升AI世界模型理解和执行复杂指令的能力。这一突破解决了长期存在的准确性问题,在挑战性场景中性能提升超过35%。该技术标志着从纯预训练转向精细化微调方法的转变。

March 11, 2026
AI开发腾讯机器学习
谢赛宁团队发布Solaris:多用户视频AI领域的重大突破
News

谢赛宁团队发布Solaris:多用户视频AI领域的重大突破

谢赛宁研究团队推出了全球首个多用户视频世界模型Solaris,该模型由昆仑万智的Matrix-Game2.0提供支持。这项创新技术提升了玩家在《我的世界》等环境中的互动体验,表现优于以往解决方案。此次发布恰逢谢赛宁的AI公司AMI获得重大融资里程碑,凸显了世界模型在推动通用人工智能发展中的日益重要性。

March 11, 2026
人工智能机器学习虚拟世界
News

AI先驱Yann LeCun为其下一重大赌注筹集10亿美元

图灵奖得主、AI研究员Yann LeCun已为其新创企业Advanced Machine Intelligence筹集超过10亿美元资金。这家初创公司旨在通过开发真正具备推理和理解物理世界能力的系统,超越当前的语言模型。在主要投资者的支持下,LeCun的公司可能重塑从机器人到医疗保健等多个行业。

March 10, 2026
人工智能科技初创企业机器学习