跳转到主要内容

Grok4.20 Beta版以创纪录的低幻觉率首次亮相

xAI通过Grok4.20 Beta版发布提高标准

2026年3月12日,埃隆·马斯克的xAI发布了Grok4.20 Beta版,此举可能重塑人们对AI可靠性的期望。新模型拥有行业领先的事实准确性,同时保持极具竞争力的价格优势。

基准测试突破

最突出的特点是什么?78%的非幻觉率——意味着该模型捏造信息的频率远低于同类产品。Artificial Analysis的独立评估人员给Grok4.20的推理能力打了48分的智能指数,比前代产品提高了6分

Image

虽然在综合测试中仍落后于谷歌的Gemini3.1Pro Preview和OpenAI的GPT-5.4(两者均为57分),但Grok4.20在AA全能测试等专项评估中展现出特别的优势。

实际改进

xAI推出了三种API版本以满足不同需求:

  • 标准推理能力模型
  • 轻量级非推理选项
  • 高级多代理配置

这些模型支持高达200万token的上下文窗口,价格从每百万token 2美元到6美元不等——比之前的版本实惠得多。

Image

对于厌倦了AI过度自信的用户来说,最令人耳目一新的是Grok4.20在不确定时表现出异常的克制——说"我不知道"的频率是早期模型的五倍。

竞争格局的变化

此次发布凸显了AI军备竞赛如何从纯粹的参数数量转向平衡能力与可靠性。通过优先考虑准确性而非花哨的功能,xAI似乎在赌企业最看重的是可信的输出结果。

这种对事实完整性的强调可能对以下领域特别有价值:

  • 需要精确数据的金融服务
  • 错误会带来后果的医疗应用
  • 法律和合规用例

该模型以诚实为中心的设计也为更可靠的多代理系统奠定了基础——随着AI协作变得越来越普遍,这一点至关重要。

关键点:

  • 78%的非幻觉率树立了新的行业标准
  • 48分的推理得分显示提高了6分
  • 三种API版本满足不同需求和预算
  • 竞争性定价起价为每百万token 2美元
  • 更愿意承认不确定性标志着行为转变

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

OpenClaw颠覆性更新:支持GPT-5.4并带来更智能的AI代理
News

OpenClaw颠覆性更新:支持GPT-5.4并带来更智能的AI代理

开源AI项目OpenClaw刚刚发布了其迄今为止最大的更新,带来了原生GPT-5.4支持,性能超越Claude Code等竞争对手。2026.3.7版本引入了革命性的'内存热交换'技术,解决了智能代理中长期存在的碎片化问题。从编码到股票分析,此次更新将OpenClaw从开发者的玩具转变为真正永不停止工作的虚拟员工。

March 9, 2026
AI开发OpenClawGPT-5
News

谷歌AI将新闻报道转化为脆弱地区的洪水预警

谷歌通过其Gemini AI分析数百万篇新闻文章,开发出一套创新的洪水预测系统。该技术将定性报告转化为定量数据,为缺乏传统天气监测的地区创建早期预警。目前已部署150个国家,这一方案标志着语言模型在灾害预防领域的突破性应用,同时解决了全球天气预报能力不平等的问题。

March 13, 2026
AI创新灾害预防气候科技
News

NVIDIA Nemotron 3 Super以开源实力撼动AI领域,媲美顶级模型

NVIDIA发布了开创性的开源AI模型Nemotron 3 Super,其性能几乎比肩GPT-5.4等闭源高端产品,引发业界瞩目。这个拥有1200亿参数的强大模型融合创新架构与实用效率,在保持惊人准确度的同时实现三倍推理速度。该模型已被多家科技巨头采用,或将 democratize 高性能AI工具的获取门槛。

March 12, 2026
AI开发开源技术NVIDIA
腾讯WorldCompass助力AI模型驾驭复杂指令
News

腾讯WorldCompass助力AI模型驾驭复杂指令

腾讯开源了强化学习框架WorldCompass,显著提升AI世界模型理解和执行复杂指令的能力。这一突破解决了长期存在的准确性问题,在挑战性场景中性能提升超过35%。该技术标志着从纯预训练转向精细化微调方法的转变。

March 11, 2026
AI开发腾讯机器学习
谢赛宁团队发布Solaris:多用户视频AI领域的重大突破
News

谢赛宁团队发布Solaris:多用户视频AI领域的重大突破

谢赛宁研究团队推出了全球首个多用户视频世界模型Solaris,该模型由昆仑万智的Matrix-Game2.0提供支持。这项创新技术提升了玩家在《我的世界》等环境中的互动体验,表现优于以往解决方案。此次发布恰逢谢赛宁的AI公司AMI获得重大融资里程碑,凸显了世界模型在推动通用人工智能发展中的日益重要性。

March 11, 2026
人工智能机器学习虚拟世界
News

AI先驱Yann LeCun为其下一重大赌注筹集10亿美元

图灵奖得主、AI研究员Yann LeCun已为其新创企业Advanced Machine Intelligence筹集超过10亿美元资金。这家初创公司旨在通过开发真正具备推理和理解物理世界能力的系统,超越当前的语言模型。在主要投资者的支持下,LeCun的公司可能重塑从机器人到医疗保健等多个行业。

March 10, 2026
人工智能科技初创企业机器学习