跳转到主要内容

Jan全新AI模型在长期任务中超越Google Gemini

Jan突破性AI模型树立可靠性新标杆

在这场创造不仅能思考、更能可靠行动的AI竞赛中,开源团队Jan凭借最新发布的产品领先一步。Jan-v2-VL-Max不仅是又一个大型语言模型——它专门设计用于解决人工智能最令人沮丧的局限之一:在执行长期任务时偏离轨道的倾向。

Image

解决"误差雪球"问题

任何使用过AI助手的人都深有体会——流程初期的小错误会逐渐累积成后期的完全失败。当前的多模态代理尤其不擅长处理自动化UI操作或跨应用工作流等长序列任务。Jan团队将这种现象称为"误差累积",即微小偏差演变成重大脱轨。

他们的解决方案?一项名为RLVR(强化长视距视觉语言推理)技术的巧妙改进。基于LoRA架构构建的这一创新在保留Qwen3-VL-30B基础模型能力的同时,显著提升了连贯性。结果如何?一个能准确完成数十个步骤而不迷失方向的AI。

打破基准测试的表现

专业测试证明了这一点。在衡量AI长时间任务性能衰减的"幻觉衰减回报"(HDR)基准测试中,Jan-v2-VL-Max让竞争对手望尘莫及。它在其他模型表现不稳时保持稳定,不仅超越了Google的Gemini 2.5 Pro,还胜过DeepSeek R1。

Image

为实际应用而设计

Jan团队不仅打造了令人印象深刻的技术——还使其易于使用:

  • 网页界面:无需编码即可上传图像并测试多步骤流程
  • 本地部署:优化的vLLM解决方案可在消费级GPU上高效运行
  • 集成就绪:开发者可轻松将其整合到现有系统中

这对UI自动化、机器人技术和多工具协作等领域意义重大。

为何此刻至关重要

当AI从炫目的演示转变为日常工具时,可靠性变得至关重要。在其他竞争者追逐吸引眼球的功能时,Jan专注于在最关键时刻提供真正可靠的AI技术。

该模型不仅是技术成就——更标志着优先级的转变:从"智能"到"稳定",从花哨的单次响应到值得信赖的持续表现。

关键要点:

  • 300亿参数多模态模型擅长长期任务
  • 解决了困扰当前AI代理的"误差累积"问题
  • 在稳定性基准测试中超越Google Gemini 2.5 Pro
  • 提供网页界面和高效的本地部署方案
  • 标志着向可靠性导向的AI开发转型

喜欢这篇文章?

订阅我们的 Newsletter,获取最新 AI 资讯、产品评测和项目推荐,每周精选直达邮箱。

每周精选完全免费随时退订

相关文章

News

DeepSeek V4 横空出世:万亿参数AI模型携百万token记忆窗口来袭

中国深度求索公司即将发布V4 AI模型,其突破性能力或将重塑行业格局。这个万亿参数系统具备原生多模态处理能力及史无前例的100万token上下文窗口——足以一次性消化整本书籍。在战略调整中,DeepSeek优先为华为等国内硬件合作伙伴进行优化而非外国芯片制造商,彰显中国日益增长的AI自主性。随着内部测试的展开,科技界正热切期待这场可能改变游戏规则的发布。

February 26, 2026
人工智能DeepSeekAI发展
Anthropic收购Vercept以增强其AI雄心
News

Anthropic收购Vercept以增强其AI雄心

AI巨头Anthropic战略性收购西雅图初创公司Vercept,以强化其Claude Code生态系统。部分创始人加入Anthropic的同时,其他人对产品关闭表示失望。这笔交易凸显了主要参与者为争夺新兴技术主导权而展开的顶级AI人才激烈竞争。

February 26, 2026
AnthropicAI并购开发者工具
News

阿里云震撼AI编程市场:7.9元即可使用顶尖国产大模型

阿里云以首月仅需7.9元(约合1.1美元)的前所未有的订阅套餐,在中国AI编程市场投下震撼弹。该优惠让开发者一键调用包括阿里自研破纪录的Qwen3.5在内的四大国产领先AI模型。这一激进定价策略标志着大语言模型最具商业价值领域的霸主之争已显著升级。

February 26, 2026
人工智能开发云计算中国科技
News

阿里云通过多模型切换革新AI访问方式

阿里云通义平台推出突破性的编程方案,可无缝切换四种顶尖中国开源AI模型。开发者现在能根据需求轻松切换Qwen3.5、GLM-5、MiniMax M2.5和Kimi K2.5模型,无需再为管理多个API而烦恼。这项创新为探索AI解决方案的企业提供了更大灵活性、成本节约和稳定性。

February 25, 2026
人工智能云计算科技创新
News

Wayve凭借AI驱动自动驾驶技术斩获10亿美元融资

伦敦AI初创公司Wayve刚刚获得由软银领投、英伟达和微软跟投的10.5亿美元巨额融资。该公司独特的自动驾驶技术——通过模拟人类学习而非依赖昂贵传感器——可能彻底改变汽车在城市道路的导航方式。这笔融资标志着欧洲AI创新获得重大认可,也预示着业界对'具身AI'应用的兴趣日益增长。

February 25, 2026
自动驾驶汽车AI初创企业软银
Moonshot AI旗下Kimi K2.5达成惊人盈利里程碑
News

Moonshot AI旗下Kimi K2.5达成惊人盈利里程碑

Moonshot AI最新模型Kimi K2.5震撼科技界,其上线前20天创造的收入已超过2025年全年总和。这一突破主要得益于海外用户和开发者对其API服务的青睐,推动公司估值突破100亿美元。创始人杨植麟确认公司资金充足,暂无立即IPO计划。

February 24, 2026
人工智能科技初创企业机器学习