NavFoM:全球首个跨实体导航AI模型正式发布
NavFoM:统一机器人导航技术的重大突破
在机器人技术与人工智能领域的重要进展中,银河通用联合北京大学、阿德莱德大学和浙江大学的研究团队发布了全球首个跨本体全场景全景导航基础模型——NavFoM(Navigation Foundation Model)。

多样化导航任务的统一框架
这一创新模型通过将各类机器人导航任务整合至单一框架,实现了范式转变。其涵盖范围包括:
- 视觉与语言导航
- 目标导向导航
- 视觉追踪
- 自动驾驶应用
银河通用首席研究员陈伟博士解释道:"NavFoM消除了为每个导航任务开发专用模型的需求。我们的方法模拟了人类使用相同认知框架应对不同环境的机制。"
跨环境零样本操作能力
NavFoM最显著的特性是其全场景支持能力。该模型无需预先了解环境或建立地图,即可在室内外场景中运行。这意味着:
- 新环境无需额外数据采集
- 可即时部署于未知区域
- 显著降低实施所需的准备时间和成本
系统通过先进的机器学习技术实现这一特性,使其能够从训练数据泛化到全新场景。

基于自然语言的多任务支持
模型的多任务支持能力通过自然语言指令实现多样化功能,包括:
- 目标跟随
- 自主导航
- 复杂路径规划 这种灵活性使得从机器狗到无人机、自动驾驶车辆等各类机器人平台都能在同一框架下高效运作。
技术创新:TVI Tokens与BATS策略
研究团队引入了两项突破性技术组件:
- TVI Tokens(时序-视角索引令牌):使模型能理解对导航任务至关重要的时间序列与方向信息。
- BATS策略(预算感知令牌采样):确保在有限计算资源下仍能实现最优性能,提升模型的实用价值。
团队构建了前所未有的训练数据集,包含:
- 800万条跨任务、跨本体的导航数据
- 400万组开放式问答对 其训练规模达到该领域先前模型的2倍。
未来应用与发展前景
NavFoM的发布为机器人发展开辟了新可能。北京大学李明教授表示:"开发者现在可以通过迁移学习在此基础模型上构建专业应用,在显著缩短开发周期的同时提升性能。" 潜在应用领域包括:
- 智慧城市基础设施
- 搜救行动
- 工业自动化
- 个人辅助机器人
研究团队计划今年晚些时候发布NavFoM开源版本,以加速该领域创新进程。
核心亮点:
🌟 首个统一导航模型——将多种机器人任务整合至单一框架 🏞️ 零样本操作能力——无需预先建图即可适应室内外环境 💬 自然语言控制——实现直观的人机交互体验 💡 TVI Tokens & BATS策略——在环境理解与资源管理方面提供技术优势 📊 1200万条数据点构成的前所未有训练集——确保稳健性能表现




