VLN-R1:港大与上海AI实验室推出的新一代具身智能框架

AI工具3周前发布 ainav
17 0

什么是VLN-R1?

VLN-R1是由香港大学与上海人工智能实验室联合开发的具身智能新框架,它能够基于大规模视觉语言模型(LVLM)直接将第一人称视频流转换为连续的导航动作指令。该框架通过Habitat 3D模拟器构建了全新的VLN-Ego数据集,并创新性地采用了长短时记忆采样策略来平衡历史观测与当前输入的重要性。在训练过程中,VLN-R1采用了两阶段方法:首先进行监督微调(SFT),让模型生成的动作序列与专家演示保持一致;随后进入强化微调(RFT)阶段,通过时间衰减奖励机制优化多步动作预测。实验结果表明,VLN-R1在VLN-CE基准测试中表现优异,验证了LVLM在具身导航任务中的有效性,并显著提升了模型的推理能力和数据利用效率。

VLN-R1:港大与上海AI实验室推出的新一代具身智能框架

VLN-R1的核心功能

  • 连续环境导航能力:无需依赖预设节点,智能体可以在任意连续的3D环境中自由移动。
  • 多动作指令生成:支持FORWARD、TURN-LEFT、TURN-RIGHT和STOP四种基础动作命令,实现精准的导航控制。
  • 高效数据利用:通过SFT和RFT双阶段训练方法,在有限数据量下实现了高效的模型训练与性能优化。
  • 快速环境适应:借助强化微调机制,模型能够快速适应新的任务场景,即使面对少量新数据也能实现良好迁移。
  • 增强推理能力:基于TDR奖励机制优化多步动作预测,显著提升了长期导航任务的规划与执行效果。

VLN-R1的技术架构解析

  • 数据集构建技术:VLN-Ego数据集通过Habitat 3D模拟器生成,包含第一视角视频流及其对应的未来动作序列标签,为模型训练提供了高质量的标注数据。
  • 长短时记忆采样策略:在处理视频输入时,模型会动态平衡历史帧的重要性与实时输入的敏感性,确保既能捕捉短期相关性又不丢失长期上下文信息。
  • 监督微调机制(SFT):通过最小化预测文本与专家演示之间的交叉熵损失,确保模型生成的动作序列准确反映语言指令意图。
  • 强化微调方法(RFT):采用基于组相对策略优化的强化学习框架,并结合时间衰减奖励机制来评估和优化多步动作预测的质量。
  • 先进视觉语言模型支撑:基于如Qwen2-VL等先进的LVLM架构处理视觉与语言输入,实现从第一人称视频到导航动作的端到端映射,显著提升了模型的泛化能力。

VLN-R1开源项目信息

  • 官方网站:https://vlnr1.github.io/
  • GitHub仓库:https://github.com/Qi-Zhangyang/GPT4Scene-and-VLN-R1
  • 技术论文地址:https://arxiv.org/pdf/2506.17221

VLN-R1的实际应用场景

  • 家庭服务机器人:用于执行家务指令,如清扫房间、取物等任务,显著提升家居生活的便利性。
  • 工业自动化领域:帮助工业机器人根据操作指令灵活移动,在生产线中完成物料运输和设备维护等任务。
  • 智能仓储系统:实现货架间精准导航,高效完成货物的存储与检索操作,优化仓库管理效率。
  • 医疗健康领域:用于医院或养老院场景,执行送药、配送餐食等任务,有效减轻医护人员的工作负担。
  • 智能交通系统:辅助自动驾驶车辆在城市道路中按指令导航,提升驾驶安全性和路径规划的灵活性。
© 版权声明

相关文章