德克萨斯与多伦多等地高校共同发布的开放源代码端对端自动驾驶多元传感器融合系统 OpenEMMA

AI工具3个月前发布 ainav
109 0

OpenEMMA指的是什么?

OpenEMMA是由德州农工大学、密歇根大学及多伦多大学联合发布的开源项目,它是一个专注于端到端自动驾驶的多模态模型框架。此框架利用预训练的大型多模态语言模型(MLLMs)来处理视觉信息和复杂的驾驶情境推理任务。通过采用链式思维进行推理,OpenEMMA在路径规划与感知性能方面有了显著提升,并且它还整合了优化过的YOLO模型以增强3D边界框预测的精度。该框架旨在为自动驾驶技术的研究和发展提供一个促进性的平台,助力于推进相关领域的进步。

OpenEMMA

OpenEMMA的核心特性

  • 全程路径规划通过直接基于传感器的数据来掌握驾驶操作,实现了感知与决策过程中的无缝衔接和整体优化,过程中不依赖任何符号化的转换界面。
  • 多种类型数据的处理该系统利用前置摄像头捕捉的影像与过往的文本记录,并结合自身车辆的状态信息作为输入数据,将其转化为一个基于视觉的理解和询问(VQA)格式来处理驾驶相关的问题。
  • 链条式逻辑推断运用链条式的逻辑分析步骤,引导系统创建关于核心元素的具体描绘、行动解析及高级导航策略。
  • 三维物体识别通过整合微调技术的YOLO模型,OpenEMMA能够精准识别三维道路中的各类物体,从而增强目标检测的效果。
  • 人们可以阅读的输出结果利用存储在MLLM中的广泛知识库,OpenEMMA能够生成对场景理解等认知作业具有解释性和易读性的结果。

OpenEMMA的工作机制解析

  • 已经过预先训练的多语言大型模型利用预先训练好的多模态语言模型(MLLMs)来解析复杂图像信息,并对驾驶环境进行逻辑推断。
  • 链条式的逻辑推演流程通过运用链式逻辑推演,该模型能够创建速度矢量与弯曲度矢量,并利用这些矢量来预测车辆未来的行进路径。
  • 速率与弯曲度矢量在提供速度与曲率矢量的情况下,该模型起初会结合各个时刻点的方向角度,并进一步求取速度在X轴及Y轴上的分解值,最后通过累积这些速度分解值得到整个路径的终点位置。
  • 提升物体识别能力为了弥补MLLMs在空间推理方面的不足,引入了一个特别针对3D边界框预测进行了优化的YOLO模型。
  • 全程规划与逻辑推演OpenEMMA采用指令驱动的方式引导MLLMs产出易于理解的人类知识,通过将路径生成的任务拆解成若干个透明的模块来映射驾驶行为的过程。

访问OpenEMMA项目的网址

  • Git代码库:可在GitHub上找到由taco-group维护的OpenEMMA项目页面。
  • arXiv科技文章在学术资源共享平台ArXiv上发布了一篇论文,其在线链接为:https://arxiv.org/pdf/2412.15208,该文档包含了详细的研究内容。

OpenEMMA的使用情境

  • 在城市的街道上驾车行驶于错综复杂的城市道路条件下,应对变化莫测的交通指示灯、行人群体、骑行者及各类机动车,实现对自主驾驶汽车即时的战略抉择与行驶路径设计。
  • 在快速道路上行驶在高速公路环境中,为维持车道位置、执行超车动作及避开障碍物等驾驶行为提供决策辅助。
  • 停靠车辆与缓慢行驶于停车场及低速场景下,辅助自动驾驶汽车实现精准泊车,并规避障碍物,在有限的空间内完成导航。
  • 夜间驾车在光线不足的情况下,OpenEMMA能够正常运作,并为夜晚行车提供决策辅助,涵盖物体识别与路径规划等功能。
  • 多变的气象状况在遇到下雨或起雾等复杂的气象状况时,支持自动驾驶的汽车能够维持行车安全,降低不良天气条件对驾驶过程的影响。
© 版权声明

相关文章