WAYMO推出EMMA:一款创新的端到端多模态自动驾驶模型

AI工具3个月前发布 ainav
85 0

EMMA代表的是什么?

EMMA是Waymo利用Gemini框架开发的一款端到端的多模态自动驾驶模型,能够直接从原始相机传感器数据生成驾驶相关的输出信息,包括路径规划、物体识别及道路元素解析等。该模型将非传感器输入与输出转换为自然语言文本,并借助预训练的语言模型整合世界知识,在统一的语言环境中协同处理多种驾驶任务。EMMA在nuScenes运动规划和Waymo开放数据集上表现卓越,但同样面临一些挑战,例如只能处理有限数量的图像帧、未集成高精度3D传感器技术以及计算成本较高。尽管如此,该模型对推动自动驾驶架构的进步有着重要作用,并有助于提升系统在复杂环境下的适应与决策能力。

EMMA

EMMA的核心特性

  • 全程动作策划由于提供的内容为空,没有具体内容可以进行伪原创改写。如果您能提供具体段落或句子,我很乐意帮您完成这项任务。
    • 通过利用来自车载摄像头传感器的初始数据来预测自动驾驶汽车未来的行进路线。
    • 把行驶路径转换成针对汽车的具体操作指令,比如加快速度或调整方向。
  • 三维物体识别采用摄像头作为主要的感知设备,来探测并辨识周边的各种对象,包括汽车、行人在内的多种移动实体。
  • 路径图成分辨识辨识并绘制包含车道标线及交通标识在内的主要路面要素的路线图。
  • 情境解析把握整体情境的背景信息,涵盖临时的道路拥堵以及其它可能干扰行车的因素。
  • 同时执行多种任务在一个整合的语言环境中协同执行各类驾驶工作,通过定制的任务提示来产生相应的结果。
  • 连锁逻辑推断:依据通过运用链式逻辑推理,可以增强模型的判断力和透明度,在进行未来趋势预测时,模型能够提供其决定背后的依据。

EMMA的核心技术机制

  • 多功能大規模語言模型(MDLLMs)通过在大规模互联网数据上进行预训练,像Gemini这样的多语言大型语言模型积累了大量的“世界知识”。
  • 自然语言表述所有的非传感器的输入与输出信息(包括导航命令、车况、行驶路径及三维空间定位数据)均以自然语言的形式呈现。
  • 关于图像的问答任务(Image-based Question Answering, IQA)把驾驶任务视作一个VQA问题来重构,并利用Gemini的预先培训技能,维持其丰富的世界知识库。
  • 自动回归模型运用自回归Gemini架构来处理交织的文本与图像信息,并产生相应的文字内容。
  • 全程训练流程通过采用端到端的培训方法,该系统能够直接由传感器信息产生驾驶操作指令,从而省去了各组件之间需要标准化接口的必要性。

EMMA项目的网址位置

  • 关于技术的arXiv学术文章访问该链接可阅读最新的研究论文: https://arxiv.org/pdf/2410.23262,本文档包含了详尽的研究内容和发现。

EMMA的使用情境

  • 在市区与市郊驾车行驶EMMA具备应对城市复杂交通状况与郊区路况的能力,能够即时生成驾驶决策并进行路径规划。
  • 道路交通堵塞及交叉口的复杂情况于交通阻塞或复杂交叉口环境里,EMMA具备高效的道路规划与判断能力,能够保障导航的安全性和效率。
  • 特定的气象与光线状况EMMA能够在各种气候和光线环境下,比如降雨、雾霾或是夜晚行车时,依然维持其出色的驾控表现。
  • 建筑工地与暂时性路径被封锁凭借其强大的情景分析功能,EMMA能够辨识出建筑工地及临时的道路封锁状况,并据此进行恰当的行车调控。
  • 应对突发事件反应当面对突发状况,比如忽然显现的障碍物或是动物时,EMMA能够快速响应,并及时实施规避或者降速等行动。
© 版权声明

相关文章