英伟达发布全球首款专注自动驾驶的视觉语言动作模型Alpamayo-R1

71 0 0

12月2日消息，英伟达在近日举办的NeurIPS人工智能大会上宣布了一系列重大技术突破，正式推出新一代基础设施与人工智能模型，标志着其在”具身智能”领域迈出了重要一步。这一系列新技术旨在为机器人和自动驾驶车辆打造感知现实世界的核心能力。

发布会上，英伟达重点介绍了其最新推出的开源推理型视觉语言模型——Alpamayo-R1。这款专为自动驾驶研究设计的模型被认为是业内首个专注于该领域的视觉语言动作模型。通过同时处理文本与图像信息，该模型使自动驾驶车辆能够像人类一样”观察”并理解周围环境，并基于实时感知做出更智能的驾驶决策。

Alpamayo-R1是在英伟达此前发布的Cosmos-Reason推理模型基础上构建而成。后者具有独特的逻辑推演能力，能够在执行操作前进行充分的”思考”。值得注意的是，英伟达早在2025年就已启动了Cosmos系列模型的研发，并在今年8月推出了其扩展版本。

在一篇官方博文中，英伟达强调，Alpamayo-R1等技术对于实现L4级自动驾驶具有关键意义。L4级自动驾驶意味着车辆可以在特定区域和限定条件下完全自主运行，无需人类干预。

英伟达表示，这类具备强大推理能力的模型将赋予自动驾驶系统类似人类的”常识”，从而更从容地应对各种复杂驾驶场景中的细节决策。这种技术进步有望显著提升自动驾驶的安全性和可靠性。

目前，Alpamayo-R1已在GitHub和Hugging Face平台全面开源，供全球开发者和研究机构使用。这一开放策略将进一步推动自动驾驶技术的创新与普及。

除了发布新视觉模型外，英伟达还同时推出了名为”Cosmos Cookbook”的一揽子开发工具包。该资源包包含详细的操作指南、推理工具以及训练后的工作流程，旨在帮助开发者更高效地根据具体应用场景对Cosmos系列模型进行优化和训练。其覆盖了从数据整理到模型评估的各个环节。

此次技术发布标志着英伟达正在全面进军”具身智能”这一新兴领域，并将其视为其先进AI GPU技术的重要增长方向。所谓具身智能，是指机器人或自动驾驶系统能够通过身体与环境互动来提升智能水平。

正如英伟达联合创始人兼首席执行官黄仁勋多次强调的那样，人工智能的下一个浪潮将是具身智能。今年夏天，英伟达首席科学家比尔·达利（Bill Dally）在接受TechCrunch采访时也表达了相同观点，并特别指出这一技术在机器人领域的巨大潜力。

“我认为，机器人最终将成为全球的重要角色，而我们的目标就是打造所有机器人的’大脑’，”达利当时表示，”要实现这一宏伟目标，我们必须从现在就开始研发和突破关键技术。”

文章版权归作者所有，未经允许请勿转载。

ainav

96 0

ainav

122 0

ainav

94 0

ainav

66 0

ainav

165 0

ainav

99 0