5月21日消息,科技媒体MarkTechPost昨日(5月20日)发布博文称,英伟达针对物理推理任务推出了Cosmos-Reason1系列模型。该模型显著提升了AI在物理常识和具身推理方面的能力,为机器人技术和自动驾驶领域带来了重要应用潜力。
Physical AI的发展挑战
尽管人工智能(AI)在语言处理、数学计算和代码生成等领域取得了显著进展,但将其能力扩展到物理环境仍面临诸多挑战。
与传统AI不同,Physical AI依赖于视频等感官输入,并结合现实中的物理法则来生成相应的反应。这类AI需要具备常识推理能力,并能够理解空间、时间和物理规律等复杂概念。
目前的AI模型对物理世界的连接较为薄弱,难以直观理解重力或空间关系等因素,这使得它们在处理具身任务时表现欠佳。此外,直接在真实物理环境中训练AI不仅成本高昂,还伴随着较高风险,这些都严重制约了Physical AI的发展。
Cosmos-Reason1:突破物理推理难题
针对上述挑战,英伟达最新推出了Cosmos-Reason1系列模型,为解决物理推理问题提供了新的解决方案。
据博文介绍,该模型包括两个版本:Cosmos-Reason1-7B和Cosmos-Reason1-56B。这两个版本均采用Physical AI监督微调(SFT)和强化学习(RL)相结合的双阶段训练方法。
研究团队创新性地引入了双本体系统:首先,一个分层本体将物理常识划分为空间、时间和基础物理三大类,并进一步细化为16个子类别;其次,另一个二维本体则专门用于映射人类、机械臂、人形机器人等五种具身代理的推理能力。
在架构设计上,Cosmos-Reason1采用了仅解码器的大型语言模型(LLM)结构,并结合视觉编码器来处理视频数据。这种设计使模型能够实现对文本和视觉数据的同步推理。其训练数据集包含约400万条标注的视频-文本对,涵盖丰富的动作描述和复杂的推理任务。
为评估该模型的表现,研究团队专门构建了针对物理常识的三个基准测试(包含604个问题和426个视频)以及针对具身推理的六个基准测试(包含610个问题和600个视频)。
在实验中,Cosmos-Reason1模型展现了卓越的能力。特别是在经过强化学习训练后,模型在预测下一步行动、验证任务完成度以及评估物理可行性等方面均取得了显著进步。
通过大量实验证明,该模型在处理物理常识和具身推理任务方面表现优异,为Physical AI技术的实际应用奠定了坚实基础。