6月9日,Hugging Face宣布推出一款开源机器人模型SmolVLA,该模型拥有4.5亿参数量,专为消费级硬件设备设计,能够在MacBook Pro等设备上运行。这一创新方案旨在降低开发者进入机器人领域的门槛。
当前,机器人领域普遍采用”视觉-语言-行动”(Vision-Language-Action, VLA)架构,这类模型试图在一个统一的框架中整合感知、理解与执行能力,使机器人能够独立完成复杂任务。然而,现有VLA模型通常需要高昂的硬件支持和庞大的数据集进行训练,这限制了其广泛应用。
针对这一挑战,Hugging Face推出了轻量级开源模型SmolVLA。该模型采用公开数据集进行训练,并且能够在消费级硬件上运行,目标是降低开发者门槛,推动通用机器人智能体的研究进展。
在技术创新方面,SmolVLA采用了创新的架构设计:结合Transformer结构与flow-matching解码器。同时引入了四项关键优化技术:
- 通过跳过视觉模型中一半层数来提升推理速度并减少模型体积;
- 采用自注意力与交叉注意力模块交替融合,提高多模态信息处理效率;
- 降低视觉Token数量以提升处理效率;
- 使用更轻量的SmolVLM2作为视觉编码器,进一步降低硬件需求。
在训练策略上,SmolVLA采用了两阶段方法:先通过通用操作数据进行预训练,再针对具体任务进行微调。尽管其训练数据量远小于其他同类模型(仅包含不到3万个任务记录),但Hugging Face表示,该模型在模拟环境和真实场景中的表现可与大型模型相媲美,在部分任务上甚至实现了超越。
此外,SmolVLA引入了”异步推理架构”(Asynchronous Inference Stack),将感知处理(如视觉和语音理解)与动作执行解耦。这种设计使机器人在应对快速变化的环境时表现更佳。
目前,SmolVLA的基础模型已在Hugging Face平台上线,并通过GitHub公开了完整的训练方法,项目页面如下:
这一创新成果为机器人技术的发展提供了新的可能性,特别对于希望在资源有限条件下开展研究的开发者和研究人员具有重要价值。