北京机器人创新中心发布开源 Pelican-VL 1.0 模型，号称全球最强

24 0 0

11月14日，北京人形机器人创新中心宣布，具身智能视觉-语言模型Pelican-VL 1.0实现全面开源。这一重要消息标志着我国在人工智能领域又一重大突破。

据官方资料显示，Pelican-VL 1.0模型提供7B和72B两种参数规模版本，在规模上堪称目前最大的开源具身多模态大模型。其性能表现尤为突出，测试结果显示与GPT-5同类型模型相比高出15.79%，较谷歌Gemini系列领先19.25%，同时超越了国内的通义千问和书生万象等顶尖模型，成为当前最强开源具身多模态大模型。

该团队创新性地提出了DPPO（Deliberate Practice Policy Optimization）训练范式，这是一种全球首创的具身多模态大模型后训练自进化算法框架。通过这种新方法，Pelican-VL实现了”性能最强”的目标，其使用的数据量仅为其他大型模型的1/10甚至1/50，在确保高效性的同时达到了最优性能。

Pelican-VL 1.0的成功开源，将极大提升具身智能在商业服务、工业应用、高危作业和家庭服务等多个领域的实际应用能力。作为实现机器人全自主的核心技术，此次开源对推动我国具身智能的全面发展具有重要意义。

在技术实现方面，Pelican-VL 1.0的最大优势在于其高效的训练机制。该模型依托于1000+ A800 GPU集群进行训练，单次检查点训练消耗超过50,000个A800 GPU-小时。同时，从原始数据中提炼出的数亿token高质量元数据为训练提供了坚实基础。得益于此，Pelican-VL 1.0在基线性能上实现了20.3%的显著提升，并在与Qwen3-VL和InternVL3.5等同级别开源模型对比中保持10.6%的优势。

通过独特的”刻意练习”DPPO训练范式，Pelican-VL展现出类似人类的学习能力：观察视频、自主练习、识别错误、持续优化。这一机制让模型能够像学生学习错题那样发现并弥补自身”知识漏洞”，从而不断提升其在视觉-语言理解和具身任务执行方面的能力。

值得注意的是，Pelican-VL不仅提升了对图像和语言指令的理解精度，还增强了物理常识的掌握。这种进步使得模型在空间推理和动作规划等关键决策环节表现出色，为具身智能技术的实际应用开辟了更广阔的发展前景。

# AI资讯