北京机器人创新中心发布开源 Pelican-VL 1.0 模型,号称全球最强

AI资讯1周前发布 ainav
24 0

11月14日,北京人形机器人创新中心宣布,具身智能视觉-语言模型Pelican-VL 1.0实现全面开源。这一重要消息标志着我国在人工智能领域又一重大突破。

据官方资料显示,Pelican-VL 1.0模型提供7B和72B两种参数规模版本,在规模上堪称目前最大的开源具身多模态大模型。其性能表现尤为突出,测试结果显示与GPT-5同类型模型相比高出15.79%,较谷歌Gemini系列领先19.25%,同时超越了国内的通义千问和书生万象等顶尖模型,成为当前最强开源具身多模态大模型。

北京机器人创新中心发布开源 Pelican-VL 1.0 模型,号称全球最强

该团队创新性地提出了DPPO(Deliberate Practice Policy Optimization)训练范式,这是一种全球首创的具身多模态大模型后训练自进化算法框架。通过这种新方法,Pelican-VL实现了”性能最强”的目标,其使用的数据量仅为其他大型模型的1/10甚至1/50,在确保高效性的同时达到了最优性能。

Pelican-VL 1.0的成功开源,将极大提升具身智能在商业服务、工业应用、高危作业和家庭服务等多个领域的实际应用能力。作为实现机器人全自主的核心技术,此次开源对推动我国具身智能的全面发展具有重要意义。

北京机器人创新中心发布开源 Pelican-VL 1.0 模型,号称全球最强

在技术实现方面,Pelican-VL 1.0的最大优势在于其高效的训练机制。该模型依托于1000+ A800 GPU集群进行训练,单次检查点训练消耗超过50,000个A800 GPU-小时。同时,从原始数据中提炼出的数亿token高质量元数据为训练提供了坚实基础。得益于此,Pelican-VL 1.0在基线性能上实现了20.3%的显著提升,并在与Qwen3-VL和InternVL3.5等同级别开源模型对比中保持10.6%的优势。

通过独特的”刻意练习”DPPO训练范式,Pelican-VL展现出类似人类的学习能力:观察视频、自主练习、识别错误、持续优化。这一机制让模型能够像学生学习错题那样发现并弥补自身”知识漏洞”,从而不断提升其在视觉-语言理解和具身任务执行方面的能力。

值得注意的是,Pelican-VL不仅提升了对图像和语言指令的理解精度,还增强了物理常识的掌握。这种进步使得模型在空间推理和动作规划等关键决策环节表现出色,为具身智能技术的实际应用开辟了更广阔的发展前景。

© 版权声明

相关文章