7月9日讯,昆仑万维今日宣布其最新研究成果——Skywork-R1V 3.0版本正式发布并全面开源,这一突破性进展标志着多模态AI领域又一重要里程碑。
据研发团队介绍,Skywork-R1V 3.0在后训练阶段通过创新的强化学习策略显著提升了跨模态推理能力。该模型在复杂逻辑建模和跨学科泛化方面实现了双重重突破,展现出强大的多领域适应性。
作为Skywork-R1V系列的最新升级,3.0版本采用了基于蒸馏数据的”冷启动”策略,并通过拒绝采样技术构建了高质量的多模态推理训练集。这一创新方法成功指导开源视觉大模型InternVL-38B(380亿参数量)掌握多模态推理的核心能力。
在优化过程中,开发团队引入了先进的GRPO(Group Relative Policy Optimization)强化学习算法,深度挖掘模型的推理潜能。这一改进使模型实现了跨模态知识迁移的重大突破,在图像和文本理解分析方面达到了新的高度。
值得注意的是,Skywork-R1V 3.0仅需约1.2万条监督微调样本和1.3万条强化学习样本即可完成高效训练。这种”小数据大能力”的特性充分体现了模型设计的优化效率。
在性能测试方面,Skywork-R1V 3.0于权威评测MMMU中获得76.0分的优异成绩。这一分数不仅超过了Claude-3.7-Sonnet(75.0分)和GPT-4.5(74.4分)等一众闭源模型,更逼近人类初级专家水平(76.2分),展现出卓越的综合推理能力。
特别在高考数学领域,Skywork-R1V 3.0取得了突破性进展。其解题水平已接近甚至超越多款顶尖闭源模型,成为开源多模态推理领域的最优解决方案。
在更具挑战性的视觉推理任务EMMA-Mini(CoT)评测中,Skywork-R1V 3.0以40.3分的优异成绩领先于Qwen2.5-VL-72B-Instruct和InternVL3-78B等模型,并显著缩小了与Claude-3.7-Sonnet等闭源模型的差距。
在覆盖中小学知识体系的MMK12评测中,Skywork-R1V 3.0同样表现抢眼。以78.5分的成绩领跑开源阵营,成功超越包括Qwen2.5-VL-72B-Instruct、InternVL3-78B在内的多款开源模型以及GPT-4.5和GPT-4o等闭源强手。
相较于上一代模型,Skywork-R1V 3.0在物理、逻辑等多个关键领域实现了性能的重大突破。这一最新版本现已成为当前开源领域最强大的多模态推理模型之一。
- 物理推理: 在权威评测PhyX-MC-Text-Minimal和SeePhys中,Skywork-R1V 3.0分别取得52.8分和31.5分的开源最优成绩。这一表现不仅超越了主流开源模型,更显著领先于GPT-4.5和Gemini 2 Flash等部分闭源模型。模型在力学、电磁学等基础物理概念理解以及复杂图文结合问题处理方面均展现出卓越能力。
- 逻辑推理: 在LogicVista测试中获得59.7分,在VisuLogic测试中取得28.5分。特别是在MME-Reasoning评测中,Skywork-R1V 3.0以出色表现领先于一众竞争对手。这些成绩充分展示了模型在复杂逻辑推理和视觉理解方面的强大能力。
如需了解更多技术细节或进行实际应用测试,可访问以下资源:
- HuggingFace地址:https://huggingface.co/Skywork/Skywork-R1V3-38B
- GitHub地址:https://github.com/SkyworkAI/Skywork-R1V
- 技术报告:https://github.com/SkyworkAI/Skywork-R1V/blob/main/Skywork_R1V3.pdf