上海AI实验室开源的多模态大模型InternVL3.5

AI工具2天前发布 ainav
4 0

InternVL3.5是什么

InternVL3.5(书生·万象3.5)是由上海人工智能实验室开发的一款开源多模态大模型。该模型在通用能力、推理性能和部署效率方面实现了全面升级,提供从10亿到2410亿参数的九种不同尺寸版本,能够满足多样化的资源需求场景。它不仅支持稠密模型,还引入了专家混合模型(MoE),并且是首个采用GPT-OSS语言模型基座的开源多模态大模型。在技术架构上,InternVL3.5采用了创新性的级联式强化学习(Cascade RL)框架,通过“离线预热-在线精调”两阶段训练流程,显著提升了模型的推理能力。其中,旗舰版的InternVL3.5-241B-A28B模型在多学科推理基准测试MMMU中取得了77.7分的优异成绩,超过了GPT-5的表现。此外,借助动态视觉分辨率路由(ViR)和解耦部署框架(DvD),该模型在处理高分辨率输入时展现出色性能,38B版本的吞吐量提升高达4.05倍。

上海AI实验室开源的多模态大模型InternVL3.5

InternVL3.5的主要功能

  • 多模态感知能力:在图像、视频问答等多模态任务中表现优异,其中241B-A28B模型以74.1的平均得分领先现有开源模型,其性能已接近商业级标杆GPT-5(74.0分)。
  • 强大的推理能力:通过独特的”离线预热+在线微调”机制和 Cascade RL 框架,显著提升了复杂问题的推理准确率和响应速度。
  • 高效的部署能力:创新性的DvD部署框架大幅优化了高分辨率场景下的运行效率,38B模型吞吐量提升达4.05倍。
  • 灵活的应用场景支持:提供从10亿到2410亿参数的多种配置版本,满足不同计算资源和应用场景的需求。
© 版权声明

相关文章