上海AI实验室开源的多模态大模型InternVL3.5

140 0 0

InternVL3.5是什么

InternVL3.5（书生·万象3.5）是由上海人工智能实验室开发的一款开源多模态大模型。该模型在通用能力、推理性能和部署效率方面实现了全面升级，提供从10亿到2410亿参数的九种不同尺寸版本，能够满足多样化的资源需求场景。它不仅支持稠密模型，还引入了专家混合模型（MoE），并且是首个采用GPT-OSS语言模型基座的开源多模态大模型。在技术架构上，InternVL3.5采用了创新性的级联式强化学习（Cascade RL）框架，通过“离线预热-在线精调”两阶段训练流程，显著提升了模型的推理能力。其中，旗舰版的InternVL3.5-241B-A28B模型在多学科推理基准测试MMMU中取得了77.7分的优异成绩，超过了GPT-5的表现。此外，借助动态视觉分辨率路由（ViR）和解耦部署框架（DvD），该模型在处理高分辨率输入时展现出色性能，38B版本的吞吐量提升高达4.05倍。

InternVL3.5的主要功能

多模态感知能力：在图像、视频问答等多模态任务中表现优异，其中241B-A28B模型以74.1的平均得分领先现有开源模型，其性能已接近商业级标杆GPT-5（74.0分）。
强大的推理能力：通过独特的”离线预热+在线微调”机制和 Cascade RL 框架，显著提升了复杂问题的推理准确率和响应速度。
高效的部署能力：创新性的DvD部署框架大幅优化了高分辨率场景下的运行效率，38B模型吞吐量提升达4.05倍。
灵活的应用场景支持：提供从10亿到2410亿参数的多种配置版本，满足不同计算资源和应用场景的需求。

# AI工具