上海AI实验室开源多模态大模型书生・万象3.5 超越GPT-5

304 0 0

重磅发布！上海人工智能实验室（上海 AI 实验室）今日宣布其通用多模态大模型书生·万象 3.5 版本（InternVL3.5）正式开源。此次升级在推理能力、部署效率和跨平台适应性等方面均有显著提升，标志着多模态AI技术应用再上新台阶。

此次InternVL3.5 开源版本共提供9种不同规模的模型，参数量覆盖从10亿到2410亿，充分满足各类应用场景的需求。其中旗舰型号InternVL3.5-241B-A28B在多学科推理基准测试MMMU中取得77.7分的优异成绩，创下开源模型最高纪录。其多模态感知能力和文本处理能力均达到顶尖水平，在多个维度超越GPT-5等同类产品。

与前代版本相比，InternVL3.5在多个特色任务领域实现重要突破：

GUI交互能力： 在ScreenSpot-v2测试中以92.9分领先对手，在Windows和Ubuntu系统环境下均展现出色的自动化操作能力，并在WindowsAgentArena任务中大幅超越Claude-3.7-Sonnet。
具身智能表现： 在VSI-Bench测试中以69.5分的成绩领先Gemini-2.5-Pro，展现出优秀的物理空间理解与导航规划能力。
矢量图形处理： 在SGP-Bench评测中取得70.7分的新纪录，生成任务的FID值优于GPT-4和Claude-3.7-Sonnet等主流模型。

值得注意的是，InternVL3.5实现了跨平台支持，能够在Windows、Mac、Ubuntu和Android等多个操作系统中流畅运行。它能够识别界面元素并自主执行鼠标和键盘操作，可完成文件恢复、PDF导出、邮件附件添加等多种实用任务。

此外，InternVL3.5还显著提升了具身场景适应能力。通过先进的抓取算法支持，它能够实现长距离物体的泛化抓取操作，有效提高机器人在物品识别、路径规划和物理交互等方面的应用效率。

作为上海AI实验室书生大模型体系的核心成员，InternVL系列凭借其强大的视觉处理能力，全网下载量已突破2300万次，成为学术界和产业界的热门选择。

以下是相关资源的开源地址：