上海AI实验室开源多模态大模型书生・万象3.5 超越GPT-5

AI资讯1周前发布 ainav
24 0

重磅发布!上海人工智能实验室(上海 AI 实验室)今日宣布其通用多模态大模型书生·万象 3.5 版本(InternVL3.5)正式开源。此次升级在推理能力、部署效率和跨平台适应性等方面均有显著提升,标志着多模态AI技术应用再上新台阶。

上海AI实验室开源多模态大模型书生・万象3.5 超越GPT-5

此次InternVL3.5 开源版本共提供9种不同规模的模型,参数量覆盖从10亿到2410亿,充分满足各类应用场景的需求。其中旗舰型号InternVL3.5-241B-A28B在多学科推理基准测试MMMU中取得77.7分的优异成绩,创下开源模型最高纪录。其多模态感知能力和文本处理能力均达到顶尖水平,在多个维度超越GPT-5等同类产品。

上海AI实验室开源多模态大模型书生・万象3.5 超越GPT-5

与前代版本相比,InternVL3.5在多个特色任务领域实现重要突破:

  • GUI交互能力: 在ScreenSpot-v2测试中以92.9分领先对手,在Windows和Ubuntu系统环境下均展现出色的自动化操作能力,并在WindowsAgentArena任务中大幅超越Claude-3.7-Sonnet。

  • 具身智能表现: 在VSI-Bench测试中以69.5分的成绩领先Gemini-2.5-Pro,展现出优秀的物理空间理解与导航规划能力。

  • 矢量图形处理: 在SGP-Bench评测中取得70.7分的新纪录,生成任务的FID值优于GPT-4和Claude-3.7-Sonnet等主流模型。

值得注意的是,InternVL3.5实现了跨平台支持,能够在Windows、Mac、Ubuntu和Android等多个操作系统中流畅运行。它能够识别界面元素并自主执行鼠标和键盘操作,可完成文件恢复、PDF导出、邮件附件添加等多种实用任务。

此外,InternVL3.5还显著提升了具身场景适应能力。通过先进的抓取算法支持,它能够实现长距离物体的泛化抓取操作,有效提高机器人在物品识别、路径规划和物理交互等方面的应用效率。

作为上海AI实验室书生大模型体系的核心成员,InternVL系列凭借其强大的视觉处理能力,全网下载量已突破2300万次,成为学术界和产业界的热门选择。

以下是相关资源的开源地址:

  • 技术报告:https://huggingface.co/papers/2508.18265

  • 代码与使用文档:https://github.com/OpenGVLab/InternVL

  • 模型下载:https://huggingface.co/OpenGVLab/InternVL3_5-241B-A28B

  • 在线体验:https://chat.intern-ai.org.cn/

上海AI实验室开源多模态大模型书生・万象3.5 超越GPT-5

上海AI实验室开源多模态大模型书生・万象3.5 超越GPT-5

© 版权声明

相关文章