上海人工智能实验室开源多模态大模型”书生·万象3.0″：支持文本和多模态交互

AI资讯1年前 (2025)发布 ainav

224 0 0

近日，上海人工智能实验室在其官方公众号宣布，4月16日全新升级并正式开源了其通用多模态大模型——书生·万象3.0版本（InternVL3）。这一重要更新标志着该领域技术的又一重大突破。

据官方介绍，通过采用革命性的原生多模态预训练方法，InternVL3在多个维度实现了性能的重大飞跃。无论是专家级基准测试还是全面的多模态性能评估，其10亿至780亿参数量的全规模版本均处于开源模型中的领先地位。

与传统的训练方法不同，该模型采用了创新性的预训练策略。在这一过程中，文本数据与多模态数据实现了无缝融合，使模型能够同时掌握语言理解和视觉感知能力，从而能够更高效地处理多种输入形式。

除了具备通用多模态任务处理能力外，InternVL3还在多个专业领域展现了卓越性能。其突破性体现在图形用户界面智能体、建筑场景图纸分析、空间逻辑推理以及跨学科知识整合等方面。

特别值得一提的是，该模型可作为专业的图形用户界面（GUI）操作代理。它能够根据指令准确执行对专业软件的操作，极大提升了人机交互的效率和精准度。

以下是相关资源的汇总链接：

通过这些资源，开发者和研究者可以深入了解InternVL3的详细信息，并参与到这一前沿技术的研究与应用中。

文章版权归作者所有，未经允许请勿转载。

ainav

229 0

ainav

147 0

ainav

170 0

ainav

169 0

ainav

229 0

ainav

145 0