浙大上海AI Lab发布全球首个面向真实场景的多模态创造力评测基准

AI资讯2天前发布 ainav
4 0

## 重新定义多模态创作能力天花板!浙大团队发布全新基准,GPT-4.5 创造力竟不如GPT-4o?

在 AI 领域,多模态模型的创造力到底有多强?近日,上海 AI 实验室与浙江大学合作推出了一项创新评测基准 Creation-MMBench,专为评估大语言模型结合视觉信息完成创造性任务的能力而设计。

### 765个实例+51种任务
这个新基准包含 765 个精心设计的测试实例,覆盖 51 种具体任务类型。每个测试案例都配套了详细的评判标准,确保对模型输出的质量和视觉准确性进行科学评估。

### GPT-4.5 创造力不及 GPT-4o
在专业功能性写作方面,GPT-4o 凭借其强大的语言能力和图像理解能力,在软件工程图表解释任务中表现出色。相比之下,GPT-4.5 的创造力稍逊一筹。

### 视觉指令微调的负面影响
研究发现,经过视觉指令微调的开源多模态大模型在创作任务上的表现反而不如未经微调的语言基座模型。这可能是因为微调使用的问答对长度有限,限制了模型处理长文本和复杂情境的能力。

### 开源 vs 闭源差距明显
在软件工程图像解释任务中,开源模型 Qwen2.5-VL 因为专业知识储备不足,将泳道图误判为数据流图,导致后续分析错误。而 GPT-4o 凭借准确的图表识别和专业的语言表达,成功避免了这一错误。

### 基准测试工具现已上线
Creation-MMBench 已经整合到 VLMEvalKit 中,用户可以一键完成模型评测。想知道你的多模态模型在创意任务中的表现如何?快来试试 Creation-MMBench 一键跑分吧!

**Paper链接:** [https://arxiv.org/abs/2503.14478](https://arxiv.org/abs/2503.14478)

**GitHub地址:** [https://github.com/open-compass/Creation-MMBench](https://github.com/open-compass/Creation-MMBench)

**项目主页:** [https://open-compass.github.io/Creation-MMBench/](https://open- compass.github.io/Creation-MMBench/)

© 版权声明

相关文章