行业首个8B参数开源端侧多模态模型MiniCPM-V 4.5发布

AI资讯2周前发布 ainav
10 0

8月27日,面壁智能宣布开源旗下最新多模态模型——MiniCPM-V 4.5,这是一款具有8B参数的旗舰级产品。该模型在高刷新率视频理解领域实现了行业突破,标志着多模态技术应用进入新阶段。

据官方介绍,MiniCPM-V 4.5在多个核心指标上达到SOTA(最优)水平。其视频理解、OCR处理和文档解析能力均处于领先地位,并且在性能测试中超越了Qwen2.5-VL 72B模型,被誉为“最强端侧多模态解决方案”。

行业首个8B参数开源端侧多模态模型MiniCPM-V 4.5发布

传统多模态模型在视频处理上通常采用每秒1帧的抽帧方式,这种方式虽然降低了计算开销,但也严重限制了对动态内容的理解能力。面壁智能通过创新性地将2D重采样结构升级为3D重采样(3D-Resampler),实现了视频片段的高密度压缩处理。

MiniCPM-V 4.5在视频理解领域实现了革命性突破。通过优化模型结构,其单个视觉Token可处理6倍于传统模型的帧数,压缩效率提升至96倍,相比同类产品提升了12-24倍。

这种技术创新使MiniCPM-V 4.5能够以更高的抽帧频率捕捉动态画面细节。在面对快速变化的视频内容时,该模型展现出了超越Gemini-2.5-Pro、GPT-5和GPT-4o等主流云端模型的能力。

在权威评测榜单中,MiniCPM-V 4.5不仅达到了同尺寸模型的最优水平(SOTA),还成功超越了Qwen2.5-VL 72B这一更庞大参数量的模型,展现了越级领先的性能。

行业首个8B参数开源端侧多模态模型MiniCPM-V 4.5发布

作为一款轻量化模型,MiniCPM-V 4.5在图片理解、视频分析和复杂文档处理等多模态任务中均刷新了现有记录。其卓越的性能表现证明了“小而强大”的技术理念。

行业首个8B参数开源端侧多模态模型MiniCPM-V 4.5发布

在图片理解领域,MiniCPM-V 4.5同样表现优异。它不仅击败了GPT-4o、GPT-4.1和Gemini-2.0-Pro等闭源模型,还在与72B参数的Qwen2.5-VL对比中占据上风。

行业首个8B参数开源端侧多模态模型MiniCPM-V 4.5发布

针对视频理解任务,MiniCPM-V 4.5在LVBench、MLVU、Video-MME和LongVideoBench等多个基准测试中均取得了最佳成绩。其高效处理能力尤其体现在长视频解析场景。

行业首个8B参数开源端侧多模态模型MiniCPM-V 4.5发布

在复杂文档处理方面,MiniCPM-V 4.5在OmniDocBench评测中的三项核心指标(OverallEdit、TextEdit和TableEdit)均达到了通用多模态模型的最优水平。

行业首个8B参数开源端侧多模态模型MiniCPM-V 4.5发布

值得注意的是,MiniCPM-V 4.5提供了两种运行模式:常规模式和深度思考模式。这种灵活的设计使其在保证响应速度的同时,也能应对复杂的推理任务。

MiniCPM-V 4.5在多个权威评测中均达到SOTA水平,并且在显存占用和平均推理时间等关键指标上实现了显著优化。特别是在Video-MME测试中,采用3帧打包策略后,其时间开销仅为同类模型的十分之一。

这一创新性的处理方式使MiniCPM-V 4.5在覆盖短、中、长视频内容的评测体系中均表现出色。

如需进一步了解和使用该模型,可访问以下开源平台:

[提供具体的开源链接]

© 版权声明

相关文章