行业首个8B参数开源端侧多模态模型MiniCPM-V 4.5发布

139 0 0

8月27日，面壁智能宣布开源旗下最新多模态模型——MiniCPM-V 4.5，这是一款具有8B参数的旗舰级产品。该模型在高刷新率视频理解领域实现了行业突破，标志着多模态技术应用进入新阶段。

据官方介绍，MiniCPM-V 4.5在多个核心指标上达到SOTA（最优）水平。其视频理解、OCR处理和文档解析能力均处于领先地位，并且在性能测试中超越了Qwen2.5-VL 72B模型，被誉为“最强端侧多模态解决方案”。

传统多模态模型在视频处理上通常采用每秒1帧的抽帧方式，这种方式虽然降低了计算开销，但也严重限制了对动态内容的理解能力。面壁智能通过创新性地将2D重采样结构升级为3D重采样（3D-Resampler），实现了视频片段的高密度压缩处理。

MiniCPM-V 4.5在视频理解领域实现了革命性突破。通过优化模型结构，其单个视觉Token可处理6倍于传统模型的帧数，压缩效率提升至96倍，相比同类产品提升了12-24倍。

这种技术创新使MiniCPM-V 4.5能够以更高的抽帧频率捕捉动态画面细节。在面对快速变化的视频内容时，该模型展现出了超越Gemini-2.5-Pro、GPT-5和GPT-4o等主流云端模型的能力。

在权威评测榜单中，MiniCPM-V 4.5不仅达到了同尺寸模型的最优水平（SOTA），还成功超越了Qwen2.5-VL 72B这一更庞大参数量的模型，展现了越级领先的性能。

作为一款轻量化模型，MiniCPM-V 4.5在图片理解、视频分析和复杂文档处理等多模态任务中均刷新了现有记录。其卓越的性能表现证明了“小而强大”的技术理念。

在图片理解领域，MiniCPM-V 4.5同样表现优异。它不仅击败了GPT-4o、GPT-4.1和Gemini-2.0-Pro等闭源模型，还在与72B参数的Qwen2.5-VL对比中占据上风。

针对视频理解任务，MiniCPM-V 4.5在LVBench、MLVU、Video-MME和LongVideoBench等多个基准测试中均取得了最佳成绩。其高效处理能力尤其体现在长视频解析场景。

在复杂文档处理方面，MiniCPM-V 4.5在OmniDocBench评测中的三项核心指标（OverallEdit、TextEdit和TableEdit）均达到了通用多模态模型的最优水平。

值得注意的是，MiniCPM-V 4.5提供了两种运行模式：常规模式和深度思考模式。这种灵活的设计使其在保证响应速度的同时，也能应对复杂的推理任务。

MiniCPM-V 4.5在多个权威评测中均达到SOTA水平，并且在显存占用和平均推理时间等关键指标上实现了显著优化。特别是在Video-MME测试中，采用3帧打包策略后，其时间开销仅为同类模型的十分之一。

这一创新性的处理方式使MiniCPM-V 4.5在覆盖短、中、长视频内容的评测体系中均表现出色。

如需进一步了解和使用该模型，可访问以下开源平台：

[提供具体的开源链接]

文章版权归作者所有，未经允许请勿转载。

ainav

214 0

ainav

218 0

ainav

193 0

ainav

213 0

ainav

147 0

ainav

193 0