Step3-VL-10B开源多模态模型：高性能

AI资讯6个月前发布 ainav

144 0 0

1月20日讯息，今日，阶跃星辰宣布推出开源多模态模型Step3-VL-10B。该模型仅以100亿参数量，在视觉感知、逻辑推理、数学竞赛及通用对话等多个基准测试中均达到了同规模最优水平（SOTA）。

以下是官方介绍原文：

性能远超20倍大模型，阶跃星辰多模态”小核心”Step3-VL-10B正式开源！

Step3-VL-10B以其卓越的性能和创新的设计，重新定义了小模型的潜力。它不仅在各项基准测试中超越了规模更大的模型，在实际应用场景中的表现同样令人瞩目。

技术亮点解析

Step3-VL-10B的三大核心技术优势：

全参数端到端多模态联合预训练：采用创新的预训练方法，直接在1.2T高质量多模态数据集上进行全参数联合训练。这种”端到端”式训练方式实现了视觉特征与语言逻辑在底层语义空间的深度对齐。
大规模多模态强化学习（RL）演进：通过引入强化学习，历经1400次以上的迭代优化，显著提升了模型在视觉识别、数理逻辑推理及通用对话等维度的能力。
并行协调推理机制（PaCoRe）：创新性地引入了PaCoRe机制，在推理阶段实现动态算力扩展。通过并行探索多个感知假设并进行多维证据聚合，显著提升了模型在竞赛级数学、复杂OCR识别等场景中的准确度。

这三大技术突破使Step3-VL-10B验证了智能水平并不完全依赖于参数规模。通过更高质量、更有针对性的数据构建，以及系统化的后训练与强化学习策略，10亿级模型同样能够在多项基准测试中挑战甚至超越10–20倍体量的模型。

这预示着：世界一流的多模态能力有望以更低的成本和更少的算力获得；同时，超级智能将逐步向端侧下沉，推动终端设备实现”主动理解与可执行交互”，从而彻底改变人机交互体验。

目前，Step3-VL-10B（包括Base模型和Thinking模型）已全面开源。我们期待与开源社区共同探索，通过微调我们的模型，共同推动小模型实现智能跃迁！

欢迎加入讨论，让我们一起见证人工智能发展的新纪元。