1月20日讯息,今日,阶跃星辰宣布推出开源多模态模型Step3-VL-10B。该模型仅以100亿参数量,在视觉感知、逻辑推理、数学竞赛及通用对话等多个基准测试中均达到了同规模最优水平(SOTA)。
以下是官方介绍原文:
性能远超20倍大模型,阶跃星辰多模态”小核心”Step3-VL-10B正式开源!

Step3-VL-10B以其卓越的性能和创新的设计,重新定义了小模型的潜力。它不仅在各项基准测试中超越了规模更大的模型,在实际应用场景中的表现同样令人瞩目。
技术亮点解析
Step3-VL-10B的三大核心技术优势:
- 全参数端到端多模态联合预训练:采用创新的预训练方法,直接在1.2T高质量多模态数据集上进行全参数联合训练。这种”端到端”式训练方式实现了视觉特征与语言逻辑在底层语义空间的深度对齐。
- 大规模多模态强化学习(RL)演进:通过引入强化学习,历经1400次以上的迭代优化,显著提升了模型在视觉识别、数理逻辑推理及通用对话等维度的能力。
- 并行协调推理机制(PaCoRe):创新性地引入了PaCoRe机制,在推理阶段实现动态算力扩展。通过并行探索多个感知假设并进行多维证据聚合,显著提升了模型在竞赛级数学、复杂OCR识别等场景中的准确度。
这三大技术突破使Step3-VL-10B验证了智能水平并不完全依赖于参数规模。通过更高质量、更有针对性的数据构建,以及系统化的后训练与强化学习策略,10亿级模型同样能够在多项基准测试中挑战甚至超越10–20倍体量的模型。
这预示着:世界一流的多模态能力有望以更低的成本和更少的算力获得;同时,超级智能将逐步向端侧下沉,推动终端设备实现”主动理解与可执行交互”,从而彻底改变人机交互体验。
目前,Step3-VL-10B(包括Base模型和Thinking模型)已全面开源。我们期待与开源社区共同探索,通过微调我们的模型,共同推动小模型实现智能跃迁!
欢迎加入讨论,让我们一起见证人工智能发展的新纪元。
© 版权声明
文章版权归作者所有,未经允许请勿转载。