阶跃星辰新一代大模型 Step3 正式开源:兼具强大视觉感知与复杂推理能力

AI资讯1个月前发布 ainav
51 0

7月31日,阶跃星辰正式宣布其新一代基础大模型Step 3开源,并已上线API服务。开发者和企业可通过访问平台.stepfun.com或stepfun.com官网,以及下载“阶跃AI”App进行体验。

作为一款专注于效率与性能均衡的多模态大模型,Step 3在视觉处理方面采用了创新性的轻量化设计。通过5B Vision Encoder配合双层2D卷积降采样技术,将视觉token数量压缩至原来的1/16,显著降低了上下文处理的压力并提升了推理效率。

以下是Step 3的核心特性:

核心优势

  • 专为推理时代设计,兼顾极致性能与成本效益,满足企业级应用需求。

  • 采用先进的MoE架构,参数规模达到321B,激活参数量为38B。

  • 具备强大的跨领域知识理解能力,尤其在数学计算和视觉分析任务中表现突出。

技术创新亮点

Step 3在多个技术层面实现了重要突破:

1. 高效预训练架构

模型采用了创新的MFA(Multi-matrix Factorization Attention)机制,显著降低了注意力计算中的KV缓存开销。这一设计使得模型能够在8×48GB显卡配置下实现高效的高吞吐量推理。

2. 多模态协同优化

在视觉处理方面,Step 3通过5B Vision Encoder结合双层2D卷积降采样技术,大幅减少视觉token数量。同时,在训练过程中采用两阶段策略:第一阶段专注于Encoder感知能力的强化,第二阶段则冻结视觉编码器参数,仅优化主干网络和连接层。

在多模态训练语料的选择上,采用了Pair、Interleave等多种数据形式,并通过相似度过滤、重采样等技术提升图文协同质量。这些创新有效降低了训练过程中的梯度干扰问题。

3. AFD解耦系统

Step 3在系统架构层面实现了Attention与FFN模块的解耦,通过多级流水线并行调度显著提升了推理效率。同时配套开发了高性能通信库StepMesh,基于GPU Direct RDMA技术实现低延迟高带宽的数据传输。

测试数据显示,在Hopper GPU上实现了4039 token/gpu/s的吞吐量(50ms SLA),相比DeepSeek V3的2324 token/gpu/s性能提升了近一倍,特定场景下性能增益更可达到3倍。

StepMesh通信库已随模型一并开源,为跨硬件部署提供了标准接口,并将持续与各开源社区合作推动技术普及和应用落地。

© 版权声明

相关文章