我国首个类脑脉冲大模型“瞬悉1.0”成功问世:基于国产GPU完成训练推理

AI资讯3天前发布 ainav
5 0

9月8日,中国科学院自动化研究所宣布,该所李国齐、徐波团队在原创内生复杂性理论研究的基础上,与沐曦MetaX展开深度合作,成功推出了类脑脉冲大模型“瞬悉1.0”(SpikingBrain-1.0)。该模型基于国产千卡GPU算力平台完成全流程训练和推理,实现了在超长序列处理上的效率和速度显著提升,为构建自主可控的新型非Transformer大模型架构生态提供了重要参考。

研究团队已开源了SpikingBrain-1.0-7B模型,并开放了SpikingBrain-1.0-76B测试网址。同时,他们还发布了经过工业界大规模验证的中英文技术报告,进一步推动类脑脉冲大模型的技术落地与应用。

目前主流的大模型大多基于Transformer架构,在通过增加网络规模、算力和数据量来提升智能水平的同时,其基本计算单元仍采用简单的点神经元模型。这种“外生复杂性”路径存在固有缺陷:训练时的开销随序列长度呈平方级增长,推理时显存占用也随序列长度线性增加,导致处理超长序列的能力受到严重限制。

针对这一问题,研发团队借鉴大脑神经元的内部复杂工作机制,提出了一种全新的“基于内生复杂性”的大模型架构方式。他们打造了类脑脉冲大模型“瞬悉1.0”(SpikingBrain-1.0),在理论上建立了脉冲神经元内生动力学与线性注意力模型之间的联系,并揭示现有线性注意力机制是树突计算的特殊简化形式,从而为提升模型复杂度和性能提供了一条全新的可行路径。

基于此,研发团队构建并开源了基于脉冲神经元、具有线性(SpikingBrain-1.0-7B)及混合线性复杂度(SpikingBrain-1.0-76B,激活参数量12B)的新型类脑基础模型。同时,他们还开发了面向国产GPU(沐曦MetaX曦云C550)集群的高效训练和推理框架、Triton算子库、模型并行策略以及集群通信原语,为大规模模型的应用奠定了坚实的基础。

SpikingBrain-1.0在多个核心性能指标上实现了显著突破:

  • 第一,在极低数据量下的高效训练:该模型在训练阶段展现了线性或近线性的复杂度,极大提升了长序列的训练效率。通过高效的转换训练范式,仅需约为主流大模型2%的预训练数据量,即可在多任务语言理解(MMLU)、中文多任务语言理解(CMMLU、Ceval)、常识推理能力(ARC、HS)等任务上实现与众多开源Transformer模型相媲美的性能。
  • 第二,在推理效率上的数量级提升:借助脉冲神经元的事件驱动特性,SpikingBrain在推理阶段实现了常数或部分层常数级别的复杂度和存储开销。具体而言,SpikingBrain-7B模型在100万Token长度下TTFT(生成第一个Token所需时间)相比Transformer架构提升了26.5倍,而在400万Token长度下则超过100倍。此外,在手机CPU端的64k-128k-256k长度下,其Decoding速度分别较Llama3.2同规模模型提升了4.04x、7.52x和15.39x,充分展现了在超长序列处理上的显著优势。
  • 第三,在国产自主可控类脑大模型生态构建方面:SpikingBrain实现了对国产GPU集群高效训练和推理框架、Triton算子库、模型并行策略以及集群通信原语的适配,标志着我国在非Transformer架构的大模型研发领域迈出了重要一步。
  • 第四,在动态阈值脉冲化多尺度稀疏机制上的创新:通过设计细粒度的两阶段动态阈值脉冲化策略,并结合粗粒度的混合专家模型(MoE)方案,7B规模的模型实现了超过69.15%的稀疏度,长序脉冲占比约1.85%,为低功耗类脑大模型的运行提供了有力的技术支撑。

中国科学院自动化研究所表示,这是我国首次提出大规模类脑线性基础模型架构,并在国产GPU算力集群上成功构建类脑脉冲大模型训练和推理框架。该模型解决了现有脉冲驱动限制下的大规模类脑模型性能退化问题,在法律/医学文档分析、复杂多智能体模拟、高能粒子物理实验、DNA序列分析、分子动力学轨迹等超长序列任务建模场景中展现出显著的效率优势。此次发布的大模型为新一代人工智能发展提供了非Transformer架构的新技术路线,同时也将启发更低功耗的下一代神经形态计算理论和芯片设计。

附SpikingBrain-1.0-7B开源地址:

https://github.com/BICLab/SpikingBrain-7B

试用网站:

https://controller-fold-injuries-thick.trycloudflare.com

© 版权声明

相关文章