12月31日最新消息显示,浪潮旗下YuanLab.ai团队于12月30日正式开源发布了源 Yuan 3.0 Flash 多模态大语言模型。
作为一款创新性的多模态基础大模型,Yuan 3.0 Flash 搭载了400亿参数规模,采用了先进的稀疏混合专家(MoE)架构。这一设计使得其在单次推理过程中仅需激活约37亿个参数,相比传统密集模型大幅降低了计算资源消耗。
该模型最显著的创新在于其独特的强化学习训练方法(RAPO)。通过引入反思抑制奖励机制(RIRM),Yuan 3.0 Flash能够有效减少无效的自我反思过程。这一优化不仅提升了推理的准确性,还显著降低了每轮对话所需的token数量,从而大幅降低算力成本。
具体而言,Yuan 3.0 Flash 的架构由三个核心组件构成:
-
在语言处理方面,模型采用了创新的局部过滤增强注意力结构(LFA)与混合专家(MoE)机制。这种设计不仅提高了注意力机制的精度,还大幅降低了训练和推理过程中的算力消耗。
-
在多模态处理方面,模型通过视觉编码器将图像信号转化为可处理的tokens,并与语言tokens共同输入到主干网络。借助先进的多模态对齐模块,系统能够实现跨模态特征的有效对齐,确保信息传递的高效性和稳定性。
-
此外,模型还引入了自适应图像分割机制。这一创新使得Yuan 3.0 Flash在支持高分辨率图像理解的同时,有效降低了显存占用和计算资源消耗。

在企业级应用场景中,Yuan 3.0 Flash 在多个关键任务上展现出色性能。特别是在ChatRAG(对话式检索)、Docmatix(多模态文档检索)、MMTab(多模态表格理解)以及SummEval(摘要生成)等基准测试中,其表现已经超越了GPT-5.1。
值得注意的是,在多模态推理与语言推理领域,Yuan 3.0 Flash(40B参数版本)的表现已经接近甚至部分指标超越了Qwen3-VL235B-A22B(235B参数)和DeepSeek-R1-0528(671B参数)等更庞大模型。但其token消耗仅为后者的四分之一到一半,这为企业用户大幅降低了运营成本。

值得强调的是,Yuan 3.0 Flash 实现了全面开源。所有系列模型的参数和完整代码均可免费下载使用,进一步推动了AI技术的普惠发展。
访问以下链接获取更多详细信息:https://github.com/Yuan-lab-LLM/Yuan3.0