京东开源的大语言模型JoyAI-LLM-Flash

170 0 0

JoyAI-LLM-Flash是什么

JoyAI-LLM-Flash是由京东公司开源的一款中型指令大语言模型，该模型采用了先进的混合专家（MoE）体系结构。与传统的大模型相比，它具有显著的性能优势：尽管总参数量达到了惊人的480亿个，但激活参数量仅需30亿个，有效降低了计算和资源消耗。此外，该模型支持处理最长128K Token的上下文窗口，使其能够应对长文档、长对话以及复杂的多轮交互任务。

在技术创新方面，JoyAI-LLM-Flash引入了全新的FiberPO优化框架，这是首次将纤维丛理论应用于强化学习领域，并结合高效的Muon优化器实现了SFT、DPO和RL等多种训练方法。同时，该模型采用了先进的稠密多Token预测（MTP）技术，相比传统版本，在吞吐量方面提升了1.3到1.7倍，显著提高了运行效率。

凭借20万亿Token的预训练数据积累，JoyAI-LLM-Flash在多个领域展现出了卓越的能力。它不仅擅长前沿知识的理解和复杂逻辑推理，还能高效完成代码生成和智能体交互等任务。这些特性使其成为端侧高效推理、企业级Agent开发以及长文本处理等场景的理想选择。