京东开源的大语言模型JoyAI-LLM-Flash

AI工具3个月前发布 ainav
110 0

JoyAI-LLM-Flash是什么

JoyAI-LLM-Flash是由京东公司开源的一款中型指令大语言模型,该模型采用了先进的混合专家(MoE)体系结构。与传统的大模型相比,它具有显著的性能优势:尽管总参数量达到了惊人的480亿个,但激活参数量仅需30亿个,有效降低了计算和资源消耗。此外,该模型支持处理最长128K Token的上下文窗口,使其能够应对长文档、长对话以及复杂的多轮交互任务。

在技术创新方面,JoyAI-LLM-Flash引入了全新的FiberPO优化框架,这是首次将纤维丛理论应用于强化学习领域,并结合高效的Muon优化器实现了SFT、DPO和RL等多种训练方法。同时,该模型采用了先进的稠密多Token预测(MTP)技术,相比传统版本,在吞吐量方面提升了1.3到1.7倍,显著提高了运行效率。

凭借20万亿Token的预训练数据积累,JoyAI-LLM-Flash在多个领域展现出了卓越的能力。它不仅擅长前沿知识的理解和复杂逻辑推理,还能高效完成代码生成和智能体交互等任务。这些特性使其成为端侧高效推理、企业级Agent开发以及长文本处理等场景的理想选择。

京东开源的大语言模型JoyAI-LLM-Flash

JoyAI-LLM-Flash的主要功能

  • 超长上下文处理能力:支持长达128K Token的上下文窗口,能够轻松应对复杂场景下的多轮对话和长文本处理需求。
  • 高效的模型架构:通过创新性的MTP技术显著提升了吞吐量,使模型在保持高性能的同时具备更高的运行效率。
  • 强大的预训练基础:基于20万亿Token的海量数据进行预训练,确保了模型在多个领域任务中的出色表现。
  • 多场景应用支持:适用于端侧推理、企业级智能体开发以及长文本处理等多种应用场景,展现出极高的灵活性和适应性。
© 版权声明

相关文章