小红书hi lab开源的文本大模型

118 0 0

什么是dots.llm1?

dots.llm1是小红书hi lab团队开发的一款中等规模的Mixture of Experts（MoE）文本大模型。该模型拥有1420亿参数量和140亿激活参数，采用先进的Interleaved 1F1B流水并行技术和Grouped GEMM优化算法进行训练，在11.2T高质量token数据上完成了预训练。通过创新性的两阶段监督微调策略和精心设计的数据处理流程，dots.llm1在中英文文本生成、数学计算和代码推理等多个领域展现出色性能，其能力可与Qwen2.5-72B等顶尖模型相媲美。

主要功能

dots.llm1具备广泛的功能应用，能够满足多种场景需求：

多语言文本生成：支持中英文高质量内容创作，可应用于文案撰写、新闻报道、故事创作等需要创意和表达的领域。
复杂指令处理：能准确理解并执行复杂的任务指令，如数据整理、代码生成、信息提取等。
知识问答服务：提供精准的知识检索功能，帮助用户快速获取所需信息。
数学与编程推理：具备强大的数学计算能力和基本的编程逻辑推理能力，可辅助解决复杂问题和编写简单代码。
多轮对话支持：能够进行连贯的上下文对话，为用户提供自然流畅的交互体验。

技术原理

dots.llm1采用了先进的技术和优化策略：

MoE架构设计：模型基于解码器端到端Transformer结构，采用6in128专家配置。每个输入token最多激活6个专家模型（共128个），通过门控机制选择最相关的专家进行计算，在保证性能的同时显著提高计算效率。
高效训练方法：利用11.2T高质量token数据进行预训练，数据来源包括公共爬取和自有网络抓取，并经过严格的数据清洗流程。采用Interleaved 1F1B流水并行技术和Grouped GEMM优化算法，大幅提升了模型的训练效率。
创新性训练策略：通过两阶段监督微调策略，在保持模型通用能力的同时，进一步强化特定领域的表现。
优化的数据处理流程：针对不同应用场景设计了专门的数据处理模块，确保数据质量和多样性。