TeleChat2-115B是什么
TeleChat2-115B是由中国电信人工智能研究院(TeleAI)研发的大型语言模型,属于星辰语义大模型系列。基于国产算力进行训练,采用10万亿Tokens的中英文高质量语料。与前代模型相比,TeleChat2-115B在通用问答、知识类、代码类和数学类任务上的性能显著提升。模型在多个评测榜单上取得优异成绩,如C-Eval评测Open Access模型综合榜单中排名第一。TeleChat2-115B的开源,标志着国产大模型训练技术的重要进步,有助于推动大模型技术的创新和产业应用。
TeleChat2-115B的主要功能
- 文本生成:能生成高质量的中英文文本。
- 多语言支持:支持中英文高质量语料的训练,处理两种语言的文本。
- 多格式多平台:提供多格式、多平台的权重文件,方便在不同环境下部署和使用。
- 高性能推理:支持单卡和多卡推理,以及长文推理优化。
- API和Web部署:提供API和Web部署方式,支持流式生成和多轮对话。
TeleChat2-115B的技术原理
- Decoder-only结构:用标准的Decoder-only结构设计,用于生成文本任务。
- Rotary Embedding:用Rotary Embedding的位置编码方法,有助于模型更好地捕捉序列数据中的相对位置信息。
- SwiGLU激活函数:用SwiGLU激活函数替代传统的GELU激活函数,提升模型的性能。
- RMSNorm的Pre-Normalization:基于RMSNorm的Pre-Normalization进行层标准化操作,有助于模型训练的稳定性。
- 词嵌入和输出层参数分开:将词嵌入层和输出层(lm head)参数分开,有助于增强训练稳定性和收敛性。
- GQA优化:选择GQA(Grouped Query Attention)节约attention部分的参数量和计算量,提升训练和推理速度。
TeleChat2-115B的项目地址
- GitHub仓库:https://github.com/Tele-AI/TeleChat2