Apertus：瑞士首个开源大规模语言模型

294 0 0

Apertus是什么

Apertus是由瑞士联邦理工学院（EPFL）、苏黎世联邦理工学院（ETH Zurich）和瑞士国家超级计算中心（CSCS）联合开发的瑞士首个开放源代码大型语言模型。该模型提供70B和8B两种参数版本，采用解码器-only的Transformer架构，并引入了创新性的xIELU激活函数和AdEMAMix优化器。与传统的大规模语言模型不同，Apertus特别注重多语言支持，在其训练数据中40%为非英语内容，涵盖瑞士德语、罗曼什语等以往在大型语言模型中被忽视的 minority languages。作为完全开源项目，Apertus不仅公开了模型权重和训练细节，还允许用户在其自有服务器上运行模型，充分尊重并保障数据主权。

Apertus的主要功能

文本生成：根据用户提供的提示，生成连贯且相关的文本内容。
多语言支持：除了英语外，还支持包括瑞士德语、罗曼什语在内的多种语言，特别是对 minority languages的优异支持使其在多语言模型中独树一帜。
上下文理解：能够深入理解和处理复杂文本中的 context information，并生成高质量的回答和建议。
可定制化：用户可以根据具体需求对模型进行 fine-tuning，同时得益于开源特性，用户还可以完全掌控自己的数据和训练流程。
高效性能：基于创新的xIELU激活函数和AdEMAMix优化器，Apertus在保持高性能的同时降低了计算复杂度，为实际应用提供了更好的效率保障。

# AI工具