Apertus:瑞士首个开源大规模语言模型

AI工具3个月前发布 ainav
76 0

Apertus是什么

Apertus是由瑞士联邦理工学院(EPFL)、苏黎世联邦理工学院(ETH Zurich)和瑞士国家超级计算中心(CSCS)联合开发的瑞士首个开放源代码大型语言模型。该模型提供70B和8B两种参数版本,采用解码器-only的Transformer架构,并引入了创新性的xIELU激活函数和AdEMAMix优化器。与传统的大规模语言模型不同,Apertus特别注重多语言支持,在其训练数据中40%为非英语内容,涵盖瑞士德语、罗曼什语等以往在大型语言模型中被忽视的 minority languages。作为完全开源项目,Apertus不仅公开了模型权重和训练细节,还允许用户在其自有服务器上运行模型,充分尊重并保障数据主权。

Apertus:瑞士首个开源大规模语言模型

Apertus的主要功能

  • 文本生成:根据用户提供的提示,生成连贯且相关的文本内容。
  • 多语言支持:除了英语外,还支持包括瑞士德语、罗曼什语在内的多种语言,特别是对 minority languages的优异支持使其在多语言模型中独树一帜。
  • 上下文理解:能够深入理解和处理复杂文本中的 context information,并生成高质量的回答和建议。
  • 可定制化:用户可以根据具体需求对模型进行 fine-tuning,同时得益于开源特性,用户还可以完全掌控自己的数据和训练流程。
  • 高效性能:基于创新的xIELU激活函数和AdEMAMix优化器,Apertus在保持高性能的同时降低了计算复杂度,为实际应用提供了更好的效率保障。
© 版权声明

相关文章