Grok-1 —— 由马斯克支持的xAI团队开发并开放源代码的大型模型,拥有3140亿个参数。

AI工具3个月前发布 ainav
254 0

Grok-1指的是什么

Grok-1 是马斯克领导的人工智能新兴企业 xAI 所研发的一款大型语言模型。作为一款混合专家(MoE)系统,它配置了 3140 亿个参数点,从而在开源大语言模型中占据参数规模之首的位置。该模型的开发和训练均秉承开放源代码的精神进行,并且其网络结构与权重已被公开分享,依据 Apache 2.0 许可协议操作,允许用户可以自由地利用、调整及传播此软件,适用于个人或商业目的。

Grok-1

访问Grok-1的官方门户

  • 官方文档阐述访问该网址以了解关于Grok OS的详细信息:https://x.ai/blog/grok-os
  • 代码仓库链接:访问该项目的GitHub页面可以使用这个链接 https://github.com/xai-org/grok-1
  • Hugging Face网站链接访问此链接以查看由xai-org组织创建的Grok-1模型: https://huggingface.co/xai-org/grok-1
  • 获取模型参数文件需要提供具体的内容来进行伪原创改写。没有给出具体内容的情况下,无法完成请求。如果有特定的段落或句子,请提供给我,然后我会按照要求对其进行改写。磁力链接:magnet:?xt=urn:btih:5f96d43576e3d386c9ba65b883210a393b68210e&tr=http%3A%2F%2Facademictorrents.com%2Fannounce.php&tr=udp%3A%2F%2Ftracker.coppersurfer.tk%3A6969&tr=udp%3A%2F%2Ftracker.opentrackr.org%3A1337%,其中包含了多个追踪服务器地址以确保下载的稳定性。

关于Grok-1模型的相关详情

依据xAI官网对模型的描述(https://x.ai/model-card/),关于Grok-1的具体信息整理如下:

任务 具体资料
模型的具体信息 Grok-1是一款利用Transformer架构的自回归模型,预先训练以执行下一个令牌预测任务。此模型经过了广泛的人工及早期版本Grok-0反馈微调优化。该系列的初始发行版支持8192个令牌上下文长度,并于2023年11月面世。
预计应用范围 Grok-1的设计目的是作为驱动Grok聊天机器人的核心引擎,适用于执行如问答互动、信息搜索、创造性文本创作及编程支持等自然语言处理相关的工作。
限制点 尽管Grok-1在处理信息方面表现出色,但其工作仍需经人类审查以保证准确无误。该语言模型自身不具备独立上网查找资料的功能。当部署Grok时,通过集成搜索工具和数据库来提升模型的效能与事实准确性。即便能够访问外部数据源,模型依旧可能生成不实的信息。
培训资料 Grok-1所发布的版本其训练资料来源于互联网及xAI人工智能培训团队在2023年前三个季度内所提供的信息。
评价 Grok-1已经在一系列推理标准任务和挑选出的国际数学考试题目上接受了评测。xAI已与初期alpha试用者互动,并对包含对抗性测试在内的Grok-1版本进行了评价。现在,xAI正通过Grok早期访问计划扩展我们的初步用户群体,以进行封闭式beta测试。

关于Grok-1的科技详情

  • 初始模型与培训过程Grok-1经过了大量的文本资料培训,并未专门调整以适应特定的任务需求,因此它作为一个多功能的语义理解工具,适用于各种自然语言相关的处理工作。其开发过程完全自主进行,利用了由JAX库和Rust编程语言构成的独特训练框架。
  • 数值参数量Grok-1配备了3140亿个参数,成为现有最大型的开放源代码语言模型。其在特定标记上激活的比例达到25%,这进一步体现了该模型的巨大规模及其复杂的架构。
  • 集成专家系统(IES)Grok-1运用了混合专家系统的架构设计,该方法通过集成多种专门网络来增强模型的工作效能与表现效果。在这个系统里,每一个令牌会随机挑选两个来自八个专家中的网络来进行数据处理。
  • 启动配置选项Grok-1拥有860亿个激活参数,这一数字甚至超过了Llama-2的70B参数量级,彰显了它在执行语言相关任务方面的强大潜力。
  • 集成与定位编码Grok-1采用旋转编码代替静态位置编码来增强其在处理较长文本时的表现力,这是一种改进序列数据管理的技术手段。该模型的分词器字典包含131,072个词条,与GPT-4相似,并且每个词条嵌入维度为6,144。
  • 变换器层级该架构内设64层Transformer结构,每层次集成了一个解码单元,此单元由一个多头注意力组件和一个稠密网络构成。其中,多头注意力机制配置了48个查询头部与8个键值(KV)头部,并且每个键值对的尺寸设定为128。此外,该稠密前向神经网络部分拥有一个扩展系数为8的结构设计,其隐藏层维度达到了32,768。
  • 测量数值化Grok-1还包含了部分权重的8位量化数据,这种做法能够有效降低模型所需的存储空间及计算资源,从而让其更适用于硬件条件受限的环境。
  • 执行需求鉴于Grok-1是一款大型模型(含314B参数),其运作需依赖具备充足GPU内存的设备。初步估算表明,这可能要求配备有628GB GPU内存的系统来支持运行(假设每参数占用2字节空间)。
© 版权声明

相关文章