阿里云发布的全新一代通义千问大模型 —— Qwen2

AI工具3个月前发布 ainav
179 0

Qwen2代表的是什么

Qwen2是阿里云通义千问团队发布的一款开源大语言模型新作,包括五个不同规模的版本,参数量从0.5亿到72亿不等。除了中文和英文外,该系列还引入了高质量的多语言数据支持(共计27种语言),显著增强了其在自然语言理解、编程辅助、数学问题解决以及跨语种处理方面的性能表现。Qwen2能够处理长达128K tokens的上下文信息,这不仅提升了模型的泛化能力,也扩展了它的应用场景。该系列已经在多个评测标准中展现出色成绩,并超越了Meta推出的Llama-3-70B版本,在Hugging Face和ModelScope平台上均可获取其开源代码及资源。

Qwen2

关于Qwen2的详细资料

软件的标识名 模型规模 (亿) 不包含嵌入层的参数数量 (B) 是否采用GQA 是否采用连接嵌入 文本的长短(以标记计)
Qwen2-半大小版本 0.49可以表示为四十九分之一百或者说是百分之四十九。 0.35可以表述为三十五分之一。 确然是 没错 32千字节
Qwen2-1.5亿参数版本 一点五四 一点三一 正是 没错 32千字节
Qwen2-7亿参数版本 七点零七 五点九八 没错 128千字节
Qwen2-57B-E18C 五十七点四十一 五十六点三二 正是 64千字节
Qwen2-72B指导版 72.71仍然是原始数值,由于这是一个具体的数字,并没有文字描述或语句环境,因此无法对其进行伪原创的改写。如果你有包含这个数字的具体句子或者段落需要进行伪原创改写,请提供详细内容。 七十点二一 确然是 128千字节
  • 模型的参数数量该模型的全部参数量,用B(即十亿)作为单位来表示。
  • 不包含嵌入层的参数数量排除词嵌入(Embedding)相关的参数量。
  • 是否采用GQA该模型是否应用了广义查询解答(GQA)技术。
  • 是否采用绑定嵌入该模型是否采用了输入与输出层共用参数的技巧。
  • 文本的长度范围该模型能处理的最长上下文长度,用tokens数量来衡量。

访问Qwen2的官方门户

  • 官方博客说明:访问链接以了解详情 https://qwenlm.github.io/zh/blog/qwen2/
  • 代码仓库位置:https://github.com/QwenLM/Qwen2
  • 访问Qwen的Hugging Face页面:https://huggingface.co/Qwen
  • Qwen组织在ModelScope的页面:https://modelscope.cn/organization/qwen
  • Hugging Face的在线演示链接如下所示:https://huggingface.co/spaces/Qwen/Qwen2-72B-Instruct

对Qwen2模型的评估分析

  • Qwen2系列产品在各类评估标准中均有优异表现,尤其体现在Qwen2-72B型号上的显著性能增强。
  • 在处理自然语言理解、知识应用、编程代码分析、数学运算及多种语言支持等多方面能力时,Qwen2-72B明显优于现有的顶级模型,例如Llama-3-70B和Qwen1.5的110B版本。
  • 于16项标准评估中,Qwen2-72B-Instruct不仅在基本性能和契合人本价值方面取得均衡发展,而且其表现超越了前代Qwen1.5的72B版本,并与Llama-3-70B-Instruct处于同一水平。

Qwen2的性能

Qwen2的核心优势

  • 编程语言与数学知识Qwen2的代码编写与数学解题技能有了明显的增强,它吸收了CodeQwen1.5的知识精髓,在处理各种编程语言时表现更优。借助海量优质的数据资源,其在解决数学问题上的能力得到了质的突破。
    Qwen2的代码数学能力
  • 大规模文本管理Qwen2系列的指令模型是在32k的上下文范围内进行训练的,并借助YARN等技术进一步拓展到更长的文本序列,使得Qwen2-72B-Instruct能够高效地完成长达128k上下文范围内的信息抽取任务。
  • 安全性能于多语种非安全查询的分类里,Qwen2-72B-Instruct的安全性表现与GPT-4持平,并大幅超越了Mistral-8x22B,有效降低了产生不利回应的概率。
  • 掌握多种语言的能力Qwen2于多项语言评估测试中展现出色性能,提升了对27种不同语言的支持水平,并改善了语种切换的问题,减少了在变换语种时出现错误的可能性。
© 版权声明

相关文章