Pangea – 由卡内基梅隆大学开发并开放源代码的跨语言多种形态大型语义模型

AI工具2年前 (2025)发布 ainav

490 0 0

Pangea指的是什么？

Pangea是由卡内基梅隆大学的一个团队开发的多语言及跨多种媒介形式的大规模语言模型（LLM），旨在增强全球范围内各种文化和语言的包容性。该模型利用了一个包含600万条指令的数据集，支持多达39种不同的语言，并涵盖了高质量英文指令、机器翻译任务以及与文化相关的作业内容。Pangea的表现是通过一套名为PangeaABench的评估体系来衡量的，这套体系整合了14个数据源并涉及到了47种不同语言。研究结果显示，在跨文化和多语言应用中，Pangea相较于其他开源模型（比如Llava-1.5-7B和Llava-Next-7B）具有更强的能力。此外，研究表明英语数据的比例、特定语言的流行度以及在训练过程中使用的多媒体样本的数量都会显著影响到模型的表现效果。

Pangea的核心特性

多种语言兼容性サポート具备理解与创建39种各异语言文字的能力，在跨语言沟通及处理方面极为实用。
跨媒体解析除了文字处理能力之外，还能高效地解析和解读图片，在诸如图像叙述与视觉问答等方面展现出卓越的性能。
跨越文化的广泛涵盖范围在培训过程中加入涉及多种文化的多媒体任务，能够促进模型更深入地理解并融入各种不同的文化环境。
高品质指南遵守Pangea利用优质英文指令并在其基础上进行精细的机器翻译，以保证模型跨语言使用的精准与一致。

Pangea的运作机制

构造数据集合利用涵盖39种语言、包含600万个指令的多语种数据集Pangea作为基础。
自动化翻译为了应对多语种数据短缺的问题，采用机器翻译方法把高品质的英语指令转化为其它语言。
与文化相关的作业在培训过程中加入涉及文化的多种类型的任务，以增强模型对于不同文化的认知及适应能力。
评价工具包PangeaABench是一个评测工具包，它包含了14个不同的数据集，并支持对47种语言进行测试，旨在全方位地考察模型在跨语言及多媒体任务上的性能。
结构设计以LLaVA-Next架构为基础，采用Qwen2-7B-Instruct作为核心的语言模型，赋予该模型卓越的语言处理与创作技能。

Pangea的工程网址

官方网站URLExceptionURLException：访问Pangea项目，请前往GitHub上的neulab仓库页面。
Git代码库：在GitHub上的Pangea项目由neulab发起（访问地址为https://github.com/neulab/Pangea）。
HuggingFace的模型集合：在Hugging Face平台上，有一个由NeuLab整理的集合，你可以通过这个链接访问它——https://huggingface.co/collections/neulab/pangea-6713c3b0d78a453906eb2ed8。
arXiv科技文章在学术预印平台ArXiv上发布了一篇编号为2410.16153的论文，详细内容可访问此链接查看。
网上试用演示版访问此链接以查看神经语言实验室在Hugging Face上创建的Pangea空间：https://huggingface.co/spaces/neulab/Pangea