开源的多语言与多模态模型Maya —— 支持并解析八种不同的语言

AI工具3个月前发布 ainav
105 0

什么是Maya?

Maya是一款开源的多语言及多模态模型,通过指令微调来增强其在不同文化和语言环境中的应用能力。基于LLaVA架构开发的Maya集成了一个全新的预训练数据集,涵盖了八种不同的语言,旨在提升视觉与文本任务中对文化背景和语言的理解水平。为了保证训练数据的安全性和高质量标准,Maya采用了毒性分析方法并对原始数据进行了筛选过滤处理。它支持包括中文、法语、西班牙语、俄语、印地语、日语以及阿拉伯语文在内的多种主要语言,并特别注重提高在资源相对匮乏的语言中的AI内容生成能力。

Maya

Maya的核心特性

  • 多种语言兼容性支持Maya具备处理及理解八种不同语言的能力,涵盖了中文、法文、西班牙文、俄文、印地文、日文、阿拉伯文以及英文,并且提升了对稀缺资源语言的兼容性支持。
  • 多种形态的功能通过融合图片与文字信息,使机器能够借助自然语言处理技术来解析视觉场景,并完成诸如生成图片说明、回应关于画面内容的问题等功能。
  • 指令精细调整通过针对指令的精细调整,增强对自然语言指示的理解与回应能力,从而在具体应用场景中表现出更高的效能和灵活性。
  • 构建数据集合筛选有害内容构建包含多种语言的图文结合预训练数据库,并实施毒性内容检测与排除程序,以维护资料的安全性及高品质标准。
  • 跨越文化的认知利用多种语言及多媒体资料,更有效地解析与应对跨文化情境中的图文资讯。

关于玛雅的技术基础

  • 框架设计依托于LLaVA 1.5框架,采用Aya-23 8B模型担任多语种语言处理器,并以SigLIP为图像解析组件,实现对多种语言及多媒体输入的支持。
  • 预先构建的数据集合构建了一个囊括558,000幅图片的跨语种图文结合预训练数据库,涉及八种不同语言,旨在促进多功能视觉与文字融合模型的研发工作。
  • 毒理评估利用LLaVAGuard 7B及Toxic-BERT模型对数据集中图文内容实施毒性评估,以辨识并筛除潜在的危险与不当信息。
  • 预先训练和精细调整需要提供具体的内容来进行伪原创改写,请给出相应文本。
    • 预先训练通过运用投影矩阵W把图片特性转变为语言表示,并利用多次对话的数据实施初步训练,以改善视觉与文字之间的匹配效果。
    • 细致调整通过在包含15万条指令的PALO微调数据集上进行优化,进一步增强了模型理解和回应指令的能力。
  • 多模式对齐通过利用投影矩阵并采用特定的训练方法,改进了图像特性和文本特性的一致性,从而增强了模型在涉及视与文交互的任务中的性能。

Maya项目的网址

  • Git存储库:可在GitHub上找到由nahidalam维护的maya项目页面。
  • HuggingFace的模型集合访问此链接以查看 Maya 多模态模型:https://huggingface.co/maya-multimodal/maya
  • 关于arXiv上的科技文章该论文的详情可在如下链接中找到:https://arxiv.org/pdf/2412.07112,探索了相关领域的最新研究进展。

Maya的使用场合

  • 跨越语言的内容解读辅助用户解读多种语言下的图片信息,比如在多元文化语境中辨识并解析交通标志、广告牌及菜单等内容。
  • 对图片及影像的内容进行解析与评估在诸如安全监控与内容审查等范畴内,通过解析图像及视频来辨识并筛除不合适的内容。
  • 教学与求知过程向非本土语言的学习者提供多种语言的学习资源,并通过图文解析来提升他们的语言学习感受。
  • 旅行与指引辅助旅行者在各国辨识并翻译道路标识、地图及文化遗产地点等内容。
  • 网上购物在支持多种语言的电商平台中,协助顾客解读商品说明与图片,以增强其购物流程的满意度。
© 版权声明

相关文章