Magma —— 由微软研究院携手华盛顿等多个高等学府开发的多模态人工智能基础模型

AI工具4周前发布 ainav
53 0

什么是岩浆?

微软研究院新近开发了一款名为 Magma 的多功能多模态AI基础模型,旨在为各类多模态人工智能代理提供广泛的通用能力支持。该模型能够处理并执行涉及数字与物理环境的复杂多模态输入任务。Magma 经过大规模视觉-语言数据和动作数据的预训练过程,融合了语言理解、空间认知及时序推理等智能维度,从而具备从用户界面导航到机器人操作等多种复杂应用场景的能力。实验结果显示,在零样本学习及微调设置中,Magma 的表现均超越现有专用模型,在多模态理解和机器人操控任务上尤为突出。

Magma

Magma的核心作用

  • 跨媒体解析能够应对包括图像、视频及文本在内的多种数据类型,解析它们的含义以及空间与时间上的特性。涵盖的任务范围可从小巧的图像辨识扩展至深奥的视频内容分析。
  • 行动方案的设计与实施把复杂的工作拆解成一连串具体的行动步骤。涵盖了从用户界面导航(例如,在网页或手机应用程序上的操作)到实际环境中机器人的活动(比如拾起物品、放下物品和搬动物品)。
  • 适应环境能力在无需额外训练的场景下,能够灵活应对各种后续应用任务,涵盖用户界面导航、机器操控及多元信息融合解析等领域。

Magma的核心技术机制

  • 预先构建的模型框架采用类似ConvNeXt的卷积神经网络担当视觉解码任务,以解析图片及视频资料。随后,把转化得到的视觉数据同文本标签一并送入预训练的语言模型中,用以输出行为步骤说明或是图像描述性文字。
  • 集合标记(SetMark 或 SM)在图片里标识出可以交互的元素(比如 GUI 内的按键或是机器人臂的操作目标点),通过预判这些标识的具体方位来辅助系统理解并实现具体行动。
  • 痕迹之标记(TrM)在视频中标识出物体的动作路线(例如机器臂的操作路径),通过预估未来的移动方向,辅助模型解析和编排动作流程,提升对时间动态变化的认知水平。
  • 多种类型的数据整合该预训练资料涵盖图片、影片、机械臂操控信息及多元模式解析作业的信息。利用SoM和ToM技术,实现各类数据在单一预训练架构内的整合,从而增强模型的普遍适用性和环境适应能力。
  • 无样本应用与精调功能经过预训练的模型具备处理未曾接触过的任务的能力(即零样本学习),显示出卓越的泛化效果。当利用有限的数据对其进行微调时,该模型能够更好地满足具体应用的要求,并且显著提高其表现水平。

Magma项目的仓库位置

  • 官方网站ของโครงการ您可访问Magma的官方GitHub页面以获取更多信息:https://github.com/microsoft/Magma
  • Git代码库:可在 GitHub 上找到的微软项目 Magma 的仓库地址是 https://github.com/microsoft/Magma
  • 关于arXiv的技术文章您可以在如下链接中找到相关的学术论文:https://arxiv.org/abs/2502.13130,不过请注意,直接访问PDF可能需要在官方网站上先查看摘要页面。

Magma的使用情境

  • 网站与手机应用程序的使用��作实现搜索的自动化、应用程序的自动安装以及表单的自动填充等功能。
  • 自动化操控系统操纵机器人执行抓取物品、摆放及移动物件等作业。
  • 视像解析对视频中的信息进行剖析,并据此作答有关提问。
  • 人工智能助理担任虚拟助手的角色,旨在解读用户指示并执行相应的互动工作。
  • 教育培训:支持教学活动,给予操作指引及反馈信息。
© 版权声明

相关文章