上海AI实验室ENEL —— 一款创新的无需编码器的三维大规模多模态模型

AI工具4周前发布 ainav
40 0

ENEL指的是什么?

ENEL(探索无编码器架构在3D大型多模态模型中的潜力)是一款创新性的不依赖于编码器的3D大型多模态系统,旨在克服传统带有编码器结构的方法在处理三维数据理解任务时遇到的问题。通过摒弃传统的3D编码步骤,ENEL能够直接将点云信息转换为离散化的点标签,并与文本标签结合后送入大规模语言模型(LLM)进行进一步的分析和学习。该模型采用两种核心策略来提升语义表达能力和几何形态的理解能力:首先是利用混合损失函数加强语义编码的方法,使LLM能够捕捉更深层次的含义;其次是采取层级化的空间聚合机制,帮助大型语言模型更加专注于点云数据中的细微局部特征。

ENEL 7B模型在多项3D任务中展现了卓越的能力,涵盖了从3D物体分类到生成3D对象描述及执行视觉问答(VQA)等多个领域。特别是在Objaverse基准测试中的表现尤为突出,其在字幕生成任务上的GPT分数达到了50.92%,而分类任务上则实现了55.0%的准确率;此外,在3D MM-Vet数据集进行的VQA挑战中也取得了42.7%的成绩。这些成绩与现有的13B模型,比如ShapeLLM的表现相匹敌。ENEL凭借其独特的无编码器架构,在捕捉点云和文本之间的语义关联方面尤为出色,展现了强大的语义编码能力。

ENEL

ENEL的核心作用

  • 不含编码器结构ENEL摒弃了传统的3D编码器设计,改为利用标签嵌入模块将点云数据转换为离散的点标签,并将其与文本标签合并后送入到大型语言模型(LLM)中处理。这种方法有效规避了传统编码器架构中存在的点云分辨率局限性和语义信息不匹配的问题。
  • 高级语义抽取ENEL采用了一种基于LLM嵌入的语义编码方法,在预训练过程中加入了混合语义损失(Hybrid Semantic Loss),这使得它能够在保持重要几何形态的同时,有效地捕捉到点云数据中的高层次语义信息。
  • 区域几何觉察于指令优化的过程中,ENEL运用了层级化的几何组合方案,促使大规模语言模型能够敏锐地捕捉到点云中的细微特征。借助整合与扩散机制,该方法使得局部空间数据得以嵌入至模型初始阶段中,从而增强其对复杂三维构造的精准解析能力。
  • 三维多重任务理解ENEL在多种三维任务中展现了卓越的能力,涵盖了三维物体识别、三维物体描述生成以及三维视觉问答(VQA)。其7B版本在Objaverse基准测试中的表现尤为突出,实现了55.0%的对象分类准确率和50.92%的描述生成GPT得分,这一成绩与ShapeLLM的13B模型相当。
  • 精准语义匹配借助无编码器的结构设计,ENEL在点云和文本模式间达成了高效的语义匹配,显著提升了二者间的关联度解析能力,并为此类3D多模态应用构建了更为坚实的语义支撑。

ENEL的工作机制

  • 在LLM中融入的语义表示(Semantic Representation Integrated in LLM)在进行预训练时,ENEL设计了混合语义损失(Hybrid Semantic Loss),该方法结合了多种点云自监督学习中的损耗类型,包括掩码建模、重建任务、对比性以及知识提炼的损失函数。此综合性的损失机制能够有效将高级别的语义数据嵌入到大规模语言模型中,从而实现了对传统三维编码器角色的有效取代。
  • 层级结构几何合并在调整指令的过程中,ENEL采用了分级几何聚类方法。该方法通过执行早期层中的汇聚与传播操作来融合归纳偏置到LLM中,使模型能够聚焦于点云的数据细节。具体实施时,利用最远点采样(FPS)和k近邻(k-NN)技术进行降采样及聚合处理,逐步集成点云的微观语义特征。

ENEL项目的所在地

  • GitHub代码库:在GitHub平台上可以找到Ivan Tang 3D的项目仓库,链接如下所示:https://github.com/Ivan-Tang-3D/ENEL
  • arXiv科技文章在学术论文数据库中可以找到这篇编号为2502.09620的研究文档。

ENEL技术的使用情境

  • 三维物体识别ENEL具备高效分类3D物件的能力,特别适合应用于工业自动化、机器人视觉及自动驾驶等行业,并且能够迅速辨识与归类复杂多样的3D物品。
  • 三维物体上的文字制作:此功能能够创建关于3D模型的文字说明,便于使用者迅速掌握3D环境里的主要细节。它广泛应用于虚拟现实(VR)、增强现实(AR)和各类3D设计软件之中。
  • 三维视觉问题解答(VQA)能够解答关于3D环境的相关疑问,在医疗图像解析、建筑规划及教学等多个行业里,协助使用者迅速提取出至关重要的三维资料信息。
  • 理解和解析复杂的三维几何形态该技术特别适合于要求对复杂的几何形态有精准把握的应用情境中,例如在航空航天工程、汽车生产以及珠宝创作等行业里使用,能够助力技术人员与创意人员更有效地解析及改良三维图形模型。
© 版权声明

相关文章