Meta推出WebSSL模型:探索无语言视觉学习新方向

AI资讯3天前发布 ainav
3 0

近日,科技媒体Marktechpost报道,Meta公司推出了一款名为WebSSL的新系列视觉模型。该模型基于纯图像数据训练,参数规模涵盖3亿至70亿,旨在深入探索无语言监督的视觉自监督学习(SSL)潜力。

目前,以OpenAI的CLIP为代表的多模态对比学习模型已成为视觉表征学习的事实标准,在视觉问答(VQA)和文档理解等任务中表现优异。然而,这类方法对语言数据的依赖也带来了诸多限制,特别是在大规模数据获取和模型训练方面面临瓶颈。

针对这些挑战,Meta团队在Hugging Face平台发布了WebSSL系列模型,整合了DINO和Vision Transformer(ViT)两种主流架构。该模型仅使用MetaCLIP数据集中的20亿张图像子集进行训练,完全摒弃语言监督的影响。

Meta推出WebSSL模型:探索无语言视觉学习新方向

WebSSL采用了两种视觉自监督学习策略:联合嵌入学习(DINOv2)和掩码建模(MAE)。所有模型统一采用224×224分辨率图像进行训练,并通过冻结视觉编码器来确保实验结果的可比性。

该系列模型在五个不同的容量层级(从ViT-1B到ViT-7B)上进行了全面训练,评估基于Cambrian-1基准测试,涵盖通用视觉理解、知识推理、OCR和图表解读等16个VQA任务。此外,所有模型均无缝集成至Hugging Face的transformers库中,方便研究者快速使用。

实验结果揭示了几个重要发现:随着参数规模的增加,WebSSL在无需语言监督的任务中的表现显著提升。值得注意的是,在OCR和图表分析等视觉任务中,WebSSL的表现甚至超过了现有的对比学习方法,包括CLIP和DINOv2。

参考文献

  • Scaling Language-Free Visual Representation Learning

  • Hugging Face

  • GitHub

© 版权声明

相关文章