近日,科技媒体Marktechpost报道,Meta公司推出了一款名为WebSSL的新系列视觉模型。该模型基于纯图像数据训练,参数规模涵盖3亿至70亿,旨在深入探索无语言监督的视觉自监督学习(SSL)潜力。
目前,以OpenAI的CLIP为代表的多模态对比学习模型已成为视觉表征学习的事实标准,在视觉问答(VQA)和文档理解等任务中表现优异。然而,这类方法对语言数据的依赖也带来了诸多限制,特别是在大规模数据获取和模型训练方面面临瓶颈。
针对这些挑战,Meta团队在Hugging Face平台发布了WebSSL系列模型,整合了DINO和Vision Transformer(ViT)两种主流架构。该模型仅使用MetaCLIP数据集中的20亿张图像子集进行训练,完全摒弃语言监督的影响。
WebSSL采用了两种视觉自监督学习策略:联合嵌入学习(DINOv2)和掩码建模(MAE)。所有模型统一采用224×224分辨率图像进行训练,并通过冻结视觉编码器来确保实验结果的可比性。
该系列模型在五个不同的容量层级(从ViT-1B到ViT-7B)上进行了全面训练,评估基于Cambrian-1基准测试,涵盖通用视觉理解、知识推理、OCR和图表解读等16个VQA任务。此外,所有模型均无缝集成至Hugging Face的transformers库中,方便研究者快速使用。
实验结果揭示了几个重要发现:随着参数规模的增加,WebSSL在无需语言监督的任务中的表现显著提升。值得注意的是,在OCR和图表分析等视觉任务中,WebSSL的表现甚至超过了现有的对比学习方法,包括CLIP和DINOv2。
参考文献
-
Scaling Language-Free Visual Representation Learning
-
Hugging Face
-
GitHub