Meta推出WebSSL模型：探索无语言视觉学习新方向

24 0 0

近日，科技媒体Marktechpost报道，Meta公司推出了一款名为WebSSL的新系列视觉模型。该模型基于纯图像数据训练，参数规模涵盖3亿至70亿，旨在深入探索无语言监督的视觉自监督学习（SSL）潜力。

目前，以OpenAI的CLIP为代表的多模态对比学习模型已成为视觉表征学习的事实标准，在视觉问答（VQA）和文档理解等任务中表现优异。然而，这类方法对语言数据的依赖也带来了诸多限制，特别是在大规模数据获取和模型训练方面面临瓶颈。

针对这些挑战，Meta团队在Hugging Face平台发布了WebSSL系列模型，整合了DINO和Vision Transformer（ViT）两种主流架构。该模型仅使用MetaCLIP数据集中的20亿张图像子集进行训练，完全摒弃语言监督的影响。

WebSSL采用了两种视觉自监督学习策略：联合嵌入学习（DINOv2）和掩码建模（MAE）。所有模型统一采用224×224分辨率图像进行训练，并通过冻结视觉编码器来确保实验结果的可比性。

该系列模型在五个不同的容量层级（从ViT-1B到ViT-7B）上进行了全面训练，评估基于Cambrian-1基准测试，涵盖通用视觉理解、知识推理、OCR和图表解读等16个VQA任务。此外，所有模型均无缝集成至Hugging Face的transformers库中，方便研究者快速使用。

实验结果揭示了几个重要发现：随着参数规模的增加，WebSSL在无需语言监督的任务中的表现显著提升。值得注意的是，在OCR和图表分析等视觉任务中，WebSSL的表现甚至超过了现有的对比学习方法，包括CLIP和DINOv2。

参考文献

文章版权归作者所有，未经允许请勿转载。

ainav

180 0

ainav

27 0

ainav

35 0

ainav

13 0

ainav

37 0

ainav

151 0