Google DeepMind 发布的含1000亿规模视听说数据集合 WebLI-100B

133 0 0

WebLI-100B代表什么

Google DeepMind发布了WebLI-100B这一超大规模数据集，它包含了1,000亿个图像与文本配对样本，并专门用于视觉语言模型（VLMs）的预训练工作。作为WebLI系列的一部分，WebLI-100B通过互联网收集了大量的图片及其描述性标题或网页标题来构建该数据库。这个数据集比此前最大的同类数据集大了十倍，在支持模型理解长尾概念、文化多样性和多语言内容方面具有重要意义。在建立此数据集时，研究团队采取了一种较为宽松的数据筛选标准，以保持尽可能丰富的语种和文化的多样性。WebLI-100B的推出为创建更加包容性的多媒体模型提供了宝贵的资源基础。

WebLI-100B的核心特性

提供对大范围预训练的支持WebLI-100B包含了一千亿组图文配对的数据集，极大地丰富了视觉语言模型预训练的数据来源，并大幅提高了这些模型在各类任务中的表现能力。
增强文化的多元性涵盖多种文化背景的图片与文字，助力模型更精准地理解及创造涉及多元文化的视效与言语信息。
提升多种语言技能该数据集涵盖了多种语言的文字资料，有利于增强模型处理稀缺语料库语言的能力，并推动跨语言项目的研发与实践。
提供多种模式的任务支持WebLI-100B的数据应用于包括图像分类、图片描述生成和视觉问答在内的多种多模态任务中，为多模态模型的研发提供了强有力的支持。

WebLI-100B的运作机制

信息采集由于提供的内容为空，没有具体文本可供改写。如果您有具体的段落或句子需要进行伪原创的处理，请提供相关内容。这样我就能更好地帮助您完成需求了。
- 出处WebLI-100B的数据主要是从互联网上搜集而来，利用大型网络抓取技术获取图片和相关的文字说明（比如图片替代文本或是网页标题）。
- 大小该数据集合拥有1000亿幅图像与文字的配对信息，堪称现有规模最庞大的视效语义数据库之一。
信息筛选由于提供的内容为空，没有具体内容可以进行伪原创改写。如果您提供一段具体文字或信息，我很乐意帮您完成这项任务。
- 基础筛选为保证数据的多样性和质量，WebLI-100B只执行了基础的数据筛选步骤，比如删除具有危害性的图片及个人隐私信息（PII），以此来保持语言与文化的广泛多样性。
- 品质筛选（非必需）该研究亦考察了利用如CLIP之类的模型实施数据筛选的方法来提升数据品质，不过此类筛选有可能会削减特定文化群体的表现比例。
信息加工请提供需要改写的具体内容。没有给出具体文本的情况下，我无法完成您的请求。一旦提供了具体的段落或句子，我很乐意帮助您进行伪原创的改写工作。
- 文档操作采用图片的替代文字与网页标题形成对照文本，并利用多种语言的MT5 tokenizer来进行词汇分割工作，以维持文本资料的丰富性及统一标准。
- 图片编辑把图片的尺寸修改为224×224像素，以符合模型对输入的要求。