ByteMultimodal – 字节跳动开发的多功能大模型

AI工具2年前 (2025)发布 ainav

440 0 0

Valley指的是什么？

ByteDance推出了名为Valley的多模态大模型，旨在应对涵盖文本、图像及视频数据的各种任务挑战。此模型在公司内部的电商和短视频基准测试中表现优异，并且在OpenCompass评估中表现出色，在不超过10B参数规模的大模型里排名第二。特别地，Valley-Eagle版本通过集成VisionEncoder技术提升了极端情况下的处理能力，实现了令牌数量的灵活调节及与原始视觉数据并行处理的能力。

Valley的核心作用

多种形态的理解能力能够应对文本、图片及视频信息，并实现对多种类型数据的深刻解析。
作业执行能够处理包含多类型数据的多项任务，例如对图像及视频进行说明与解析等内容。
提升效能在公司内部的评估测试及OpenCompass评测中表现卓越，尤其是在电商与短视频行业中的性能尤为突出。
模型的可拓展性通过集成VisionEncoder，Valley能够自如地调节令牌的数量，从而提升其在极限情况下的表现能力。

山谷的技术机制

BigMLP与卷积适配器通过融合LargeMLP（大规模多层感知机）与ConvAdapter（卷积适应器）来创建投影组件，能够提升模型处理视觉信息的效果。
视觉编码器在Valley-Eagle版本中加入了名为VisionEncoder的新编码器模块，该模块能够同时处理视觉标记，并支持根据具体需要调节标记的数量以满足多样化的应用要求。
同步执行：通过平行处理原始视觉标记，提升模型在管理大规模视觉信息过程中的效能和质量。
模型校准Valley在设计时借鉴了如Siglip和Qwen2.5等其它模型的优秀特性，进行了相应的调校，以保证其性能与兼容性的卓越表现。