Ovis 1.6 – 阿里巴巴国际人工智能小组发布的多功能大型模型，性能超越封闭式GPT-4o-mini

AI工具2年前 (2025)发布 ainav

295 0 0

Ovis 1.6指的是哪个版本或产品？

阿里国际AI团队最新推出了名为Ovis1.6的多模态大模型，在OpenCompass这一权威性的综合评测基准中表现卓越，特别是在参数量不超过30亿的情况下，其综合评分位居榜首，并且领先于众多主流模型。该模型在数学推理和视觉理解等多个领域展现了出色的能力，并在某些测试中甚至超越了闭源的GPT-4o-mini。Ovis1.6具备处理文本与图像等多种数据输入的强大功能，能够胜任包括多模态任务、视觉感知推理、解决复杂的数学及科学问题以及日常生活场景的理解等多重挑战。

Ovis 1.6的核心特性

关于数学逻辑的提问与解答能够精确解答各类数学题目，涵盖繁复的数学方程式及逻辑推演。
目标检测：区分各类物品，比如花草种类，展现了其在图片辨识领域的技能。
内容抽取Ovis 1.6具备处理多语种文本抽取的能力，能够识别并从各类文档中抓取文字内容。
处理繁琐的决定任务执行复杂决策任务时，解析并整合各类数据源的信息，例如结合图像与文本开展深入剖析。
图片解析在图像解析任务中达到了业界领先水准，能够应对高分辨率及极度不规则比例的图片。

Ovis 1.6 的技术机制

新颖的结构规划Ovis1.6采用了一种结合了视觉tokenizer、可训练的视觉嵌入表以及大型语言模型的技术框架。其创新之处在于使用可以学习的视觉嵌入表，把连续性的视觉特征转化为概率分布形式的视觉token，并通过多次加权索引该嵌入表来生成结构化的视觉表示，从而增强在多模态任务中的性能表现。
高质量影像处理Ovis 1.6能够有效处理具有极高长宽比的图片，并且与超高分辨率的图像相兼容，这使得该模型在执行图像解析任务时表现出卓越性能。
全方位的数据提升与优化Ovis 1.6 在训练过程中采用了涵盖 Caption、VQA、OCR、Table 和 Chart 等多种类型的数据集，这种广泛的数据支持大幅增强了其在多模态问答和指令遵循等方面的能力。
出色的模型表现力于多模态全面评估平台OpenCompass之中，Ovis1.6-Gemma2-9B在所有不超过30亿参数量的模型里荣获综合评比榜首之位，充分体现了其卓越的技术表现力。

Ovis 1.6 的工程链接

Git代码库：可在GitHub上找到AIDC-AI团队的Ovis项目页面。
HuggingFace的模型集合访问此链接以查看AIDC-AI的Ovis1.6-Gemma2-9B模型：https://huggingface.co/AIDC-AI/Ovis1.6-Gemma2-9B
技术文章存档于arXiv平台：该论文可以在链接中找到：https://arxiv.org/pdf/2405.20797，提供了新的研究成果。请注意，由于您要求的是伪原创改写且保持原意不变但表达方式不同，并未提供具体文本内容，上述回答基于提供的信息进行了适当的改编。如需对特定段落或全文进行此类处理，请提供更多细节或具体内容。

Ovis 1.6的使用场合

教育与学习支持Ovis 1.6能够精准解答数学题目，并且具备辨识与解析数学公式的功能。作为一款教学辅助软件，它对于学生的知识掌握及对难懂概念的理解有着显著的促进作用。
农作物与植被辨识借助其物体辨识功能，Ovis 1.6能够区分多种植物种类，在农业科研及植被保护等多个领域发挥着关键作用。
文字转换与文档编辑具备多种语言的文字抽取与翻译功能，非常适合于跨国沟通、全球商业活动及多元文化内容制作。
图片的辨识与解析能够辨认手写文本与复杂的视觉元素，适合用于图片审查、安全保障监视以及艺术品评估。
自动驾驶技术通过融合视觉信息，提升自动驾驶汽车对周围环境的理解与判断力，从而加强驾驶的安全性。
医学判断协助医师开展医疗影像解析工作，增强疾病的检测精度与速度。