Mistral AI发布的首个多模态人工智能模型——Pixtral 12B

AI工具2年前 (2025)发布 ainav

412 0 0

Pixtral 12B指的是什么？

Mistral，一家来自法国的AI初创企业，近期发布了其首个能够同时处理图像与文本的多模态人工智能模型——Pixtral 12B。该模型包含120亿个参数，并且整个框架大约为24GB，在此基础上它依托于Nemo 12B这一文本模型构建而成，具备解答关于任何尺寸和数量图片问题的能力。Pixtral 12B 能够胜任包括图像描述生成以及统计照片内物体数目在内的多种任务。用户可以根据Apache 2.0许可协议自由下载、调整此模型并加以利用。未来不久，在Mistral的聊天机器人平台Le Chat及API服务系统Le Plateforme上，将开放对Pixtral 12B进行测试的机会。

Pixtral 12B的核心特性

图片与文字的加工处理Pixtral 12B 具备同步解析图片及文字信息的能力，并能够准确理解并回答关于图片主题的相关问题。
多种形态互动该模型利用自然语言处理技术解析图像信息，允许用户上传照片或者提交图片网址，并能够就图片中的细节进行询问。
大规模参数配备有 120 亿个参数，该模型在应对复杂的任务时展现出更强的能力和更大的灵活度。
简约设计虽然包含大量参数，该模型的规模大约为 24GB，其紧凑的设计使得部署更为简便，并减少了能源消耗及对硬件配置的需求。
专用于视觉的编码器该模型内置了专门的视觉解码组件，能够应对最高达 1024×1024 像素图片的解析需求，适用于执行复杂的图像处理作业。
开放源代码及高度可配置性Pixtral 12B 在 Apache 2.0 开源许可下发布，允许使用者免费获取、调整及应用该模型以满足具体使用情境的需求。
高效率性能于各类标准评测如 MMMU、Mathvista、ChartQA 和 DocVQA 中均有优异表现，展现了其卓越的多模态理解能力。

Pixtral 12B的核心技术机制

多种形态的功能特性Pixtral 12B 拥有解析及操作图文信息的能力，并可对图片相关内容提出的问题进行深入解答。
配置与结构设计该模型配备有120亿个参数，并且其整体规模大约是24GB，这使得它具备了解决复杂问题的强大能力。它的架构包含40层，每层拥有14,336维的隐含空间和配置了32个注意力机制头。
图像编码器Pixtral 12B 搭载了一个专用的视觉编码组件，能够支持处理分辨率达到 1024×1024 的图片。
改进推论该模型通过采用 TensorRT-LLM 引擎来实现优化，从而增强了其推理效率。具体而言，它集成了动态批量处理、键值缓存以及量化的功能，并在 NVIDIA 图形处理器上实施了训后量化技术。

Pixtral 12B 的项目位置

官方网站URLException:maginative.com/post/introducing-mistral-ai-s-pixtral-12b
HuggingFace的模型集合库访问此链接以查看相关的模型信息：https://huggingface.co/mistral-community/pixtral-12b-240910