阿里推出医疗多模态语言模型Lingshu

AI工具1年前 (2025)发布 ainav

494 0 0

什么是Lingshu?

Lingshu是由阿里巴巴达摩院开发的专业医学领域多模态大语言模型。该模型支持超过12种医学影像模态数据处理，包括X光、CT扫描和MRI等，在多模态问答、文本问答及医疗报告自动生成等方面表现优异。Lingshu采用多阶段训练策略，逐步融入专业知识，显著提升了在复杂医学场景下的推理与问题解决能力。目前提供7B和32B两种参数规模版本，其中32B版本在多个专业评测中超越了GPT-4.1等同类模型。此外，项目还推出了MedEvalKit评估框架，为医学AI模型的标准化评估提供了完整的解决方案。

Lingshu的核心功能

作为一款专注于医学领域的AI模型，Lingshu提供了丰富的功能：

多模态医学问答：能够处理多种医学影像数据的视觉问答任务。系统可以根据提供的医学图像和相关问题生成准确的答案。
医学报告自动生成：可以生成高质量的放射科报告，根据输入的医学影像生成详细的”发现”与”印象”部分，为临床医生提供重要参考信息。
专业知识问答：能够回答各种文本形式的医学问题，涵盖广泛的医学知识领域，满足医学研究人员和临床医生的信息需求。
推理与诊断支持：具备强大的医学逻辑推理能力，可以根据输入的图像和文本信息提供专业的诊断建议。
影像理解与标注：能够识别和标注医学影像中的关键特征，包括病变位置、类型和严重程度，并生成详细的描述说明，帮助医生更直观地理解影像内容。

Lingshu的技术实现

Lingshu采用了创新的架构设计和训练方法：

数据准备阶段：
- 数据采集：从多渠道收集医学影像数据、文本资料和通用领域信息。
- 质量控制：通过图像过滤、去重等技术确保数据准确性，并对文本内容进行清理。
- 数据增强：生成高质量的标题、视觉问答样本和推理示例，丰富训练素材库。
模型架构设计：基于Qwen2.5-VL基础架构，包含三个核心组件：
- 大型语言模型（LLM）负责处理文本输入并生成输出内容；
- 视觉编码器用于提取医学影像的特征信息；
- 投影器将视觉特征映射到语言模型的表达空间。
多阶段训练策略：
- 初步对齐：使用少量医学图像文本对进行微调，建立基础的医学影像描述能力。
- 深度优化：引入更大规模、更高质量的标注数据，提升模型的专业性。
- 指令优化：通过大规模专业指令集训练，增强任务执行能力。
- 强化学习：采用强化学习与验证奖励机制（RLVR），显著提升了医学推理水平。
评估体系：推出了MedEvalKit评估框架，整合了多项专业评测指标，支持多种问题类型，包括选择题、封闭式问题和开放式问答等。该框架还提供了标准化的数据处理流程和接口规范，方便快速部署和测试。

项目资源链接

官方网站：https://alibaba-damo-academy.github.io/lingshu/
HuggingFace平台：https://huggingface.co/collections/lingshu-medical-mllm/lingshu-mllms-6847974ca5b5df750f017dad
技术论文：https://arxiv.org/pdf/2506.07044