阿里推出医疗多模态语言模型Lingshu

AI工具2天前发布 ainav
9 0

什么是Lingshu?

Lingshu是由阿里巴巴达摩院开发的专业医学领域多模态大语言模型。该模型支持超过12种医学影像模态数据处理,包括X光、CT扫描和MRI等,在多模态问答、文本问答及医疗报告自动生成等方面表现优异。Lingshu采用多阶段训练策略,逐步融入专业知识,显著提升了在复杂医学场景下的推理与问题解决能力。目前提供7B和32B两种参数规模版本,其中32B版本在多个专业评测中超越了GPT-4.1等同类模型。此外,项目还推出了MedEvalKit评估框架,为医学AI模型的标准化评估提供了完整的解决方案。

阿里推出医疗多模态语言模型Lingshu

Lingshu的核心功能

作为一款专注于医学领域的AI模型,Lingshu提供了丰富的功能:

  • 多模态医学问答:能够处理多种医学影像数据的视觉问答任务。系统可以根据提供的医学图像和相关问题生成准确的答案。
  • 医学报告自动生成:可以生成高质量的放射科报告,根据输入的医学影像生成详细的”发现”与”印象”部分,为临床医生提供重要参考信息。
  • 专业知识问答:能够回答各种文本形式的医学问题,涵盖广泛的医学知识领域,满足医学研究人员和临床医生的信息需求。
  • 推理与诊断支持:具备强大的医学逻辑推理能力,可以根据输入的图像和文本信息提供专业的诊断建议。
  • 影像理解与标注:能够识别和标注医学影像中的关键特征,包括病变位置、类型和严重程度,并生成详细的描述说明,帮助医生更直观地理解影像内容。

Lingshu的技术实现

Lingshu采用了创新的架构设计和训练方法:

  • 数据准备阶段
    • 数据采集:从多渠道收集医学影像数据、文本资料和通用领域信息。
    • 质量控制:通过图像过滤、去重等技术确保数据准确性,并对文本内容进行清理。
    • 数据增强:生成高质量的标题、视觉问答样本和推理示例,丰富训练素材库。
  • 模型架构设计:基于Qwen2.5-VL基础架构,包含三个核心组件:
    • 大型语言模型(LLM)负责处理文本输入并生成输出内容;
    • 视觉编码器用于提取医学影像的特征信息;
    • 投影器将视觉特征映射到语言模型的表达空间。
  • 多阶段训练策略
    • 初步对齐:使用少量医学图像文本对进行微调,建立基础的医学影像描述能力。
    • 深度优化:引入更大规模、更高质量的标注数据,提升模型的专业性。
    • 指令优化:通过大规模专业指令集训练,增强任务执行能力。
    • 强化学习:采用强化学习与验证奖励机制(RLVR),显著提升了医学推理水平。
  • 评估体系:推出了MedEvalKit评估框架,整合了多项专业评测指标,支持多种问题类型,包括选择题、封闭式问题和开放式问答等。该框架还提供了标准化的数据处理流程和接口规范,方便快速部署和测试。

项目资源链接

  • 官方网站:https://alibaba-damo-academy.github.io/lingshu/
  • HuggingFace平台:https://huggingface.co/collections/lingshu-medical-mllm/lingshu-mllms-6847974ca5b5df750f017dad
  • 技术论文:https://arxiv.org/pdf/2506.07044

Lingshu的应用领域

凭借强大的功能,Lingshu在多个医学场景中展现出广泛的应用潜力:

  • 疾病诊断:能够分析多种医学影像数据,识别异常病变并提供诊断建议。
  • 医疗报告生成:自动生成放射科和病理学报告,提高工作效率和准确性。
  • 知识查询:为医学研究者和临床医生提供准确的专业信息支持。
  • 医学研究:协助处理海量医学数据,推动学术创新。
  • 公共卫生:在流行病学研究等领域发挥作用,助力公共健康事业。
© 版权声明

相关文章