什么是Lingshu?
Lingshu是由阿里巴巴达摩院开发的专业医学领域多模态大语言模型。该模型支持超过12种医学影像模态数据处理,包括X光、CT扫描和MRI等,在多模态问答、文本问答及医疗报告自动生成等方面表现优异。Lingshu采用多阶段训练策略,逐步融入专业知识,显著提升了在复杂医学场景下的推理与问题解决能力。目前提供7B和32B两种参数规模版本,其中32B版本在多个专业评测中超越了GPT-4.1等同类模型。此外,项目还推出了MedEvalKit评估框架,为医学AI模型的标准化评估提供了完整的解决方案。

Lingshu的核心功能
作为一款专注于医学领域的AI模型,Lingshu提供了丰富的功能:
- 多模态医学问答:能够处理多种医学影像数据的视觉问答任务。系统可以根据提供的医学图像和相关问题生成准确的答案。
- 医学报告自动生成:可以生成高质量的放射科报告,根据输入的医学影像生成详细的”发现”与”印象”部分,为临床医生提供重要参考信息。
- 专业知识问答:能够回答各种文本形式的医学问题,涵盖广泛的医学知识领域,满足医学研究人员和临床医生的信息需求。
- 推理与诊断支持:具备强大的医学逻辑推理能力,可以根据输入的图像和文本信息提供专业的诊断建议。
- 影像理解与标注:能够识别和标注医学影像中的关键特征,包括病变位置、类型和严重程度,并生成详细的描述说明,帮助医生更直观地理解影像内容。
Lingshu的技术实现
Lingshu采用了创新的架构设计和训练方法:
- 数据准备阶段:
- 数据采集:从多渠道收集医学影像数据、文本资料和通用领域信息。
- 质量控制:通过图像过滤、去重等技术确保数据准确性,并对文本内容进行清理。
- 数据增强:生成高质量的标题、视觉问答样本和推理示例,丰富训练素材库。
- 模型架构设计:基于Qwen2.5-VL基础架构,包含三个核心组件:
- 大型语言模型(LLM)负责处理文本输入并生成输出内容;
- 视觉编码器用于提取医学影像的特征信息;
- 投影器将视觉特征映射到语言模型的表达空间。
- 多阶段训练策略:
- 初步对齐:使用少量医学图像文本对进行微调,建立基础的医学影像描述能力。
- 深度优化:引入更大规模、更高质量的标注数据,提升模型的专业性。
- 指令优化:通过大规模专业指令集训练,增强任务执行能力。
- 强化学习:采用强化学习与验证奖励机制(RLVR),显著提升了医学推理水平。
- 评估体系:推出了MedEvalKit评估框架,整合了多项专业评测指标,支持多种问题类型,包括选择题、封闭式问题和开放式问答等。该框架还提供了标准化的数据处理流程和接口规范,方便快速部署和测试。
项目资源链接
- 官方网站:https://alibaba-damo-academy.github.io/lingshu/
- HuggingFace平台:https://huggingface.co/collections/lingshu-medical-mllm/lingshu-mllms-6847974ca5b5df750f017dad
- 技术论文:https://arxiv.org/pdf/2506.07044
Lingshu的应用领域
凭借强大的功能,Lingshu在多个医学场景中展现出广泛的应用潜力:
- 疾病诊断:能够分析多种医学影像数据,识别异常病变并提供诊断建议。
- 医疗报告生成:自动生成放射科和病理学报告,提高工作效率和准确性。
- 知识查询:为医学研究者和临床医生提供准确的专业信息支持。
- 医学研究:协助处理海量医学数据,推动学术创新。
- 公共卫生:在流行病学研究等领域发挥作用,助力公共健康事业。
© 版权声明
文章版权归作者所有,未经允许请勿转载。