MediTalks GPT – 浙江大学与阿里巴巴等单位共同研发的医疗图像文字模型

AI工具1年前 (2025)发布 ainav

363 0 0

健康助手GPT是何物

HealthGPT 是由浙江大学、电子科技大学以及阿里巴巴等机构共同研发的一款高级医学视听语言模型(Med-LVLM)，该系统借助异构知识适配技术，实现了统一的框架来处理医学图像理解与生成的任务。它运用了创新性的异构低秩调整(H-LoRA)方法，能够将视觉理解和生成相关的知识存放在独立模块中，以防止不同任务间的干扰。HealthGPT 提供两个版本：一个是参数量为38亿的 HealthGPT-M3，另一个是拥有140亿参数的 HealthGPT-L14；这两个版本分别基于Phi-3-mini和Phi-4预训练语言模型构建而成。此外，该系统还引入了分层视觉认知(HVP)技术和三阶段学习策略(TLS)，以提升对视觉特征的学习效率及任务适应性。

HealthGPT的核心能力

医疗影像解析及诊疗支持HealthGPT 具备分析各类医疗图像的能力，包括X光片、CT扫描和MRI等，并能辅助医师解析这些图像信息，提出诊疗参考意见。
图像理解提问解答该模型能够根据医疗影像提供相关的解答，比如说明影像中出现的不正常状况或是病灶的具体位置。
医疗文档的解读和创作HealthGPT 具备处理及创建医疗文档的能力，如病例摘要与诊断说明等，能够协助医师高效地归档和记录病人资料。
多种模式的整合结合视觉数据与文字资料，HealthGPT 能够更加深入地解析复杂的医疗服务情境，并给出更为精确的诊疗指导。
针对个体的治疗计划推荐基于患者的历史记录与医疗影像资料，HealthGPT 能够制定定制化的治疗计划，并支持医师作出专业的诊疗判断。

HealthGPT的核心技术机制

非同质低秩适配（H-LARA）HealthGPT 采用了异构低秩适配技术，实现了视觉理解与生成任务学习过程的独立化处理，有效防止了不同任务之间的干扰问题。借助低秩矩阵对权重进行更新的方式，H-LoRA 不仅维持了模型的表现力，还大幅降低了所需训练参数的数量。
分级视感认知（GVC）该方法把视觉细节数字化学习与视觉变换器（ViT）分离开来，以独立应对在视姦理解及生成任务中对于细节层次差异的需求，从而让模型能够更加有效地解析复杂多变的医疗影像资料。
三分段学习方法(TLS)HealthGPT 利用分步的学习方法来培养 H-LoRA 扩展模块，在这一过程中逐步提升其处理各类医疗相关任务的能力。即便是在数据资源有限的情境下，它仍能够表现出优越性，并在多项评估标准上与当前最顶尖的模型相匹敌或超越它们。

HealthGPT项目的仓库位置

官方网站：访问此链接以获取健康相关的智能信息 – https://llsuzy.github.io/HealthGPT.github.io/
GitHub代码库：https://github.com/DCDmllm/WellnessAI
HuggingFace的模型集合访问此链接以查看相关的模型资料：https://huggingface.co/lintw/HealthGPT-M3
关于arXiv上的科技学术文章在学术论文数据库中可以找到这篇文档，其链接为：https://arxiv.org/pdf/2502.09838，该文献提供了深入的研究内容。

HealthGPT的使用情境

医疗影像创作HealthGPT 能够创建高精度的医学影像，适用于超清分辨率处理或是影像重构场景中，对医疗领域的疾病诊断与科学研究提供有力支持。
医疗教学和科学研究HealthGPT 在医学教学中扮演着重要角色，能够辅助学员深入解析医疗影像及掌握诊断流程。它亦作为一款高效的科研利器出现，具备多功能数据分析与处理能力。
智慧健康管理专家HealthGPT 担任着智慧健康伙伴的角色，协助用户检索健康信息，并给予日常生活中的健康管理指导。

# AI工具