医疗AI迎考:南洋理工发布首个LLM电子病历处理评测

AI资讯2个月前发布 ainav
40 0

# 结构化电子病历中的大型语言模型评估与增强:南洋理工大学研究团队的创新突破

在医疗AI领域的一项重大进展中,新加坡南洋理工大学的研究团队成功开发出首个专门针对结构化电子病历(EHR)任务设计的系统性评测框架——**EHRMaster**。这一创新成果发表于最新一期《自然》子刊,并已上线arXiv预印版。

## 背景与意义

医疗领域对AI技术的需求日益迫切,而目前现有的大型语言模型(LLM)在处理结构化电子病历方面的能力尚未得到系统性评估。南洋理工大学的研究团队敏锐地意识到这一空白点,决定建立一个专门针对结构化EHR任务的评测基准。

该研究项目由杨潇博士、赵雪娇博士后研究员和Shen Zhiqi高级讲师共同领衔,研究工作得到了百合卓越联合研究中心(LILY Research Centre)与阿里巴巴-南大全球数码可持续发展联合实验室(ANGEL)的支持。

## 方法与创新

### 评测框架构建

EHRMaster评测框架的设计采用了多维度分类方法:

1. **临床场景**:分为数据驱动型任务和知识驱动型任务
2. **认知层级**:区分理解类任务和推理类任务
3. **功能类别**:涵盖六种核心任务类型

这种创新性的分类体系不仅确保了评测的全面性,也为模型性能评估提供了清晰的解释路径。

### 数据集构建

研究团队精选了两个高质量数据源:

– **Synthea合成数据集**:提供高保真、无隐私限制的结构化病历数据
– **eICU协作研究数据库**:包含真实临床环境下的重症监护室(ICU)多机构数据

通过对上述数据集的充分利用,最终构建了覆盖11项任务的2200条高质量标注样本。

### 评测流程设计

EHRMaster采用统一的实验流程:

– 覆盖20款主流大型语言模型(包括通用型和医学专用型)
– 每个任务使用200份问答样本进行严格测试
– 实验输入支持四种典型格式转换方法:平铺文本、特殊字符分隔表示、图结构表示和自然语言描述

这种严谨的实验设计确保了评测结果的可靠性和可比性。

## 重要发现与突破

1. **模型性能对比**:
– 通用型大模型在大多数任务中表现优于医学专用模型
– 尤其是知识驱动类任务(如诊断评估、治疗规划),通用模型展现出更稳定的输出能力
– Gemini系列闭源商业模型整体表现最为突出,显示了强大的泛化能力

2. **现有方法局限**:
– 非医疗领域方法擅长数据驱动的逻辑与数值推理
– 医疗专用模型则在疾病预测等知识密集型任务上优势明显
– 但目前没有任何单一方法能全面覆盖所有EHR任务

3. **创新解决方案**:
– 研究团队提出的EHRMaster框架,配合Gemini系列模型,在算术推理等多个场景下实现了100%准确率的优异表现
– 对具有挑战性的知识驱动任务也取得了显著性能提升

## 潜在应用与未来发展

这项研究为医疗AI的发展指明了重要方向:

– **临床决策支持系统(CDSS)**:EHRMaster可作为评估和优化工具,帮助开发更可靠的CDSS
– **跨模态数据处理**:未来可以探索将结构化EHR数据与其他医疗数据源(如图像、文本报告)进行整合
– **个性化诊疗辅助**:基于结构化EHR的深度分析,有望实现更加精准的个体化治疗方案推荐

## 研究团队介绍

– **杨潇博士**:南洋理工大学计算与数据科学学院在读博士生,研究方向为医疗人工智能
– **赵雪娇博士**:现就职于阿里巴巴—南大全球数码可持续发展联合实验室(ANGEL),从事AI与医疗交叉领域研究
– **Shen Zhiqi教授**:南洋理工大学高级讲师及研究员,主要研究领域包括数据科学和医疗信息学

## 参考资料

– [arXiv论文链接](https://arxiv.org/abs/2511.08206)

© 版权声明

相关文章