麻省理工团队利用Apple Watch数据开发AI模型,精准预测多种疾病

AI资讯4天前发布 ainav
9 0

12月10日讯,麻省理工学院与Empirical Health的研究团队近期发布了一项突破性研究。该研究基于300万”人-天”的Apple Watch数据,成功构建了一个创新的基础预测模型,实现了对多种健康状况的高度准确预测。

麻省理工团队利用Apple Watch数据开发AI模型,精准预测多种疾病

研究背景

这项研究源于Meta人工智能科学家扬·勒坤(Yann LeCun)提出的联合嵌入预测架构(JEPA)。该架构的核心理念是让AI系统从上下文中推断缺失数据的语义含义,而非直接尝试重建缺失部分。

具体来说,当处理图像时,如果某些区域被遮挡,JEPA会将可见和不可见区域共同映射到一个共享嵌入空间,并通过已知信息推断未知区域的特征表示。

2023年,Meta推出了I-JEPA模型,并对其创新理念进行了详细阐述:

JEPA代表了一种革命性的AI架构,它使机器能够构建对世界的内部理解模型,从而实现更快的学习、更高效的复杂任务规划以及更强的环境适应能力。

值得注意的是,自LeCun最初提出JEPA以来,这一架构已成为”世界模型”研究领域的核心方法。这标志着AI研究范式正在从单纯的大型语言模型(LLM)和GPT类系统转向更注重环境动态建模的方向。

目前,LeCun已创立一家专注于”世界模型”研究的新公司,并认为这是通向通用人工智能(AGI)的正确路径。

研究方法与数据集

这项最新研究名为《JETS:面向医疗健康行为数据的自监督联合嵌入时间序列基础模型》,其论文已被NeurIPS研讨会接收。

研究团队将JEPA的联合嵌入方法应用于不规则多变量时间序列数据,如可穿戴设备收集的长期健康数据。这些数据包含心率、睡眠质量、活动量等多个指标,且在时间上呈现明显的不连续性和缺失特性。

研究使用的纵向数据集包括16,522名参与者的详细记录,总计约300万”人-天”的数据。每位参与者每天记录了63项不同的健康指标,涵盖心血管、呼吸系统、睡眠、身体活动和基础统计信息五大领域。

在数据可用性方面,仅有15%的参与者提供了可评估的医疗史信息。这意味着,在传统的监督学习框架下,85%的数据将被视为无效或无法使用。

为克服这一限制,JETS模型采用了自监督预训练策略:首先在整个数据集上进行无监督学习,随后仅在带标签的子集上进行微调。这种两阶段训练方法显著提高了模型的泛化能力。

在具体实现中,研究人员将每条观测数据构建成”三元组”(日期、数值、指标类型),并将其转换为特定的”token”形式。这些经过掩码处理的token随后被输入编码器和预测器模块,用于学习缺失片段的嵌入表示。

实验结果显示,JETS模型在多种疾病预测任务中表现卓越:高血压预测AUROC达到86.8%,房扑(atrial flutter)为70.5%,慢性疲劳综合征为81%,病态窦房结综合征(sick sinus syndrome)亦达86.8%。虽然JETS并非在所有任务中都优于基线模型,但其优势在关键指标上表现明显。

需要特别说明的是,AUROC和AUPRC并不是传统意义上的准确率指标,而是用于评估模型对潜在病例排序或优先级判断的能力。

研究意义

这项研究表明,即使面对高度不完整或不平衡的健康数据,通过创新的建模方法和有效的训练策略,仍可挖掘出巨大的潜在价值。JETS的成功验证了从噪声数据中提取有用信息的可能性。

此外,研究还进一步证实了一个关键观点:即使像Apple Watch这样的日常佩戴设备,并非全天候使用,其积累的海量数据依然蕴含着巨大的医疗价值。通过新型模型架构和科学的数据处理方法,这些数据有望在疾病早期预警和健康管理中发挥重要作用。

© 版权声明

相关文章