MindLLM – 耶鲁联合剑桥等机构推出的医疗领域 AI 模型

113 0 0

MindLLM是什么

MindLLM 是耶鲁大学、达特茅斯学院和剑桥大学联合推出的AI模型，能将脑部功能性磁共振成像（fMRI）信号解码为自然语言文本。MindLLM基于一个主体无关（subject-agnostic）的 fMRI 编码器和一个大型语言模型（LLM）实现高性能解码，引入脑指令调优（Brain Instruction Tuning，BIT）技术，捕捉 fMRI 信号中的多样化语义信息。MindLLM 在多个基准测试中表现优异，下游任务性能提升12.0%，跨个体泛化能力提升16.4%，新任务适应性提升25.0%。MindLLM为脑机接口和神经科学研究提供新的可能性。

MindLLM的主要功能

脑活动解码：将大脑在感知、思考或回忆时的神经活动转化为直观的文字描述，帮助科学家和医生更好地理解大脑的工作机制。
跨个体通用性：处理不同个体的脑信号，无需针对每个个体进行单独训练，大大提升模型的泛化能力。
多功能解码：MindLLM 适应多种任务，如视觉场景理解、记忆检索、语言处理和复杂推理，展现出强大的多功能性。
辅助医疗与人机交互：为失语症患者恢复沟通能力，或基于神经信号控制假肢、虚拟助手等设备，推动脑机接口技术的发展。

MindLLM的技术原理

fMRI 编码器：用神经科学启发的注意力机制，将 fMRI 信号编码为一系列“脑部特征令牌”（tokens）。编码器学习大脑不同区域的功能信息和空间位置信息，动态提取特征，避免因个体差异导致的信息丢失。
大型语言模型（LLM）：将编码后的脑部特征令牌与语言模型结合，基于 LLM 的强大生成能力将脑信号转化为自然语言文本。用预训练的 LLM（如 Vicuna-7b）作为解码器，确保生成的文本具有语义连贯性和准确性。
脑指令调优：基于多样化的数据集（如视觉问答、图像描述、记忆检索任务等）训练模型，捕捉 fMRI 信号中的多样化语义信息。BIT 数据集以图像为中介，将 fMRI 数据与对应的文本标注配对，训练模型执行多种任务，提升其多功能性和适应性。
主体无关设计：基于分离脑区的功能信息（跨个体一致）和 fMRI 信号值，MindLLM 在不同个体之间共享先验知识，实现跨个体的通用解码能力。