来自麻省理工学院等多个机构的蛋白质语言模型创新成果:ProtGPS

AI工具4周前发布 ainav
55 0

ProtGPS指的是什么?

Protein Localization Prediction Model (PLPM),由麻省理工学院(MIT)与怀特黑德生物医学研究所联合开发,是一款利用深度学习技术预测蛋白质在细胞内部具体位置的模型。该系统通过分析蛋白质的氨基酸序列,并运用进化尺度下的变换器架构来捕捉和解析这些序列中的复杂模式及其相互关系。PLPM具备识别蛋白质出现在12种特定亚细胞区域(例如核仁或核斑点等)的概率的能力,这为设计能够精准定位到指定细胞区室的新蛋白提供了指导作用。此外,该模型还能辨识出可能导致蛋白质在细胞内位置发生变化的疾病相关突变,从而为研究细胞功能及疾病的机制提供了一种新颖的方法和视角。

ProtGPS

ProtGPS的核心作用

  • 预估蛋白质于细胞内部的定位该任务旨在估算蛋白质出现在包括核仁、核斑点及应激颗粒在内的十二个特定亚细胞区室中的可能性分布。
  • 创建具备明确亚细胞分布特征的蛋白分子创建独特的蛋白质链,并精确定位至特定的亚细胞位置(例如核仁或核斑)。
  • 分析导致疾病的基因变异如何改变蛋白的位置研究基因变异如何改变蛋白的细胞内位置,评估可能导致疾病的变异是否会引发蛋白定位的异常。

ProtGPS的核心技术机制

  • 利用Transformer模型的序列训练方法采用ESM2(进化尺度模型二代)结构,这是一种以Transformer为基础构建的蛋白质语言模型。该模型能够同步解析输入链路内各个氨基酸间的联系,并深入理解蛋白质序列里的复杂形态及交互效应。
  • 结合训练的神经网络分类器由于提供的原文为空,没有具体内容可以进行伪原创改写。如果有具体的文本需要处理,请提供详细信息。
    • 结合ESM2和神经网络分类器进行协同训练。此过程中,分类器的目标是利用从ESM2获得的特性来估计蛋白质出现在各类亚细胞位置的可能性。
    • 该数据集包含了5480条人类蛋白质的序列信息,并且每一条序列都被标记为了归属至12个独特的胞内区室之一,目的在于识别各胞内区室特有的蛋白质序列特性。
  • 用于创建蛋白质序列的算法为了设计能够定位于特定亚细胞结构的蛋白,采用马尔可夫链蒙特卡洛(MCMC)算法进行开发。在构建这些蛋白序列的过程中,注重考虑其化学特性及内在无序性特征,以保证生成的序列能够在统计学上与天然蛋白质相似,并且可以精确地定位于指定的目标亚细胞位置。
  • 疾病相关基因变异解析探讨致病性基因变异如何影响蛋白分子在细胞内的位置分布情况。通过对比分析正常状态与变异状态下蛋白的位置预测结果,来识别那些能够引起蛋白空间分布发生变化的特定变异点。应用信息理论中的Shannon熵及Wasserstein距离方法,评估这些突变对于蛋白质定位预测不确定性的量化影响程度。

ProtGPS项目的网址

  • Git代码库:在GitHub上可以找到由pgmikhael维护的protgps项目页面。
  • 关于arXiv的技术文章访问此链接以获取相关内容:https://www.biorxiv.org/content,这里提供了最新的生物学预印本文章。

ProtGPS的使用情境

  • 探究疾病的成因机制分析致病性基因变异如何改变蛋白的细胞内位置,以深化我们对疾病发生原理的认知。
  • 蛋白工程及医药研发设计定位于细胞特定区域的蛋白,应用于新型蛋白质药物和生物传感器的研发。
  • 细胞学的研究探讨对蛋白质在各类亚细胞区室中的位置进行预估,以促进对其细胞内的机能及交互关系的理解。
  • 遗传物质修正及基因结构调整开发能够精确瞄准细胞内特定区室的基因编辑技术,以增强其操作精准度与效能。
  • 蛋白质的功能解析及数据库的建立为探索蛋白质的功能提供有价值的提示,并促进建立更加完善的蛋白质功能资料库。
© 版权声明

相关文章