探索发现 · 交大智慧
上海交大药学院马步勇团队:基于图深度学习的蛋白质-蛋白质相互作用(PPI)预测新范式
B细胞受体(BCR)产生抗体和T细胞受体(TCR)激活是机体最重要的免疫防线,是特异性(获得性)免疫防线的基石,它们赋予免疫系统识别特定病原体的能力,是抵抗感染、清除异常细胞(如癌细胞)的关键,与皮肤、黏膜等非特异性防线(固有免疫)共同构成完整的免疫体系,实现“精准打击”和长期免疫记忆,保护我们远离疾病。近期上海交通大学药学院马步勇团队分别建立了人工智能抗体-抗原识别和TCR-pMHC识别的模型,模型具有泛化到蛋白质-配体识别的能力,助力分子胶和大分子药物的研发。

抗体对外来抗原的识别是免疫反应中的关键步骤,解析抗体-蛋白质抗原的识别机制具有重要的基础研究价值与实际应用意义。通过计算方法预测抗体-抗原(Ab-Ag)对接和基于结构的设计代表了计算生物学中重要的长期挑战。抗体-蛋白质抗原相互作用虽是通用蛋白质-蛋白质相互作用(PPI)的一个子集,且两者遵循相似的物理化学原则,但与非抗体PPI相比,抗体-抗原相互作用涉及显著不同的序列和结构特征。因此,一般的蛋白质-蛋白质对接程序(如ZDOCK和HADDOCK)需要针对性的优化处理才能应用于抗体-抗原对接。当前虽然已有专门针对抗体-抗原对接的基准数据集或程序,但总体而言,抗体-抗原相互作用的计算研究仍面临两个主要的难题:第一是用于抗体-抗原训练的可用数据集规模相对较小,第二是现代机器学习训练中一个相关但更为普遍的问题: 如何从“小样本”数据(small data)中提取有意义的信息。
近期上海交通大学药学院马步勇团队在《Chemical Science》上发表了题为“SAGERank: inductive learning of protein–protein interaction from antibody–antigen recognition”的研究论文。该研究开发了SAGERank深度学习框架,使用图形样本和聚合网络进行抗体设计。该模型首次将图采样聚合网络(GraphSAGE)与抗体-抗原(Ab-Ag)及蛋白质-蛋白质相互作用(PPI)研究深度结合,通过双尺度图网络架构和小数据增强学习策略,突破了传统方法对大规模数据集的依赖,为精准预测蛋白质-蛋白质相互作用(PPI)提供了全新工具。

图1. SAGERank模型架构示意图
Step1:SAGERank提取抗体-抗原复合物界面区域;Step2:基于原子节点(26个特征)和残基节点(50个特征)构建图;Step3:对稀疏邻接矩阵进行COO(坐标格式)压缩。COO包含三个数组,用于存储所有非零元素的行索引、列索引和值;Step4:将界面区域的图表示分为两个子图,即内部图(包括受体或配体)和外部图(包括受体和配体)。内部和外部图依次传递到4个连续的SAGEConv层和1个全局平均池化层。在应用softmax函数进行输出之前,合并两个最终的图形表示。
研究团队构建了包含287个Ab-Ag复合物的训练库,通过半柔性对接生成455,420个构象(正负样本比例1:3)。该模型的核心优势在于归纳学习能力:能将从Ab-Ag相互作用中习得的通用PPI原理迁移至非抗体相关任务,如生物界面分类、分子胶三元复合物预测等。在抗体-抗原和蛋白质-蛋白质对接模型排名任务中,以原子为节点的SAGERank模型表现优异,显著超越了Zrank、Pisa、FoldX和Rosetta等传统方法。这得益于原子网络能够更精确地表示图核心和界面间的相互作用,并且捕捉到抗体-抗原识别背后的关键物理化学特征。在预测抗体与抗原结合预测的任务中(SAGERank model2,通过构建特定的数据集,模型在测试集中的AUC达到0.82。除此之外,SAGERank还成功预测了癌症目标数据集中的大多数表位。在纳米体抗原结构预测中,SAGERank与课题组参与开发的蛋白质动态结构预测算法Deepconformer相结合,性能优于Alphafold3。

图2.SAGERank对接模型的应用:识别以 FKBP12 - 雷帕霉素 - FRAP 分子胶体系组成的三元界面
SAGERank模型实现了从原子到残基的多尺度特征融合,其卓越的泛化推理能力(从抗体-抗原泛化至蛋白-蛋白及分子胶体系),表明模型够捕捉生物界面的通用物理化学规律,为界面分析提供了强有力的通用工具。研究证明了归纳式深度学习(inductive deep learning)克服分子科学中小数据集问题的真正潜力。
上海交通大学博士研究生孙传策(已毕业留校继续博士后研究)为第一作者,通讯作者为马步勇教授。原文链接:https://www.sciencedirect.com/org/science/article/pii/S2041652025014129
利用SAGERank模型研究TCR-pMHC识别发现TCR对氨基酸残基网络节点比原子节点更为敏感。团队致远博士生李香逸提出了一种双层次图神经网络框架,利用TCR-pMHC的复合物结构预测其相互作用,随后以题为“SageTCR: a structure-based model integrating residue- and atom-level representations for enhanced TCR-pMHC binding prediction”在《Briefings in Bioinformatics》发表。

T细胞受体(TCR)通过精细的相互作用网络特异性识别肽–主要组织相容性复合物(pMHC),这是启动适应性免疫反应的关键事件。围绕肿瘤特异性T细胞来开发适应性细胞疗法,如新抗原疫苗、工程化TCR等,受到越来越多的关注。然而,不同个体TCR库的多样性、TCR与自身抗原的交叉反应性,为准确预测TCR–表位相互作用带来了巨大挑战,也限制了TCR相关疗法的临床应用。现有深度学习模型主要利用多肽和CDR区序列信息,对三维结构信息的整合不足;由于不同类型多肽数据的不平衡,模型对出现频率较低的表位和全新表位的泛化性不足。
针对这一问题,研究团队提出SageTCR,一种能够学习多模态表征并实现信息交互的图神经网络框架。首先,为应对TCR–pMHC复合物结构数据稀缺问题,设计了系统性的数据增强策略,在扩充数据集的同时保持TCR–pMHC特征性的对角结合模式。其次,构建了一个双层次的图神经网络框架,结合预训练蛋白语言模型与化学语言模型提取残基级与原子级的多模态特征,并通过交叉注意力机制实现信息融合,以更细致地表征复合物界面的空间排布。

图3. SageTCR的特征工程和双层次图神经网络架构
与当前主流深度学习方法相比,SageTCR提高了对于未见过新表位的预测准确性,能够更好地区分正负样本的差异。将计算软件预测的TCR-pMHC复合物结构输入SageTCR,面对结构上的不确定性,模型仍能保持良好的稳健性,尤其与TCRmodel2配合良好。此外,面对相似复合物中的点突变,SageTCR还能识别和聚焦界面上关键的接触位点及其构象差异,为TCR工程与理性设计提供了有价值的启示。

图4. SageTCR相比于主流模型以及在计算预测结构上的表现
上海交通大学药学院博士研究生李香逸为该论文的第一作者,通讯作者为马步勇教授。
原文链接:https://academic.oup.com/bib/article/26/5/bbaf496/8261763
以上课题获得国家自然科学基金和上海市科学创新基金等项目的资助。