探索发现 · 交大智慧

上海交大陈海峰与冯雁课题组指导本科生在全新蛋白质序列设计方法研究中取得重要进展

近日,上海交通大学生命科学技术学院陈海峰教授课题组与冯雁教授课题组合作在中科院Top期刊《Briefings in Bioinformatics》在线发表题为Graphormer Supervised De Novo Protein Design Method and Function Validation的研究成果,该研究开发了一种原创而高效的全新蛋白序列设计方法GPD,该方法与当前的SOTA方法proteinMPNN相比,序列多样性显著更高,生成速度快2.2倍,能够显著提升工业酶及蛋白质药物的从头设计能力。生命科学技术学院本科生穆俊羲为第一作者,博士生李政新、本科生张博、博士生张琦为共同第一作者,生命科学技术学院陈海峰教授、冯雁教授以及魏婷助理研究员为共同通讯作者。

蛋白质设计是几乎所有蛋白质工程问题的核心,因为它可以实现具有全新生物学功能的蛋白质的创造,并能够提高酶的催化效率等。蛋白质设计的一个关键问题是固定骨架的蛋白质序列设计,它旨在设计新的序列以符合预定的蛋白质骨架结构。然而,现有的序列设计方法存在多种局限性,如序列多样性低和设计的功能性蛋白质的实验验证不足,严重阻碍了功能性蛋白质设计。

图片5.png

图1. GPD的模型架构和输入特征

为了改进这些限制,陈海峰组开发了基于Graphormer的蛋白质设计(GPD)模型。该模型利用Transformer进行基于图的3D蛋白质结构表示,结合高斯噪声和序列随机掩码融入节点特征,从而增强了序列设计质量。陈海峰组利用GPD设计了CalB水解酶,并生成了九条人工设计的CalB蛋白。结果显示,与野生型CalB相比,设计序列的催化活性提高了1.7倍,并且在不同碳链长度(C2-C16)的p-硝基苯酚醋酸酯上表现出强烈的底物选择性。

图片6.png

图2. GPD的序列设计质量评估

陈海峰课题组首先评估了GPD的序列设计质量,发现其能够设计生成更合理的蛋白序列,并且保有较高的序列多样性,同时多数设计的序列都能够在结构预测模型中折叠为所需的结构。图2中展示了GPD在序列可折叠性、序列同源性,以及序列多样性方面总体优于现有模型。

图片7.png

图4. GPD在CALB设计上的应用及验证

然后陈海峰组与冯雁组合作,将GPD应用到南极假丝酵母酯水解酶(CALB)的重设计上,图3展示了设计的结果:设计并筛选了9条序列,其中便有一条酶活达到原来的1.7倍。实验的结果说明GPD的设计具有合理性,同时效率高于之前的理性设计或定向进化方法。

此外,对于多个底物的酶活测试发现GPD设计的序列均具有很高的底物特异性,这对于CALB酶的工业应用也具有一定的意义。因此,GPD方法可用于工业酶和蛋白质药物的人工智能全新设计,为新质生产力的快速发展奠定方法学基础。

该研究获得国家重点研发计划(2020YFA0907700与2023YFF1205102)、中央高校基本科研业务费专项资金(YG2023LC03)以及国家自然科学基金面上项目(21977068与32171242)的资助。同时感谢上海交通大学超算中心提供的计算平台支持。

论文链接https://doi.org/10.1093/bib/bbae135

生命科学技术学院
生命科学技术学院