探索发现 · 交大智慧

上海交大洪亮团队发表基于离散diffusion model生成活性高,体积大,结构复杂蛋白的全新序列的最新研究

近日,上海交通大学自然科学研究院/物理与天文学院/张江高等研究院/药学院洪亮团队周冰心研究员设计了一种扩散概率模型框架(CPDiffusion),成功设计并生成了具有增强活性的人工程序化内切核酸酶序列。这项突破性研究展示了深度学习在蛋白质工程领域的强大潜力,为蛋白质工程、生物技术、分子诊断等领域带来了新的应用前景。和现有的序列设计方法相比,该方法以极低的模型训练和数据成本学习蛋白质序列、结构和功能之间的隐含映射规则,生成多样化的蛋白质序列,并以极高的成功率通过湿实验验证,最终在两款超长的多结构域复杂功能蛋白(Kurthia massiliensis Ago和Pyrococcus furiosus Ago,简称为KmAgo和PfAgo)得到超过10倍的DNA剪切活性提升,显著高于现有任何已发现的常温野生型蛋白活性。此外,本方法和传统定向进化方法不同,能够一次性改变数百个氨基酸,从而为蛋白质工程选择全新进化起点、生物研究探索蛋白质进化路径、生物科技突破专利封锁等成为可能。这是迄今为止全球范围内公开文献报道的AI生成的结构最复杂,体积最大的单个蛋白,并被湿实验验证有优异活性。

该研究成果以“A conditional protein diffusion model generates artificial programmable endonuclease sequences with enhanced activity”发表于Nature出版社下Cell Discovery。

论文链接https://www.nature.com/articles/s41421-024-00728-2

深度学习辅助的功能性蛋白设计是一种全新的方法,满足科学和工业生产场景中对新型生物催化剂不断增长的需求,推动高效和专业化蛋白质的快速发现与改造,拓展蛋白质工程的研究边界。通过利用深度学习的力量,设计者能够生成多种具有特定标准量身定制的新型蛋白,例如更高的稳定性、更强的结合亲和力和更高的酶活性。此外,多样化生成的新型蛋白序列丰富了研究蛋白家族的库,超越了有限的自然序列。这种增强不仅补充了用于分析和理解蛋白的可用资源,还提供了一个更广泛的蛋白模板群体,以增强功能性为目标进行工程化。然而,现有的方法通常需要在大规模数据集上训练一个参数量极大的模型(因此难以推广到特异蛋白上,如同源序列稀少的蛋白),生成的蛋白质通常结构和功能相对简单(单结构域、单功能),且实验验证阳性率不尽如人意(设计出的蛋白中有活性的比例较低,更鲜少有超过野生型蛋白质的)。

基于此,本文设计一种全新的蛋白质序列设计和筛选流程CPDiffusion,结合骨架结构、活性位点等多种生成条件,为特定功能的蛋白质生成多样化的全新序列(图1)。初始化的模型在两万条野生型蛋白质结构和序列上进行训练,用于学习蛋白质序列-结构-功能之间的映射关系。同时,为了强化模型对于待生成蛋白质特征的理解,在训练集中还加入了几百条来自于同家族的其他蛋白质序列和结构,一起进行训练。在生成过程中,首先把原始的蛋白质序列和信息处理为具有分子生化和拓扑特性的氨基酸级别的图表示。在前向扩散过程中,输入蛋白中的每种氨基酸类型都通过遵循某个替换概率矩阵,在T个步骤中被逐步破坏,以达到均匀分布;逆向扩散过程从随机抽样开始,每个氨基酸节点的类型在20种氨基酸类型中均匀分布,随后进行逐步去噪过程。去噪过程受到条件的指引,如待生成序列的野生型骨架结构和二级结构,以及基于野生型蛋白质的氨基酸替换矩阵(BLOSUM62)。为了确保模型学习到蛋白质三维结构中隐含的等变性,传播函数由一个等变图卷积层拟合。这一扩散概率模型最终生成骨架上每个氨基酸的联合概率分布,通过对学习到的分布进行采样,可以得到相应的蛋白质序列。之后使用AlphaFold2对生成序列进行结构预测,并根据RMSD,pLDDT等进行筛选后得到一批序列,集合湿实验合成、表征和评估确认其表达性、活性、热稳定性等表现。

图1 CPDiffusion框架示意图

为了验证CPDiffusion的生成效果,我们特别考虑生物技术中的一个重要问题,即生成具有高DNA剪切活性和稳定性的常温原核内切核酸酶(原核Argonaute,简称pAgo蛋白)。pAgo蛋白是一类在原核生物DNA干扰中发挥关键作用的内切核酸酶,具有靶向并切割特定单链DNA/RNA序列的显著能力,在诊断学中具有重要应用,如检测和定量与病原体或癌症相关突变相关的核酸序列,从而提供疾病早期检测和精确治疗。此外,pAgo蛋白对底物具有高亲和力和对目标序列的特异性识别,使它们成为成像和基因编辑的重要工具。在等温核酸基检测和基因编辑技术中,通常考虑嗜温pAgo蛋白(如KmAgo)作为候选蛋白。然而这类蛋白的DNA切割活性相对较低,因此受到潜在应用性的限制。另一方面,嗜热pAgo蛋白(如PfAgo)DNA剪切活性显著更高,但通常只在高温下发挥作用,随着温度降低会丧失活性,因此难以应用到常温下的检测和编辑任务中。以上两种蛋白分别作为中温和超高温下高活性的代表性野生型蛋白质,都由近800个氨基酸,组成六个结构域。利用本文设计的CPDiffusion生成和筛选框架,我们产生了27个新的人工KmAgos(Km-APs)和15个人工PfAgos(Pf-APs)。与模板WT相比,它们在序列同一性上共享50%至70%的相似性。与NCBI的其他WT蛋白(除模板外)相比,APs的序列同一性不到40%。与经典的合理设计方法不同,模型训练和推理的整个过程几乎不需要任何专家指导,即可自动识别高度保守的区域,从而在保证功能的基础上更多改变非保守区域,提高生成序列的多样性(图2)。

图2 CPDiffusion成功学习蛋白质序列的保守特征、表面带点性等重要性质

通过多种实验验证,我们发现为KmAgo和PfAgo生成的两组新序列中,超过90%的新序列具有DNA切割活性,其中超过70%的活性比它们野生型基线有所增强(图3)。值得注意的是,表现最好的新KmAgo的活性比野生型KmAgo高出九倍,而最好的新PfAgo将野生型PfAgo的熔解温度从大约100°C降低到50°C,其在45°C时的单链DNA切割活性是95°C时野生型PfAgo的两倍,是温和温度下的野生型KmAgo的11倍。这些显著的结果证明了CPDiffusion在自动从野生型功能蛋白中学习,并设计具有高度复杂生物功能的蛋白质序列以增强功能方面的强潜力。

图3 KmAgo工作原理图和Km-APs表达、活性、热稳定性实验结果

总之,CPDiffusion作为一种强大的全新蛋白质序列设计工具,为生物学家和蛋白质工程设计者提供了全新的可能性,用于设计功能更强大的蛋白质、研究蛋白质功能的逐渐演化过程、丰富现有蛋白质的数据库等。

自然科学研究院/上海国家应用数学中心(上海交通大学分中心)助理研究员周冰心博士,密歇根大学神经科学研究所/细胞与发育生物学研究所博士后郑力荣博士,生命科学技术学院博士研究生吴邦昊为共同第一作者。自然科学研究院/物理与天文学院/张江高等研究院/药学院洪亮教授为通讯作者。该工作得到了国家自然科学基金委、上海市科委、教委、上海人工智能国家实验室和张江高等研究院的支持。

洪亮
自然科学研究院