探索发现 · 交大智慧
上海交大洪亮课题组联合上海人工智能实验室青年研究员谈攀发布关于FSFP:基于语言模型的蛋白质功能小样本预测方法
近日,上海交通大学自然科学研究院/物理与天文学院/张江高研院/药学院洪亮教授课题组联合上海人工智能实验室青年研究员谈攀,在蛋白质突变-性质预测上取得重要突破。该工作采用全新的训练策略,在使用极少湿实验数据的情况下,极大地提高了传统蛋白质预训练大模型在突变-性质预测的效果。该研究成果以《Enhancing the efficiency of protein language models with minimal wet-lab data through few-shot learning》为题,发表在Springer Nature集团旗下《Nature Communications》上。
酶工程或者蛋白质工程是要对蛋白质做突变并筛选得到性质更优的蛋白质产品。传统的湿实验方法是类似于贪婪算法式的搜索方法,需要进行多轮实验迭代并反复进行实验验证。这些湿实验方法需要耗费大量的人力和时间,做出一个满足需求的蛋白质产品往往需要数年的时间,而且湿实验方法能够筛选遍历的蛋白质突变序列库非常有限。目前有一些深度学习的方法来加速这个蛋白质突变改造进程,但是这些深度学习模型想要得到很高的准确率的话,需要利用成千上万的蛋白质突变数据来训练模型。而这个大规模高质量的突变数据的获取,反过来也是传统湿实验的巨大门槛。因而,行业内急需一种在不需要大量湿实验数据情况下,依然能够对蛋白质突变-功能做出准确预测的方法。目前的蛋白质无监督预训练模型能在完全没有湿实验的情况,以零样本(zero-shot)预测蛋白质突变-性质的变化,但是这种预测方法往往精度较低,且上述无监督模型无法直接利用有限的湿实验数据对上面无监督模型进行微调。
在本研究工作中,我们提出了一种解决方法(FSFP),综合利用元学习,排序学习和参数高效的微调方法,在只利用任意几十个湿实验数据下便可以训练蛋白质预训练模型,并大幅提高对蛋白质突变-性质预测的效果。在包含87个高通量突变数据集 ProteinGym的测试中,FSFP方法先利用蛋白质预训练模型评估目标蛋白质与ProteinGym中的蛋白质的相似度,并从ProteinGym中取出与目标蛋白质最相近的两个蛋白质数据集作为元学习的两个辅助任务,同时利用GEMME对目标蛋白质的打分数据作为第三个辅助任务。最后利用排序学习损失函数和Lora训练方法,在极少量(几十个)的真实湿实验数据上训练蛋白质预训练模型。我们的测试结果表明,即便是在原始的蛋白质预训练模型对突变-性质预测的 spearman相关性低于0.1的情况下,FSFP方法只利用任意20个湿实验数据训练模型,也能将上述的预测相关性大幅提高到0.5以上。
同时,为了研究FSFP的有效性。我们在一个具体的蛋白质Phi29改造案例中进行了湿实验验证,FSFP在只使用20个湿实验数据训练模型的情况下,能够将原始蛋白质预训练模型ESM-1v的top-20的单点突变预测阳性率提高25%,并且能找到将近10个全新的阳性单点突变。
在本工作中,作者提出了一个基于蛋白质预训练模型的全新的微调训练方法FSFP。FSFP综合利用元学习,排序学习以及高效参数微调技术,能在只利用20个随机湿实验数据的情况下,高效训练蛋白质预训练模型,且能大幅提高模型的单点突变预测阳性率。上述结果表明,FSFP方法对解决现在蛋白质工程的高实验周期,降低实验成本具有重要意义。