探索发现 · 交大智慧
上海交大洪亮课题组及其合作者发布Venus系列大模型新成员—VenusMine
近日,上海交通大学自然科学研究院/物理天文学院/张江高研院/药学院洪亮教授课题组联合上海人工智能实验室青年研究员谈攀发布Venus系列大模型新成员—VenusMine,用于酶挖掘。该模型融合了蛋白质语言大模型与三维结构分析,通过蛋白质序列、结构和功能之间的隐含映射规则,能在海量的蛋白数据库中高效挖掘同源性低但功能优异的酶分子。应用该模型,其团队成功发现了一系列PET水解酶,其中来自Kibdelosporangium banguiense的KbPETase表现出极高的催化效率和热稳定性,其最适酶活是模板IsPETase的97倍。该研究成果以《Harnessing Protein Language Model for Structure-Based Discovery of Highly Efficient and Robust PET Hydrolases》为题,发表在Springer Nature集团旗下《Nature Communications》上。
研究背景
塑料污染已成为全球性环境难题,其中聚对苯二甲酸乙二醇酯(PET)因其广泛使用和难降解特性备受关注。传统机械和化学回收方法存在效率低下、环境污染等问题。在此背景下,生物酶解法因其绿色、高效的特点被视为最具前景的PET降解方案。然而,已知天然PET水解酶(PETase)普遍存在活性低、热稳定性差等问题,严重限制了工业化应用,急需寻找开发高性能的PETase。传统酶挖掘方法(比如BLAST)主要依赖于序列相似性分析,这种方法只能发现与已知酶高度同源的酶分子,大量序列相似性低但功能相似的“隐藏珍宝”被系统性地遗漏。其次,自然界中99%的微生物尚未被培养,导致大量潜在的优质酶资源未被发掘,功能未知。更关键的是,序列相似性并不代表功能相近,许多序列差异较大的酶可能具有相似的三维结构和催化机制。近年来,随着结构生物学和人工智能技术的突破性发展,AlphaFold等蛋白质结构预测工具的出现,使得大规模、高精度的结构预测成为可能;FoldSeek等结构比对算法实现了快速的三维相似性搜索;而新兴的蛋白质语言-结构多模态模型(如SaPro,ProSST,VenusREM)则能够捕捉序列-结构的深层关联。因此,急需开发基于前沿AI方法的酶挖掘新范式,助力获得更优性能的野生型PETase解决塑料污染问题。
研究方法
基于此,本文开发了基于蛋白质大模型的创新酶挖掘方法VenusMine。该方法首先利用蛋白质大模型提取蕴含关键生物学信息的高维特征,进而通过层次聚类、序列去重、理化性质预测及可表达性预测完成全流程智能筛选。依靠“结构先行”的策略从海量信息中精准锁定目标,发现序列相似性低但功能相似的高性能候选验证蛋白进行少量湿实验验证。VenusMine在挖掘过程中展现出覆盖面广、效率优高、候选蛋白质量功能突出的特点。其应用范围不止于PETase,团队目前已在近10种新型酶的高效发掘中成功应用,并获得湿实验验证。
图1:VenusMine工作流程与聚类结果。
研究结果
VenusMine以IsPETase晶体结构为查询模板,通过在私有数据库中搜索高维特征,最大限度获取了候选PET水解酶(3300万条)。随后进一步通过蛋白质语言模型进行结构特征嵌入和聚类分析,以及多层级筛选(包括热稳定性预测、溶解性评估和结构比对)最终获得34个高潜力候选蛋白。在未进行特定训练的情况下,VenusMine成功捕获了目前所有已知的PETase序列,证明了该模型的全面性和可靠性。实验验证阶段显示,26个候选蛋白(76.5%)实现了可溶性表达,其中14个(占表达蛋白的53.8%)表现出显著的酯键和PET降解活性。这些活性蛋白均属于首次报道的PET水解酶,绝大部分催化性能与模板酶IsPETase相近,这一发现有力证实了基于结构相似性的酶挖掘策略在功能预测方面的优势。
图2:备选蛋白性能表征。
在以上蛋白质中,我们发现了来自Kibdelosporangium banguiense的KbPETase表现出全方位的优越特性。其蛋白质熔解温度(Tm)为77.58 ℃,具备高热稳定性。同时在催化活性上表现优异,其对PET薄膜最适降解酶活(50℃)达到模板IsPETase最适酶活(30 ℃)的97倍。即使与另一高性能野生型PET水解酶LCC相比,其最适酶活也是后者的1.5倍。另外,降解产物中终产物对苯二甲酸(TPA)占比显著增高,这一特性将有助于简化了下游分离纯化工艺,降低后处理成本,更有产业化应用前景。
图3:KbPETase性能表征。
总结
VenusMine是上海交通大学和上海人工智能实验室开发的Venus蛋白质大模型的新成员,作为基于大语言模型的全新蛋白质挖掘工具,为生物学家和蛋白质工程研究人员提供了全新的可能性,可用于在海量未知功能蛋白质数据库中挖掘功能优异但同源性低的“隐藏珍宝”。这与团队数月前发布的90亿蛋白质数据库(VenusPod)相配合,将有望极大助力合成生物学及生物医药领域的研发。
上海交通大学生命科学技术学院博士研究生吴邦昊,上海交通大学生命科学技术学院准博士研究生钟博子韬为共同第一作者。上海交通大学自然科学研究院/物理与天文学院/张江高等研究院/药学院洪亮教授,密歇根大学神经科学研究所/细胞与发育生物学研究所博士后郑力荣博士和上海人工智能实验室青年研究员谈攀为本文通讯作者。本研究获得上海市科技重大专项、国家重点研发计划(2024YFA0917603)、上海市科委计算生物学项目(23JS1400600)、上海市教育委员会科研计划(2024AIZD015)、上海交通大学科技创新基金(21X010200843)、重庆市技术创新与应用发展重点研发项目(CSTB2022TIAD-STX0017、CSTB2024TIAD-STX0032),上海交通大学学生创新中心,上海人工智能实验室,上海交通大学高性能计算中心与上海交通大学分析测试中心的支持。
论文链接:https://www.nature.com/articles/s41467-025-61599-z