交大要闻
[交叉融合 医工同行]洪亮:用大模型训练蛋白质“定向进化”
【编者按】上海交通大学与上海第二医科大学强强合并20年来,学校专门设立“医工交叉”研究基金,通过持续搭建平台、探索机制,实现了医学与理工科的深度交叉,培育出多项国家级科研成果,为学校整体实力和学科建设水平实现跨越式提升提供了有力支撑。为反映全校在医工交叉领域的探索经验和取得的不凡成就,新闻网将陆续刊发其中的优秀案例,以期梳理发展历程、总结实践真知,进一步激励广大教职医务工作者深耕交叉融合领域,为推动科技创新、医学发展,早日实现健康中国战略作出新的更大贡献。

洪亮,理学博士,教授。现任上海交通大学自然科学研究院、物理与天文学院、药学院、张江高等研究院特聘教授。2000年进入中国科学技术大学物理系攻读本科,2004年获得学士学位。在香港中文大学物理系获得硕士学位后,前往美国阿克伦大学高分子科学系深造,完成博士研究,师从Alexei P.Sokolov。2010年,在美国橡树岭国家实验室进行博士后研究,专注计算机、人工智能,师从Jeremy C.Smith。2014年12月入职上海交通大学。主要研究方向包括利用人工智能设计具有特定功能的蛋白质和药物分子,探究蛋白质的结构、动力学和功能,以及生物大分子的低温保存技术。获得国家自然科学基金重点项目、面上项目及上海市科学技术委员会重大项目等多项科研资助,累计发表SCI论文80余篇。近年来,洪亮在针对蛋白质功能设计的Al技术方面取得了开创性的成果,并将该成果应用于高性能蛋白质的设计,为全国20余家科研院所、30余家国内外企业的科学研究与产品研发赋能。
一切生命的表现形式,本质上都是蛋白质功能的体现。今天,人们常常议论如何科学摄入或补充蛋白质来保持健康或加速康复,而对蛋白质的探究曾困扰学界大半个世纪。2024年,DeepMind团队获颁诺贝尔化学奖,其开发的AlphaFold2首次解决了从蛋白质序列到三维结构的预测问题。后AlphaFold时代,蛋白质科学的关键问题进一步聚焦到了蛋白质功能上,因为蛋白质只有具备好的功能(高活性、高选择性、高稳定性),才能成为商业化的蛋白产品。洪亮敏锐地抓住了这一关键问题与AI结合的契机,在人工智能与生命科学交汇的浪潮中,他带领团队将物理学的严谨、高分子的精妙与 AI的创造力熔铸成破解生命密码的钥匙,用跨学科思维与工程化实践,推动着AI for Science从理论迈向产业化。

上海交大自然科学研究院洪亮团队
三度转向,只因“想要做出点东西”
洪亮的科研生涯始于物理学,却从未被学科边界所限。洪亮认为物理是一个很基础的学科,本质上是一种思维方式,而不涉及具体的“出品”。比如,当年的能带理论是物理学研究出来的,但最终半导体还是由微电子领域的人做出来的,现在的量子计算机也是如此;又如超导材料,超导现象的理论是物理学家提出的,但真正把材料做出来的,还是材料学院的人。“想要做出点东西”,正是这个最朴素的想法,促使洪亮本科毕业后去了香港,读材料物理与化学,也开启了他学业期间跨界的第一步。
在香港中文大学,洪亮开始接触纳米材料,主要做半导体材料中的薄膜和纳米线。进入博士阶段,洪亮再度选择跨界,前往美国阿克伦大学进行高分子研究。这个学校的周围有两家非常有名的与轮胎和橡胶相关的公司,一家是固特异,另一家是普利司通。这些大企业的需求推动了学校的科研发展,也使阿克伦大学变得有名。不过传统高分子材料方向在洪亮看来缺乏新意:“他们做轮胎的每天就是把橡胶割开,加点东西,再拉一拉。”于是洪亮果断转去做生物高分子和蛋白质的研究,专注于高分子与蛋白质的理化性质、动力学及相变。
然而,在博士毕业之后,洪亮意识到传统实验手段的局限性,尤其是缺乏单分子技术,使得微观机制的实验研究受到很大限制。他回忆道:“那是我博士最后一年,我跑遍了全美各地听讲座,看到有人通过计算模拟研究小分子与蛋白质的相互作用,我觉得很有趣。”这段经历激发了他对计算领域的兴趣,于是2010年他在美国橡树岭国家实验室开始了计算生物学的博士后研究。随着AlphaFold的出现,洪亮认识到传统的物理计算常常用于实验结果的后解释,而AlphaFold可以给出先验的预测,且精度远高于传统物理计算方法,因此他最终转向人工智能方向。
说起人工智能,洪亮打趣说自己“在B站拿到了AI学位”,他通过李宏毅教授发布在哔哩哔哩上的AI课程走进了这门新兴技术。整整80个课时,令他对AI有了更清晰的认知,也更加坚定了AI for Science的选择。
从三维结构到生物语言符号,AI赋能蛋白质密码破译
虽说在后AlphaFold时代,蛋白质科学的关键问题进一步聚焦到了蛋白质功能上,但蛋白质功能预测非常困难:一条蛋白质序列只要改变1%,获得的新蛋白活性降低95%甚至完全失去生物功能,而用AlphaFold2去预测这些序列的结构则显示基本没有变化。这表明蛋白质结构不等于功能,结构是功能的必要非充分条件,而且非常不充分。因此,在蛋白质工程中,不能只看三维结构,而是要将蛋白质的氨基酸序列视为类似生物语言的符号。
洪亮解释道:“你可以将氨基酸序列看作一段文字。自然界中,经过统计分析,已发现的所有人类、动物、昆虫、细菌、古菌等物种的完整蛋白质序列不足10亿条,大概是10的9次方。然而,氨基酸排列的可能性有多少呢?假设一个蛋白质由400个氨基酸组成,这些氨基酸可分为20种类型,那么可能的排列组合数量是20的400次方,远远大于10的9次方。也就是说,经过自然选择和进化,蛋白质的氨基酸排列非常严格。我们通过学习这些规则,能够设计出符合自然规律的优质蛋白质,就像ChatGPT通过学习语言规则生成合适的文本一样。这种基于语法和规则的设计过程,只有借助大模型和强大的计算能力才能实现。”
“行业技术的变迁是不以个人意志为转移的。”面对势不可挡的 AI变革,洪亮前瞻性地于2020年开始将AI、计算、湿实验结合起来进行蛋白质设计研究。他组织的联合团队在过去几年持续致力于数据收集、清洗、打标签和深度学习 模型的训练,打造了蛋白质设计通用人工智能Venus系列大模型。其中有的模型用于提高蛋白质的催化活性,有的用于提高热稳定性,有的用于抵抗极端pH,还有的具有合成非天然底物的能力,该系列模型的通用能力非常强,且研发出了部分性能超越国际领先的生物科技公司统治市场10年之久的同类产品。

洪亮(右)与同事进行交流
回顾将人工智能大模型应用于蛋白质工程的过程,洪亮坦言自己面临了许多挑战。“最困难的部分是最初的试验验证和推广阶段。”科学研究需要通过试验验证来证明其价值,而不能仅停留在理论模型的构建上。最初构建模 型并展示给朋友和企业后,尽管算法表现出色,但并没有人愿意尝试。为了打破这一僵局,洪亮决定亲自下场验证,他在2022年底发表了相关文章,并着手进行试验验证。经过两轮试验,取得了理想的结果。随后,他将结果与多位专家、学者(如上海交通大学生命科学技术学院的杨广宇老师、冯雁老师)以及一些企业分享,并开始与企业接洽,使用自己开发的模型算法满足具体的企业需求,推动产业化项目的应用。
不止于CNS,做产业认可和落地应用的产品
对于洪亮来说,“想要做出点东西”的最终目标是要应用于实际,成为具有竞争力的产品。他认为,在如今的发展环境下,发表论文不再是科研人员的唯一目标,聚焦解决实际工程问题更加重要。“我们发表了很多好的文章,其中有很多实用的东西,产业界非常认可。我们国家当前面临着非常严峻的国际竞争,如果我们还停留在只发好文章的阶段,那么10年、20年后,我们的技术可能真的会落后。所以我们必须为国家的技术竞争和生产力的提升贡献力量。”
以蛋白质工程Venus系列大模型为例,其直接面向功能需求设计蛋白序列,目前已完成了全球第一款及第二款大模型设计并产业化落地的高难度蛋白质产品。当洪亮团队将蛋白质工程通用人工智能跑通,并实实在在地走进30余家企业,帮助他们进行蛋白质产品的研发。当看到自己在计算机上设计的分子在5000L发酵罐中被生产出来,并用于实际生活中,“那一刻,对于曾经做基础科研的科学工作者而言,幸福感是爆棚的。”

洪亮(右二)在5000L 规模化生产现场
除了蛋白质产品,洪亮团队在新能源、生物制药、育种等交叉领域也与 合作者取得了多项科研突破。跨学科的思维方式源自洪亮的成长之路,也成为他科研生涯中的一大特色。例如,他带领团队与上海交通大学生命科学技术学院许平老师合作,将二氧化碳转化为绿色能源,有望解决石油依赖的问题;与体外诊断企业中元汇吉联合开发的高酶活免疫诊断标记酶——碱性磷 酸酶,对比国际头部公司产品,活性提高至其3倍,有望助力阿尔兹海默病诊断的检测,目前已完成200L放大生产。
这些项目无不是为了解决实际问题。而要发现问题,就必须了解市场需求,要走出去与产业界建立联系。“你必须说服你的用户。作为技术人员,你要让用户真心想用你的产品,要让他们觉得这个产品值得让企业投入资源。”为此,必须提前做好大量的准备工作。洪亮强调:“最重要的是基础科研的老师们必须从产学研的角度出发,跨出舒适区,看看能否得到企业的认可。哪怕是像AlphaFold这样的研究,它可能不直接产生产品,但现在已经有很多人在使用。它的成功也来自跨出舒适区。”如今,洪亮团队已与30多家企业和20多所高校达成合作。“现在我不需要再去宣传我们的大模型设计能力,别人会主动找到我们。”洪亮踏着技术跃迁的节拍,每一步脚踏实地,带领团队、带着实验成果,走出实验室,走进企业,最终使他们的产品走进千万用户的生活。

洪亮参加上海交通大学暑期学校,以“AI走进生活和科学”为题作报告
(摘编自《交叉融合 医工同行 上海交通大学医工交叉二十年》 上海交通大学出版社 2025年11月第一版 主编 曾小勤 郑俊克 李冬凉)