探索发现 · 学术讲座

语言模型助力蛋白质修饰研究
— 转化医学STAR论坛

主讲人简介: 

图片2.jpg       

薛宇,华中科技大学生命科学与技术学院教授、生物信息与分子成像湖北省重点实验室主任、洪山实验室研究员。现任中国生物物理学会人工智能生物学分会秘书长,中国生物信息学学会(筹)理事。研究方向为蛋白质修饰的生物信息学,构建了全球最大的磷酸化和赖氨酸修饰数据库,设计了预测修饰位点功能的语言模型,解码了动态修饰在重要生命过程中的新调控机制。

近5年在Nature Metabolism和Nature Biomedical Engineering等国际期刊上发表通讯作者论文30篇(含共同),其中IF>10的论文24篇,近5年他引10,416次。2021年,在Nature期刊出版的“中国数据驱动的医疗保健变革之梦”的焦点文章中,应邀评述我国在人工智能与医疗健康相结合的多学科交叉研究现状。

讲座摘要:

蛋白质化学修饰是调控生命过程的重要机制,其种类繁多、动态可逆且具有时空特异性,共同构成了复杂的细胞信号网络。然而,海量的修饰数据与功能机制不明之间的矛盾,构成了该领域的核心挑战。针对功能位点“大海捞针”式的预测难题,发展了一系列基于“预训练‑微调”的人工智能生物学方法。其中,工具 GPS 6.0 大幅提升了激酶特异性磷酸化位点的预测覆盖度;面对极少数样本的新型修饰(如β‑羟基丁酰化),创新提出了 pFunK 语言模型,仅凭极少已知功能位点即可有效预测新位点功能,并成功鉴定出调控癌症代谢重编程的关键修饰位点 Aldob K108bhb。为进一步系统解析修饰的动态调控网络(即“针有何用”),构建了多模态混合模型 LyMOI。该模型融合大语言模型的知识推理能力与深度学习的模式识别能力,从超过 1.3 TB 的多组学数据中,将已知的自噬调控因子知识扩展了 9.7 倍,并精准发现了由戒酒药双硫仑(DSF)激活自噬的特异性调控因子 CTSL 与 FAM98A。基于此机制解析,提出了“DSF + CTSL 抑制剂”的潜在抗癌联合疗法,展现了从大数据挖掘到精准医学应用的完整路径。上述工作表明,生成式 AI 能够从数据中“涌现”知识,不仅推动生物学研究向可解释、可预测的“人工智能生物学”新范式转变,也为深入理解生命过程与疾病治疗提供了全新路径。

报名链接:https://wj.sjtu.edu.cn/q/AkuqoDh4

转化医学研究院