探索发现 · 交大智慧

上海交大魏冬青课题组在基于人工智能的药物发现的方法研究中取得重要进展

近日,国际生物信息学重要期刊《Briefings in Bioinformatics》在线发表了上海交通大学生命科学技术学院魏冬青课题组的研究成果“DTI-MLCD: predicting drug-target interactions using multi-label learning with community detection method”。该论文提出的基于网络的标签空间划分的多标签多分类学习方法为药物-靶标相互作用(drug-target interaction , DTI)预测问题提供了一种新的思路。该方法为下游新药设计、老药新用提供了理论和实践依据,具有一定的理论意义和重要应用价值。上海交通大学生命科学技术学院“致远荣誉计划”博士生褚晏伊为第一作者,生命科学技术学院长聘教授魏冬青、副研究员熊毅为共同通讯作者,加拿大皇家学会院士、美国AAAS院士、加拿大卡尔加里大学教授Dennis Russell Salahub为论文合作者。

药物发现是识别具有潜在治疗作用的新候选化合物的过程,在此过程中,预测药物-靶标相互作用研究是一个必不可少的步骤。蛋白质是重要的药物靶标,药物通过与各种靶标相互作用在人体中发挥重要作用,可以增强或抑制其功能,发挥调控作用以达到治疗某一种疾病目的。因此,识别DTIs可以帮助理解药物的作用机制,对新靶点的发现、药物的重定位等有着至关重要的作用。此外,由于DTI的实验确定既耗时又耗费资源,现有的方法和工具还有诸多缺陷和不足,因此非常需要开发高效的计算方法,以充分利用已知DTI的异质生物学数据来厘清药物在人体中的作用机理。在过去的几十年中,已经开发出许多用于预测DTI的计算方法,但是尚存在精度低、假阳性高等问题。

图片1.png

图1. DTI预测方法简要分类

在DTI预测问题上,魏冬青课题组于2019年12月曾在《Briefings in Bioinformatics》在线发表了“DTI-CDF: a cascade deep forest model towards the prediction of drug-target interactions based on hybrid features”( https://doi.org/10.1093/bib/bbz152),发展了深度级联森林的人工智能方法DTI-CDF(图2),在小样本量数据的情况下可获得性能媲美或优于深度学习的结果。随后,进一步提出了多标签分类框架DTI-MLCD(图3),避免了冗余特征空间和高特征维度导致的过拟合等问题,并且可以一次预测药物或靶标的一系列相互作用。此外,魏冬青课题组更新了2008年建立的金标准数据集,将数据量增加了3倍,并公开了数据集更新的代码,以便于其他科研人员随时更新,并使用最新代码进行科学研究。最重要的是,根据该课题组研究建立的AI药物筛选平台,筛选出了新冠病毒的有效的中药有效成分抑制剂和多肽——人肠防御素5 (HD5),获得钟南山院士团队和合作单位陆军军医大学王军平团队的实验验证(魏冬青为共同通讯作者的论文成果发表在消化病学顶级期刊《Gastroenterology》,https://doi.org/10.1053/j.gastro.2020.05.015)。

图片2.png

图2. DTI-CDF框架

 图片3.png

图3. DTI-MLCD框架

另外,在非编码与疾病的相关性预测上,基于深度随机森林算法和序贯学习的过程,在学习和过程中考虑标签之间的相关性,魏冬青课题组也发展并构建了深度随机森林在多标签预测中的应用。在小样本数据的情况下,获得了与深度学习相媲美的结果。2020年6月,该成果在《Briefings in Bioinformatics》发表 “MLCDForest: multi-label classification with deep forest in disease prediction for long non-coding RNAs”( https://doi.org/10.1093/bib/bbaa104)。

此外,预测CYP450酶-底物选择性(即一个候选药物分子会被哪一种或哪几种CYP450酶识别和结合)将能促进对药物分子的药代动力学毒理学性质、药物相互作用等方面的理解,最终也将促进药物发现和开发,具有重要的临床意义。2019年11月,美国化学学会出版的《Journal of Chemical Information and Modeling》期刊上还出版了魏冬青课题组题为“Prediction of CYP450 Enzyme-Substrate Selectivity Based on the Network-Based Label Space Division Method”(https://doi.org/10.1021/acs.jcim.9b00749)的论文,为CYP450酶-底物选择性预测问题提供了一种新的解决思路。

该系列研究获得了国家重点研发计划(2016YFA0501703)、国家自然科学基金重点项目(61832019)、面上项目(61872094)、青年项目(31601074)等项目资助。

论文链接:https://doi.org/10.1093/bib/bbaa205

魏冬青 熊毅 褚晏伊
生命科学技术学院