探索发现 · 交大智慧

上海交大生科院iGEM软件队发表多表型全基因组关联分析方法研究成果

近日,上海交通大学生命科学技术学院生物信息学与生物统计学系、上海交大-耶鲁生物统计与数据科学联合中心团队在《Briefings in Bioinformatics》(IF: 11.622)上发表题为“GESLM algorithm for detecting causal SNPs in GWAS with multiple phenotypes”的全基因组关联分析算法论著。上海交通大学生命科学技术学院在读三年级本科生吕瑞祺为第一作者,上海交通大学韦朝春教授和张岳副研究员为共同通讯作者,生命科学技术学院生物信息学与生物统计学系为该文章第一通讯单位,生命科学技术学院四年级本科生孙健乐、三年级本科生徐栋和蒋千雪为共同作者。该研究主要基于第一作者作为上海交通大学2020年 iGEM软件队(SJTU-software)队长期间的工作,所有共同作者均为本科生。本研究开发了一个全基因组关联分析的两阶段全局搜索算法,通过贪婪等价搜索(Greedy Equivalence Search, GES)和基于约束的局部修改(Fast Causal Inference+, FCI+),以实现对多表型相关的单核苷酸多态性(single-nucleotide polymorphisms, SNPs)的有向无环图的全局搜索。

1627644438(1).png

随着全基因组关联分析的发展,如何从海量数据中获取有效信息已成为人们普遍关注的问题,而传统的方法还不能完全解决诸如检测上位性这样的问题。以往的上位性研究主要集中于单一表型的局部信息,而在本文中,我们开发了一个两阶段全局搜索算法以实现对有向无环图的全局搜索,从而在病例对照设计中识别与多个表型的全基因组上位性交互作用。GESLM结合了基于评分的方法和基于约束的方法来学习与表型相关的贝叶斯网络,在探索同时存在表型的遗传关联和基因交互作用的复杂结构方面具有较高的稳定性。

图片1.png

在正负样本平衡和非平衡的病例对照数据集上检测多个表型的上位性交互作用方面,GESLM在提高识别效率和降低误报率方面具有较高的性能,在准确性和时间复杂度之间取得了平衡,并用图而非树或者集合的形式呈现搜索结果,从而提供了更多的潜在信息。在模拟实验结果表明,与其他常见的基因组关联检测算法相比,GESLM提高了准确率和效率,尤其是在正负样本不平衡的病例对照研究中。在英国生物库(UK Biobank)数据集上的应用表明,GESLM算法在处理具有多个表型的全基因组关联数据时表现较好。

20210803_044548_894.png

20210803_044654_287.png

本研究获得国家自然科学基金(11901387)、上海市哲学社会科学规划项目(2018EJB006)的资助。

文章链接:

https://academic.oup.com/bib/advance-article/doi/10.1093/bib/bbab276/6329404?guestAccessKey=e4340cec-11c4-41a0-bc3f-6780243a6517

生命科学技术学院
生命科学技术学院