探索发现 · 交大智慧

上海交大系统生物医学研究院吴强团队在三维基因组折叠机理研究中取得重要进展

人类基因组由23对染色体构成,其30亿碱基对伸展开来的线性长度约两米,但染色体在微小的细胞核中并非以线性形式存在,而是有机折叠成三维空间结构,这是细胞生命活动的物质结构基础,与基因表达调控息息相关,而基因表达调控又是生命体生理代谢发育和病理发生发展的基础。染色质的折叠是有规律的,研究染色质折叠的内在规律对于理解疾病非常重要,而折叠信号或调控元件就蕴藏在一维DNA序列中,尤其是存在于基因组的非编码调控区域。人类基因组包含有多达几百万个对于三维基因组折叠非常重要的调控元件,例如增强子、绝缘子和启动子等等,染色质架构蛋白通过与这些调控元件的动态相互作用调控基因组的空间架构,而已知最为重要的一个染色质架构蛋白叫做CTCF。

2020年3月23日,基因组领域最好的学术期刊Genome Biology在线发表了上海交通大学系统生物医学研究院比较生物医学研究中心吴强团队以《串联排列的CTCF位点作为拓扑绝缘子平衡染色质三维空间的结构和增强子/启动子的选择》为题目的最新研究成果。这项研究发现了基因组拓扑绝缘子(topological insulator),证明了基因组中串联排列的CTCF位点能够平衡基因组的空间接触和增强子与启动子的拓扑性选择。这是该团队发现增强子方向性后,在CTCF染色质架构蛋白介导三维基因组折叠和原钙粘蛋白基因簇表达调控机理研究方面取得的又一重要进展。

遗传学上定义绝缘子为基因组中能够阻断染色质位置效应的DNA调控元件,其通常位于基因组的增强子与启动子之间,并具有能够阻断增强子激活启动子的特性。绝缘子突变不仅会导致染色质空间结构异常,还会造成增强子与原癌基因异常远程相互作用(远程互作),参与了诸多疾病例如癌症的发病过程。但遗传学中有关绝缘子的性质以及作用机制还不清楚。该研究利用实验室开发的CRISPR大片段编辑技术对绝缘子进行了全面的剖析。以原钙粘蛋白alpha基因簇为模式基因(原钙粘蛋白是一类在脑发育脑认知中起到关键作用的细胞粘连分子),他们发现基因组中的CTCF位点无论是正向、反向、反向-正向组合、甚至是正向-反向组合,只要位于增强子和基因之间,都能够有效抑制增强子对基因的激活,起到绝缘子的作用。更为神奇的是位于增强子旁边的CTCF位点也能够阻断增强子的激活功能,保护启动子不被增强子异常激活。作者利用染色质构象捕获实验发现,绝缘子抑制基因表达的内在机理是通过与远处的CTCF位点形成染色质环化结构,来阻断目标基因与增强子的远程互作,从而抑制基因表达。他们通过数学计算分析发现,整个基因组中成千上万的CFCF位点都能够抑制启动子活性,它们不但能够直接负向调控启动子,而且能够通过影响增强子以及其与启动子的染色质环化强度间接负向调控基因表达。所以,基因组中每一个CTCF位点都能起到绝缘子的作用,也就是每一个CTCF位点都是一个绝缘子,这是对哺乳动物拓扑绝缘子及其作用机理的首次全面系统研究,对加深基因表达调控机理的理解有重要意义。

image001.png

更为重要的是,该研究还首次发现了绝缘子不为人知的一面,那就是绝缘子能够促进远端基因与增强子的空间远程互作,即绝缘子的拓扑性,这一发现突破了已有的认识。人们通常认为绝缘子抑制增强子与所有近端和远端基因的空间互作,但这项研究以原钙粘蛋白、免疫球蛋白、beta-珠蛋白基因簇为模式基因,通过CRISPR染色质大片段编辑、染色质构象捕获以及数学计算模拟实验都证实近端的CTCF位点与近端的CTCF位点互作,远端的CTCF位点与远端的CTCF位点互作,也就是说绝缘子具有拓扑性。这意味着,串联排列的CTCF位点作为拓扑绝缘子对染色质高级结构的折叠产生意想不到的空间平衡效果。这种空间平衡对于正确的基因表达非常重要,能够决定增强子与启动子远程互作的拓扑性选择。

原钙粘蛋白beta和gamma基因簇的启动子中包含有串联排列的42个正向CTCF位点,下游超级增强子中有串联排列的反向CTCF位点。在粘连蛋白环挤压的作用下,超级增强子近端的CTCF位点调控原钙粘蛋白gamma基因的表达(小环),而远端的CTCF位点调控原钙粘蛋白beta基因的表达(大环),这种“大环内嵌套小环”的套娃方式,决定了每个神经元中原钙粘蛋白beta和gamma基因的单等位基因表达模式(上图),形成大脑神经元表面多样化的分子标签,用于神经元的身份识别和树突自我回避。作者对超级增强子的CTCF位点进行了一系列的小鼠遗传学操作,发现在删除单个或者多个CTCF位点后,增强子不再调控远端基因簇原钙粘蛋白beta的表达,这一结果说明增强子中串联排列的CTCF位点的数量决定了它所能调控的范围大小,即CTCF位点的数量越多,调控的范围越远。为了进一步探寻其中的规律,他们做了基于粘连蛋白环挤压模型的分子动力学模拟试验,结果表明这种高级结构的形成,对于平衡染色质成环和拓扑性增强子-启动子的选择至关重要。例如在免疫球蛋白基因簇中,基因启动子有上百个正向的CTCF位点,增强子区域有10个反向的CTCF位点,通过近端与近端、远端与远端拓扑互作的方式,保证了远端基因和近端基因的平衡选择,这是抗体多样性产生的分子基础。最后,作者提出了基因组折叠的“葫芦”立体架构模型,来解释串联排列的CTCF位点作为拓扑绝缘子的工作机制(如下图所示)。

image003.png

实验室先前通过DNA大片段编辑技术对基因组上的CTCF位点进行原位反转,发现了增强子的方向性,以及CTCF蛋白结合DNA调控元件的方向性决定了染色质环化方向的规律,也就是一维线性DNA序列包含有“编码”三维基因组染色质高级结构的信息。我们知道,粘连蛋白介导的染色质环主要形成在“正向-负向”的一对CTCF结合位点之间。哺乳动物基因组中包含数万个CTCF位点,它们的排列方式如何决定更高一级的染色质三维结构,也就是三维基因组是如何折叠的,这是需要回答的机制问题。在这项最新的研究中,作者利用CRISPR大片段基因编辑技术,结合优化的高分辨率、高灵敏度的少量细胞染色质构象捕获技术,对该问题进行了全面的阐述。

综上,本研究不仅阐明了原钙粘蛋白在神经元中单等位基因随机组合表达的分子机理,也揭示了基因组中众多串联排列CTCF位点的高级拓扑折叠机理。基因组拓扑绝缘子的发现,是前期发现增强子方向性基础上,在一维线性CTCF结合位点调控三维基因组高级结构领域的又一重要研究进展。该研究由上海交通大学研究团队独立完成,吴强为本文通讯作者,助理研究员甲芝莲、李经纬和博士生葛笑为共同第一作者。研究得到了国家自然科学基金和上海市科委的资助。作者谨以此文为武汉加油,祝贺武汉抗疫取得完全胜利。

全文链接:https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-01984-7

预印本链接:https://www.biorxiv.org/content/10.1101/525543v1


龚苗青
系统生物医学研究院