学者笔谈
赵小东:解码生命活动奥秘的钥匙
— 学者笔谈[编者按] 继2011年上半年推出“身边的感动”系列报道受到广泛好评后,从2011年10月起,我们推出了新栏目“学者笔谈”。本栏目将陆续推出一批我校有影响的学者,重点展示他们在人才培养、科学研究、服务社会和文化传承与创新等方面的观点和见解、思路和做法及理论和实践,旨在弘扬科学精神,激荡人文情怀,回归学术本位,浓郁学术气象,全面提升交大学术的影响力和传播力。
■ 近期接连公布的人类基因组DNA元件百科全书计划研究成果引发了学界的震动,Science、Nature和Genome Biology等杂志纷纷予以报道。
■ 2003年人类基因组计划的完成仅仅标志着人类向着利用基因信息诊断、治疗和预防疾病的目标迈出了重要的第一步。这就好比我们得到了人体的“使用手册”,但是如果要将这份手册用于疾病诊断和治疗,我们必须读懂这份手册。
■ DNA元件百科全书计划的主要目的是通过研发不同的高通量技术和生物信息学工具,对人类基因组30亿对碱基这本“天书”进行功能性的注解,标明隐藏在巨大碱基信息中与人类生命活动相关的具体遗传信息。
■ DNA元件百科全书计划的研究成果将极大地促进科学界和医学界对人类基因组的认知,并应用它来理解人类生物学,提升健康水平。
现代生物医学理论认为控制人类生命活动的遗传信息储藏在细胞内的基因组上。基因组是一个物种所有基因的组成。从整体水平上探索基因的存在、基因的结构与功能以及基因间的相互关系,对于揭示生命的奥秘具有重要的作用。随着本世纪初与曼哈顿原子弹计划、阿波罗计划并称为三大科学计划之一的人类基因组计划的完成,我们获得了人类基因组DNA约30亿化学碱基对的序列信息,极大地推动了人类认识自身、掌握生老病死规律和了解生命的起源。然而,我们也面临着新的挑战,即如何从由ATCG四个碱基组成的约30亿碱基序列这本“天书”中读懂有用的信息来理解人类生长发育、健康与疾病等不同的生命活动。
在此背景下,继人类基因组计划后最大的国际合作之一的人类基因组“DNA元件百科全书”计划(Encyclopedia of DNA Elements,ENCODE),于2003年9月由美国国家人类基因组研究所启动,其目的主要是通过研发不同的高通量技术和生物信息学工具,对人类基因组约30亿对碱基这本“天书”进行功能性的注解,标明隐藏在巨大碱基信息中与人类生命活动相关的具体遗传信息。参与该计划的有来自五个国家(美国、英国、西班牙、日本和新加坡)的32个研究机构,历时近10年,耗资近2亿美元。今年9月初ENCODE计划的阶段性成果共三十多篇论文分别发表在Science、Nature和Genome Research等杂志上,产生了一系列令人惊讶的发现,尤其是发现基因组上80%的区域是有功能的,颠覆了人们一直以来所认为的人类基因组中90%以上都是垃圾DNA的观念。这些发现为未来进一步认识整个人类基因组的功能蓝图开辟了道路,对与人类疾病相关的基因序列的研究将产生重大的影响。
在此,笔者结合曾经参与ENCODE计划的研究经历,对该计划的研究内容、进展情况、研究成果和研究意义作一阐述。
DNA元件百科全书计划的研究内容
ENCODE计划的任务是使科学界和医学界能够读懂人类基因组DNA序列,并应用它来理解人类生物学,从而提升健康水平。各国科研人员所组成的ENCODE计划协会整合多种技术和方法,共同努力以发现并定义人类基因组编码的功能元件,包括基因、转录本和转录调控区域,连同它们伴随的染色质状态和DNA甲基化模式。
ENCODE计划首先要回答的一个主要问题是人类基因组上到底编码多少个基因,这些基因的组成以及在基因组DNA上的位置如何?因此该计划的主要研究内容是研发包括CAGE、PET、RNA-seq等高通量技术,对人类基因组所编码的所有基因进行系统性研究,确定这些基因的转录起始位点、转录终止位点、外显子和内含子在基因组上的位置分布。除了对这些编码蛋白质的基因进行功能性注解外,人类基因组上还有大量的转录非编码RNA的区域,负责染色体结构维持和参与染色体复制的序列,以及与蛋白质结合以影响基因表达的调控序列,这些功能性元件在基因组上的分布也是该计划的研究内容。此外,人类基因组DNA甲基化状态和组蛋白的各种不同修饰模式,以及这些表观遗传修饰对于生长发育和疾病的影响,都是DNA元件百科全书计划所关注的范围。
DNA元件百科全书计划的进展
ENCODE计划大体上分为三个阶段:一是试点研究阶段(2003年-2007年) 这个阶段用了5年时间花费5千多万美元,针对约占整个基因组1% (3千万碱基)的一组区域开展研究,ENCODE协会测试和比较当时已有的用于注解人类基因组1%区域的不同研究技术和策略,同时研发新的高通量技术用于发现基因组中的功能性元件。这个阶段的目的是寻找到合适的研究方法用于对人基因组上的功能性元件进行系统性地研究,进而将其应用于扩大到整个基因组功能性元件的探寻。2007年6月,ENCODE团队相继在Nature和Genome Research上发表了29篇相关论文,报道了他们 5年来努力的成果,即通过建立一个目录,详尽地描述1%人类基因组的功能基础。该结果高度肯定了鉴定和归类人类基因组功能元件工作的成功,并且由于ChIP-PET、ChIP-seq等新技术的兴起,大量关于功能元件的数据被获得,标志着此阶段技术研发也获得了成功。二是生产阶段(2008年-2012年)随着ENCODE计划试点研究阶段的成功,美国国家基因组研究所于2007年9月又投入1.3亿美元的经费,将人类基因组功能性注解的工作从原来1%区域推进到约30亿碱基的整个基因组范围,使ENCODE计划进入大规模化的产出阶段。这个阶段还建立了数据整合中心和数据分析中心,数据整合中心用于存储和公布数据,数据分析中心用于对数据进行综合分析,ENCODE研究团队产生的全部数据都会尽快公布到公共数据库中,数据整合中心的数据也是公开的。今年9月初,ENCODE计划的30多篇研究论文分别在Science、Nature和Genome Research等杂志上发表,标志着这一阶段接近尾声。这个阶段所取得最令人惊讶的发现是人类基因组上80%多的序列是有功能的。长期以来,人们一直认为人类基因组上不到5%的区域负责编码蛋白,基因组上其余90%以上的区域都属于垃圾。现在看来这个认识并不正确。DNA元件百科全书计划发现,大多数人类基因组序列都参与复杂的分子编程,是基因信息转变为细胞生命活动的必要程序。这个阶段中,来自美国、英国、西班牙、新加坡和日本的数百名研究人员对147种细胞组织进行了1,648次试验,将80%多的人类基因序列与某种特定的生物功能相联系,在基因组DNA上确定了400万个调控区。蛋白在这些调控区与DNA相互作用,从而发出指令为人体特定功能生成细胞。在整个研究过程中,DNA元件百科全书计划生成的原始数据已有15万亿比特,使用计算机的时间达300多年。三是后续阶段。尽管取得了长足的进展,人类基因组DNA元件百科全书的“编纂”工作还远未结束。不同的蛋白质如何与基因组上的调控区域相互作用,精确地调控不同时间和空间上的基因表达,不同的基因变异和疾病之间关系以及基因组上不同区域的各种表观遗传修饰如何影响人类的健康和疾病,这些问题都有待回答。因此美国国家基因组研究所将在今后的几年中投入1.2亿美元的经费继续推动这项计划。
DNA元件百科全书计划的研究成果
到目前为止,DNA元件百科全书计划的最主要的研究成果是发现了人类基因组上80%的序列是有功能的。除此以外,该计划还在以下几个方面取得进展:一是在人类基因组上发现了近300万个DNase I超敏位点,这幅综合性的DNase I超敏位点图谱显示发育全能型细胞和永生化细胞比高度分化的细胞DNase I超敏位点具有更高的突变率;二是在人类基因组上发现了大约840万个蛋白结合位点序列,各种不同的调控蛋白通过与基因组上的这些具有调控功能的位点相互作用,影响基因的表达;三是构建了119个转录因子组成的转录调控网络,不同的转录因子协调的相互作用来促进或抑制基因的表达。在参与ECODE计划的研究过程中,笔者曾经利用研发的PET技术,在淋巴瘤细胞的基因组上系统性地分析了致瘤性转录因子c-MYC在全基因组上的结合位点,并构建了c-MYC的调控网络,发现在B淋巴瘤细胞内直接受MYC调控的靶基因多达数百个,包括50余个转录因子,这个结果显示在整个转录调控网络中MYC处于调控枢纽的地位;四是通过转录组分析发现人类基因组超过75%的区域可转录出RNA,这个数字远远超出人们原来的估计。
DNA元件百科全书计划的意义
本世纪初,人类基因组计划的完成标志着人们向着利用基因信息进行疾病的预防、诊断和治疗的目标迈出了重要的第一步。这就好比我们只得到了人体遗传信息的“使用手册”,但是如果要将这份手册用于疾病诊断和治疗,我们必须读懂这份手册。DNA元件百科全书计划首次系统地研究了人类基因组上所有类型的功能元件的分布和组织方式,对人类遗传信息的实际应用具有划时代的意义,为未来进一步认识整个人类基因组的功能蓝图开辟了道路。
ENCODE计划的研究结果推翻了传统的观点:即我们的基因蓝图作为一群独立基因,漂浮在“垃圾DNA”的大海上。ENCODE计划研究发现人类基因组上的30亿个碱基组成了一个极为复杂的网络,在这个网络中,基因、调控序列和其它的 DNA序列以一种人们尚未了解的方式相互作用,共同控制人类的生理活动。美国国家人类基因组研究所前主任弗朗西斯?柯林斯(Francis S. Collins) 将这些结果称之为“人类生物学上的一个里程碑”。
关于DNA元件百科全书的意义,该计划的项目主任埃莉斯?费因格德(Elise Feingold)用了一个非常形象的比喻,将这部DNA元件百科全书比喻为谷歌地图,来介绍DNA元件百科全书计划的各种功能。谷歌地图可以放大某一个感兴趣的区域,查看该区域的各种信息,例如各种建筑物、街道和山川河流等。类似的,费因格德认为“研究人员可以利用DNA元件百科全书计划的图谱查看人类基因组中的染色体、基因、功能元件和核苷酸。”
科学家预言,DNA元件百科全书计划的研究将导致药物开发方面实质性的突破,以使人类真正攻克癌症等复杂疾病,对破解人类疾病和生老病死之谜、解决人类健康问题,对生命科学的研究和生物产业的发展具有非常重要的意义,将为人类社会带来不可估量的巨大影响。
学者小传
赵小东,上海交通大学系统生物医学研究院特别研究员,博士生导师。2003年毕业于中国疾病预防控制中心,获博士学位。2003年底赴新加坡基因组研究所从事博士后研究。2008年5月赴英国剑桥大学医学研究所工作。2010年1月回国,供职于上海交通大学系统生物医学研究院。
赵小东的主要研究领域包括转录组学、转录调控网络和表观遗传学。参与了美国国家人类基因组研究所发起的DNA元件百科全书计划,研发PET技术并与高通量测序平台相结合,分别在肿瘤细胞和胚胎干细胞内进行转录组学、转录因子主导的转录调控网络和表观遗传学研究,迄今为止在PNAS、Cell Stem Cell、Cell、Nature、Nature Genetics等杂志上发表多篇科研论文,被引用1,474次。主持包括国家自然科学基金项目在内的多项国家级和省部级科研项目。