原创 mumu 图灵基因 今天

来自专辑 前沿生物大数据分析

撰文:mumu

IF=42.778

推荐度:⭐⭐⭐⭐⭐

亮点:

1、研究了小鼠胚胎全组织、单细胞分辨率水平、不同组织和器官中、随时间变化的动态细胞分化,体轴和细胞增殖基因构成的全局发育转录组图谱。

2、小鼠胚胎时空表观基因组动态图谱,为研究组织或器官进展过程中的基因调控提供了丰富资源,同时为人类发育障碍中涉及的调控元件提供了研究起点。

2020年7月29日,美国斯坦福大学医学院Michael P. Snyder教授在《Nature》上发表了一篇名为“Perspectives on ENCODE”的文章。这也是DNA元件百科全书(ENCODE)计划第三阶段发布的成果论文之一 [1]。ENCODE计划由美国人类基因组研究所(NHGRI)和欧洲生物信息研究所(EMBL)牵头,于2003年启动,其长期目标是开发人类基因组功能元件的综合图谱,其中包括基因、与基因调控相关的生化区域(例如,转录因子结合位点、开放染色质和组蛋白标记)和转录亚型。所有标记作为候选顺式调节元件(cCREs)的位点,可能在调节基因表达中起到功能性作用。该项目前已经扩展到老鼠等生物模型。在ENCODE计划的第三阶段,分别为人类和老鼠生成了近100万和30多万个cCRE注释,也为科学界提供了宝贵的资源。

ENCODE计划从2003年启动,报道了第一个几乎完整的人类基因组序列。当时,科学家对人类基因组的了解还很有限。例如,虽然已知有5%的基因组在胎盘哺乳动物中,处于纯化选择阶段,但对特定元件的了解,特别是关于非蛋白质编码基因和调控区域的知识,仅限于几个充分研究的位点。ENCODE旨在全面注释人类基因组中的元件,如基因、控制元件和转录亚型,后来扩展到注释几种模式生物的基因组。ENCODE中的人类基因组分析是连续进行的。第一阶段(2003年至2007年)涉及人类基因组的1%,以评估新兴技术。这1%的样本中有一半是在感兴趣的区域,另一半是用来取样基因组特征的范围(例如G+C含量和基因)。基于微阵列的分析被用于绘制转录区域、开放染色质以及与转录因子和组蛋白修饰相关的区域,这些分析开始揭示人类基因组和转录组的基本组织特征。第二阶段(2007年至2012年)引入了基于测序的技术(例如,染色质免疫沉淀测序(ChIP-seq)和RNA测序(RNA-seq)),这些技术可查询整个人类基因组和转录组。普通测定法,如转录、开放染色质和组蛋白修饰图谱被用于多种细胞系,而更具体的分析,如转录因子结合区的定位,则广泛地在少数细胞系上进行,以提供关于基因组中有许多调控蛋白的信息。对这些细胞的亚细胞室(细胞核、胞浆和亚核室)的转录组分析可以分析转录物的位置。 ENCODE 3(2012年-2017年)扩大范围并增加了新型检测方法(图1),诸如通过配对末端标记(ChIA-PET)和Hi-C染色体构象捕获的染色质相互作用分析等方法揭示了RNA结合和染色质3D组织的格局。

第2阶段和第3阶段在500多种细胞类型和组织中进行了9239次实验(人类7495次,小鼠1744次),包括转录区域和转录亚型的定位、RNA结合蛋白识别的转录区域、转录因子结合区域以及含有特异性组蛋白修饰的区域,开放染色质,和三维染色质相互作用。这些努力,极大地增强了人类基因组的视野(图2),识别了20225个蛋白质编码基因和37595个非编码基因(图2a),2157387个开放染色质区,750392个组蛋白修饰区,1224154个由转录因子和染色质相关蛋白结合的区域(图2c),845000个RNA亚区被RNA结合蛋白占据,以及染色质基因座之间的远距离相互作用超过130000个。这些注释极大地增强了关于人类基因组的看法,从2003年的原始注释到更丰富和更高分辨率的视图(例如,图2d,e)。事实上,尽管已知的人类蛋白质编码基因的数量变化不大,但自项目开始以来,转录异构体、长非编码RNAs(lncRNAs)和潜在调控区域的数量已经大大增加(图2a-c)。

分级转录程序调节哺乳动物的组织发生,是一个时空协调的改变细胞特性、数量和位置的过程。当代的RNA-seq可以全面量化表达轨迹,包括驱动模式,细胞类型规范和分化及其调控靶点的转录调控因子。研究人员追踪了从胚胎发育第10.5天到出生的12个主要组织,系统地绘制了小鼠多聚腺苷酸化RNA转录组。这些小鼠胚胎全组织、单细胞分辨率水平、不同组织和器官中、随时间变化的动态细胞分化,体轴和细胞增殖基因构成的全局发育转录组图谱是ENCODE Consortium小鼠胚胎项目的一部分 [2],该项目为同一样本矩阵提供了全基因组microRNA、DNA甲基化、组蛋白标记和染色质可及性数据集。

在哺乳动物胚胎发生过程中,差异基因表达逐渐建立了每个组织和器官系统的特性和复杂性。该文章采样12个组织和器官,系统地定量了小鼠从胚胎第10.5天(E10.5)到出生后第0天(P0)胚胎发育的polyA-RNA。其中为了更好地解释核心样本集,在P0处还增加了5个额外器官,总共采样17个组织(图4a,b)。产生的发育转录组图谱由动态细胞分化、体轴和细胞增殖基因集体构成,这些基因集进一步由其启动子的转录因子基序代码表征。研究人员用单细胞RNA-seq(逆转录成cDNA的RNA序列)分解组织水平的转录组,发现神经发生和造血在基因和细胞水平上都占主导地位,共同占差异基因表达的三分之一和已鉴定细胞类型的40%以上。通过整合启动子序列基序和ENCODE表观基因组图谱,发现了神经元表达簇中一个显著的启动子去抑制机制,该机制可归因于新的抑制因子。以发育中的肢体为重点,单细胞RNA数据识别出25种候选细胞类型,包括祖细胞和分化状态以及计算推断的谱系关系。利用单细胞RNA-seq对从整个组织表观基因组染色质数据中提取的整合顺式元件(IDEAS)模型进行分解,提取出细胞型转录因子网络和候选增强子元件的互补集。这些ENCODE参考数据、计算出的网络成分和IDEAS染色质片段是匹配表观基因组学发育矩阵的辅助资源,可供研究人员进一步挖掘和整合。

由于这些全组织数据是为共享使用而设计,包括与高分辨率单细胞转录体的整合,因此选择了一种广泛使用的RNA-SEQ方法,该方法在大样本和单细胞尺度上很稳健,并且在ENCODE计划中其他的单细胞RNA测序(scRNA-seq)实验也已经应用。单细胞RNA-SEQ数据越来越多地被用于发现和定义组成复杂组织的细胞类型和状态,例如批量的mRNA-SEQ矩阵。对于胚胎发生和再生系统,scRNA-seq有望进一步解决长期存在的问题,即发育谱系中中间细胞类型的性质和数量,以及控制它们之间转换的调节机制。最后,scRNA-seq数据通过为单个细胞(或细胞组)明确分配其转录因子库,为基因网络建模提供了重要的输入源。不同的当代scRNA-seq方法具有互补优势,有些方法(例如Fluidigm SMART-seq)检测相对较少数量的细胞,具有较高的转录检测效率和RNA异构体识别覆盖率,而其他方法(例如10x Genomics)以较低的转录检测效率捕获更大的细胞数量,并且没有异构体或启动子使用信息。ENCODE scRNA-seq资源识别细胞谱系和阶段,并提取其相应的细胞类型标记基因集、转录因子(TF)网络、启动子和远端候选调控元件及其TF结合基序。更高灵敏度的数据类型还揭示了支持计算谱系推断模型的谱系特异性调控因子在发育过程中早熟的低水平转录。 发育基因组学的一个新目标是以单细胞分辨率全面绘制胚胎发生的顺式和反式调控编码。在这个方向上,使用scRNA-SEQ数据去卷积IDEAS增强子元件模型,这些模型基于全组织ENCODE表观数据。针对细胞类型和阶段进行分析的候选活性和平衡增强子元素的最终集合可补充匹配的反式TF网络。 除了全局发育转录组图谱数据,这次的ENCODE小鼠胚胎项目中还涉及了时空表观基因组图谱,这些时空表观基因组图谱为研究组织或器官进展过程中的基因调控提供了丰富资源,也为研究人类发育障碍中涉及的调控元件提供了起点 [3]。

胞嘧啶DNA甲基化对哺乳动物的发育至关重要,但对其在胚胎发育过程中的时空分布的了解仍然有限。作为小鼠ENCODE计划的一部分,该论文分析了从胚胎发育到成年的9个发育阶段内,12个小鼠组织或器官中的168个甲基化基因组。通过比较不同发育阶段不同组织或器官的甲基化组,确定了11,808,810个基因组区域,这些区域表现出CG甲基化差异。这些DNA元件主要在胎儿发育过程中丢失CG甲基化,而这种趋势在出生后发生逆转。在胎儿发育的晚期,非CG甲基化在关键发育转录因子基因内积累,与其转录抑制一致。整合全基因组DNA甲基化、组蛋白修饰和染色质可及性数据,能够预测461141个假定的发育组织特异性增强子,这些增强子的人类同源物丰富了疾病相关的遗传变异。 哺乳动物胚胎发育涉及基因精细的时空调控。该过程由与调节性DNA元件(主要是增强子和启动子)结合的转录因子(TFs)的复杂编排,介导和影响这些事件的表观遗传修饰。具体而言,TFs获得调控DNA的能力与组蛋白和DNA的共价修饰密切相关。胞嘧啶DNA甲基化作为一种表观遗传修饰,对基因调控至关重要。该碱基修饰主要发生在哺乳动物基因组中的胞嘧啶,其次是鸟嘌呤(mCG),并且在不同组织和细胞类型的调节元件上是动态的。mCG可直接影响多种TFs与DNA的亲和力,并且在启动子处靶向添加或去除mCG,分别与基因转录的增加或减少相关。非CG甲基化(mCH;其中H表示A、C或T)在胚胎干细胞、卵母细胞、心脏和骨骼肌中也有相当程度的存在,并且在哺乳动物的大脑中大量存在。事实上,人类神经元的mCH水平超过mCG。尽管其确切功能尚不清楚,但mCH直接影响MeCP2的DNA结合(MeCP2是一种甲基结合蛋白,其突变导致Rett综合征)。 胞嘧啶DNA甲基化在哺乳动物发育过程中受到积极调控。然而,相对于预植入胚胎发生,表观数据缺乏用于后期阶段,在此期间,主要器官系统的解剖特征的出现和人出生缺陷变得明显。研究人员使用小鼠胚胎生成了从第10.5天(E10.5)到出生后第0天(P0)的九个发育阶段的十二种组织类型的表观基因组和转录组图谱,对于某些组织,甚至持续到成年。利用全基因组亚硫酸氢盐测序(WGBS)以生成碱基分辨率的甲基化图谱。鉴定了1808810个显示胎儿组织发育和组织特异性mCG变异的基因组区域,占小鼠基因组的22.5%。大多数(91.5%)的mCG变异区与启动子、CpG岛或CpG岛岸没有重叠。观察到的主要甲基化模式:在胎儿发育过程中,出生前持续丢失CG去甲基化,而出生后主要在远端调节元件上的CG再甲基化。在胚胎发育过程中,非CG甲基化在编码发育性TFs的基因体内积累,这与这些基因未来的抑制有关。利用DNA甲基化、组蛋白修饰和小鼠编码的染色质可及性数据的综合分析,预测了所有胎儿组织中461141个推定的增强因子。推定的胎儿增强子,准确地再现了从匹配的发育阶段和匹配的组织类型中,经实验验证的增强因子。预测的调控元件显示时空增强子样活性染色质,与组织发育所必需基因的动态表达模式相关。推定的胎儿增强子的人类同源物丰富,可成为多种人类疾病的危险因素,为研究与人类发育障碍疾病有关的调控元件打开了新世界的大门。 为了评估发育中的小鼠胚胎中胞嘧啶DNA甲基化的情况,生成了168个甲基化组,覆盖了来自3个原始生殖层的大部分主要器官系统和组织类型(图6a)。更好地了解胎儿发育过程中的表观基因组情况,来自同一组织和器官样本的组蛋白修饰(ChIP–seq),染色质可及性(ATAC–seq)和基因表达(RNA-seq)数据被纳入了分析。所有胎儿组织的基因组都被严重CG甲基化,总体mCG水平为70-82%(值得注意的是肝脏除外,为60-74%;图6b)。小鼠胎肝显示部分甲基化结构域(PMDs)的特征。尽管胎儿组织在不同阶段的整体mCG水平相似,但还是确定了1808810个CG差异甲基化区域(CG-DMRs;组织类型和发育阶段甲基化不同的基因组区域),平均长度为339bp,覆盖了小鼠基因组的22.5%(614 Mb)。这Z种全面的胎儿组织CG-DMR注释捕获了所有先前报告的成年小鼠组织CG-DMRs的96%(n=272858),并确定了超过150万个新区域(图6c)。值得注意的是,有76%的CG-DMR距离邻近的转录起始位点(TSS)超过10 kb。只有8.5%(n=153,019)的CG-DMR与启动子,CpG岛(CGI)或CGI岛岸重叠(图6d)。大约91.5%(1655791)的CG-DMR位于远端,显示出高度的进化保守性,表明它们具有功能性(图6d)。通过整合这些表观遗传学数据集,计算出468141个可能是胎儿增强因子的CG-DMR。根据mCG差异程度及其与转座子的关系,进一步将剩余的CG-DMR分为四种类型。这些结果为小鼠基因组中mCG变异提供了一个全面的注释。

以上所有的ENCODE数据和功能,均可从可公开访问的数据门户(https://www.encodeproject.org)免费获取。论文中的原始数据和处理后的数据,可直接从云数据库中获取Amazon Public Data Set(https://registry.opendata.aws/encode-project/)。 教授介绍

Michael Snyder是斯坦福大学医学院Stanford B. Ascherman教授、遗传学教授以及基因组学和个性化医学主任。其主要研究方向为使用多种方法分析基因组和调控网络。1)转录组:为了注释基因组,开发了用于测序酵母和人类转录组的RNA测序。发现真核转录组比以前所了解的更复杂,并且胚胎干细胞比分化的细胞具有更多的转录亚型。2)转录因子结合网络:开发了通过基因组定位转录因子结合位点的方法。利用其绘制调控图,并一直在用它来帮助破译组合的调控密码(哪些因素共同作用调控哪些基因)。3)变异:DNA序列变异和调控信息变异一直用于解释个体与物种之间的差异。开发了针对人类的配对末端测序,发现人类具有广泛的结构变异(SV),即缺失,插入和倒位。4)人类疾病:将基因组测序,转录组学,蛋白质组学,代谢组学,DNA甲基化和微生物组测定的组学方法应用于人类疾病的分析。这些综合的组学方法正在被用来帮助理解疾病的分子基础以及诊断和治疗方法的发展。近期在Cell、Nature 子刊等杂志发表多篇高影响力文章。

参考文献

1. Abascal, F., Acosta,R., Addleman, N.J. et al. Perspectives on ENCODE. Nature 583, 693–698 (2020). 2. He, P., Williams, B.A., Trout, D. et al. Thechanging mouse embryo transcriptome at whole tissue and single-cell resolution.Nature 583, 760–767 (2020). 3. He, Y., Hariharan, M.,Gorkin, D.U. et al. Spatiotemporal DNA methylome dynamics of the developingmouse fetus. Nature 583, 752–759 (2020).

dna编码库_Nature |DNA元件百科全书(ENCODE)计划, 全面注释基因组元件相关推荐

  1. dna编码库_DNA编码化合物库,新药筛选划时代的变革

    在药物发现过程中面对的主要挑战是在成本可控范围内,如何快速并且高质量地找到尽可能多的能够与靶点蛋白相结合的活性化合物.为了解决这个问题,我们不断完善并创新着筛选方法.例如在一些项目中我们通过使用高通量 ...

  2. dna编码库_DNA编码分子库技术取得新进展

    DNA编码分子库技术取得新进展 记者近日从重庆大学获悉,该校与瑞士的科研团队合作实现了基于恒定大环骨架的DNA编码分子库的合成与筛选,获得内含超过3500万种不同化合物的分子库,有望将这一筛选时间从数 ...

  3. 【DNA计算】DNA编码----笔记1

    DNA编码的学习--笔记1 虽然一万个不想学这个东西,但还是要先了解一些.书名<DNA编码序列的设计与优化> 第一章 DNA的计算 主要讲了DNA计算相关的内容. 首先说了DNA为什么出现 ...

  4. DNA测序,第一代DNA测序,第二代DNA测序,第三代DNA测序,sanger法

    视频地址: DNA测序,第一代DNA测序,第二代DNA测序,第三代DNA测序,sanger法测序,gilbert法测序--分子生物学实验教程,生物化学实验教程 关注 DNA测序(A,T,C,G),DN ...

  5. ubuntu安装谷歌浏览器 typora+出现编码错误‘ascii‘ codec can‘t encode character ‘\u6b66‘+docker里安装tensorrt报错

    一.首先下载谷歌浏览器 https://www.google.cn/chrome/ sudo dpkg -i google-chrome-stable_current_amd64.deb 就安装好了, ...

  6. 人类dna信息量_古人类DNA揭人类演化史 白肤碧眼1万年前才出现

    原文配图:冰河时代现代人印象图. 新闻背景 日前,英国<自然>杂志评出十位"中国科学之星",中国科学院古脊椎动物与古人类研究所付巧妹研究员入选,因为她帮助重新书写了欧洲 ...

  7. AD19 PCB设计导入元件库、导出pdf、定义板子形状、生成元件库、铺铜基本操作总结

    导入元件库 1.点击右侧components 2.右键,然后选择"Add or Remove Libraries." 3.点击从文件安装 4.选择库文件 导出PDF 导出原理图或者 ...

  8. 最强的视频会议软件编码库:ffmpeg

    ffmpeg是一个完整的.跨平台的音.视频编码库,ffmpeg几乎包含现今较为流行的音视频编码,许多软件产品的编码器都是基于ffmpeg,因此其在编码领域占有相当重要的地位.在视频会议软件的开发当中, ...

  9. mLife | DANMEL:面向细菌耐药移动元件分析的手工精细注释参考数据库

    病原微生物生物安全国家重点实验室周冬生团队.中国科学院北京基因组研究所陈非团队联合发表的文章"DANMEL: a manually curated reference database fo ...

最新文章

  1. 【青少年编程】【三级】病毒传染模拟程序
  2. go中NOSQL数据库操作
  3. Chat Ban 二分,等差数列(1300)
  4. 扩展jquery scroll事件,支持 scroll start 和 scroll stop
  5. python关键词提取源码,python实现textrank关键词提取
  6. C# MD5加密与解密
  7. 内推|网易高级数据分析师(地点:杭州)
  8. 江苏计算机专业接本,江苏农牧科技职业学院专接本或专转本的通知
  9. JsonView用法
  10. 英语形容词的排列顺序 -- 重点记忆
  11. 程序员没有那么多996!
  12. 微信公众号获取用户位置信息
  13. 通达OA任意用户登录漏洞手工复现
  14. Python数模笔记-NetworkX(5)关键路径法
  15. 关于Palantir—第四部分:Palantir应用程序
  16. 如何用计算机整理数据,总结:如何在excel中制作数据统计表(最简单的excel分类汇总教程)...
  17. 假设中国某航空公司规定: 中国去欧美的航线所有座位都有食物供应。每个座位都可以播放电影。 中国去非欧美的国外航线都有食物供应,只有商务仓可以播放电影。 中国国内的航班的商务仓有食物供应,但是不可
  18. 流利阅读 2019.1.30 China’s Baidu pledges to improve search service after complaint
  19. php自动上传到onedrive,让iPhone里的照片自动上传备份到OneDrive
  20. 案例研究:中国金融科技50强之“安心de利”风控模式

热门文章

  1. 解决方案:加盐加密算法BCrypt
  2. 关于ElasticSearch整合SpringBoot
  3. JVM参数调优详细过程
  4. Eureka实例自动过期
  5. python使用百度OCR图片验证码
  6. SpringCloud 使用Zuul构建微服务网关
  7. 提高.NET编程水平的50个要点(转载)
  8. Spring核心技术原理-(2)-通过Web开发演进过程了解一下为什么要有Spring AOP?
  9. Yii2语言国际化配置
  10. 大数据-03-Spark入门