Regulatory genomic circuitry of human disease loci by integrative epigenomics

文章目录

  • Regulatory genomic circuitry of human disease loci by integrative epigenomics
  • 前言
    • 1.EpiMap: Methodological overview and contributions
    • 2.Combined resource: 14,000+ datasets across 833 samples and 18 assays
    • 3.ChromImpute
    • 4.Validation:
    • 5.Cross –sample relationships
    • 6.Regulatory Genomics
    • 7.GWAS: tissue, target, fine-mapping
    • 8.Conclusion

前言

这次分享的是今年2月发表在nature的一篇文章。在分子水平注释人类疾病仍然是一个挑战,因为93%与疾病相关的突变位点位于基因组的非编码区域,而这些区域如何调控基因的转录和翻译仍然未知。为此,来自麻省理工学院的研究人员基于多个大型合作基因组图谱项目(包括ENCODE、Roadmap Epigenomics、Genomics of Gene Regulation)的数据,提出了一个新的人类表观基因组图谱,命名为EpiMap(Epigenome Integration across Multiple Annotation Projects)。


1.EpiMap: Methodological overview and contributions


文章的主要贡献:

  1. 基于多个表观遗传修饰信号注释了染色质状态(chromatin states),同时结合DNA可及性注释增强子
  2. 将增强子分为不同的模块(enhancer modules),并根据转录因子motif和GO富集结果推断每个模块的上游调控转录因子和下游远程调控基因;
  3. 整合增强子位置,增强子和基因的远程交互作用和GWAS SNP结果,预测SNP的靶基因和组织特异性;
  4. 将GWAS性状划分为“单因子”和“多因子”性状,揭示了它们与疾病的关系;
  5. 区分了“单效”和“多效”位点,并发现得分最高的位点通常有多个驱动突变,通过不同的方式发挥“多效”功能:多个增强子和一个共同的靶基因、调控单个组织中的多个基因或多个组织中发挥功能。

  EpiMap首先使用统一的数据处理流程分析了来自859个样本的3,030个数据集,并另外使用算法估算出了14,952个数据集。接着基于多个表观遗传修饰信号注释了染色质状态(chromatin states),同时结合DNA可及性注释增强子;在833个生物样本中定义了基于H3K27ac的局部活性水平,并基于此将增强子分为300个增强子模块(enhancer modules),包括290个组织特异性模块和10个广泛活跃的模块。并根据转录因子motif和GO富集结果推断每个模块的上游调控转录因子和下游远程调控基因;结合表观基因组-转录组的相关性以及增强子与邻近基因的距离,研究人员预测了增强子-基因交互(enhancer-gene links)。接下来,增强子注释及其组织特异性来解释与复杂性状相关的GWAS位点。最后研究了性状-组织、性状-性状和组织-组织表观基因组GWAS共富集模式,以了解它们之间复杂的相互作用。文章主要分为三个部分介绍,第一部分是数据的产生和验证,数据整理到了并可视化到了网站 compbio.mit.edu/epimap。第二部分是调控基因组相关内容,第三部分是研究表观基因组GWAS共富集模式,了解与疾病的关联。

2.Combined resource: 14,000+ datasets across 833 samples and 18 assays

  来看文章提出的综合数据集,数据包含了833个样本的1万4千多个数据集。数据根据不同的lifestage和type等划分33个tissue。其中蓝色的为观测数据,灰色的是估算出的数据,可以看到估测数据占大部分。

3.ChromImpute

  研究使用的数据估测方法是2015年这个团队发表在NB上的ChromImpute,首先是建立了同sample的mark-to-mark的回归树,然后建立了同mark的sample-to-sample的回归树,然后combine这两个regression tree进行预测。

4.Validation:

  研究通过corss-validation的方法对估测数据进行验证,第一个图是随机2000个location的不同mark的热图,第二个图是三个不同分辨率下三个随机区域中的13个mark和assay的成对观测-估测数据。

  对于估算数据,计算了所有数据集的QC score,标出了不match观测数据的数据集,红色的是标出的数据集。

  研究同样还通过实验新生成数据来验证估测数据,对于both “average-signal” 和 “nearest-track”两种benchmark都表现良好,可以看到无论是点状还是broad的mark,估测数据的AP都非常高。

5.Cross –sample relationships

  研究利用数据的active mark和repressive mark来学习cross-sample的关系,通过Spearman相关性聚类发现active mark的聚类主要通过分化谱系和组织类型驱动,比如blood, primary cell和organs,而repressive mark捕获了不同的生命阶段,包括成人,胚胎等等。

  同时结合染色质状态,DNA可及性和注释增强子,可以建立表观基因树,通过life stage和type分类,然后根据tissue分类。结果可以得到50个子树。

  研究还通过ChromHMM注释了18种染色质状态,将数据从127种tissue扩展为833种。可视化结果可以从网站https://epilogos.altius.org/看到,可以看到sample的tracking,覆盖率,染色质状态。研究人员同样还建立了非编码区元素的dictionary,包含激活状态的enhancer/promoter的H3K27ac信号,enhancer的状态和DHS区域,共有2,069,086 enhancers和204,104 Promoters。

6.Regulatory Genomics

  这是聚类得到的300种激活enhancer的module,97%的module具有tissue特异性,3%在各种tisuue中广泛存在,可以看到他们聚类于不同的器官或者组织,还有一些primary cell和神经脑组织相关的enhancer等。

  关于下游调控基因。结合几何距离,二项式和超几何检验可以做GO富集,其中纵列是不同的enhancer的module,可以看到富集结果具有很强的组织和功能特异性。

  研究同样做了上游调控基因的富集。在202个module上富集有86个motif familiy。motif具有普遍的module特异性,95%的motif,每个motif平均富集在3%的module。还有一部分motif广泛存在于不同的module中。

  基因的Motif富集将组织分类为不同的亚组,比如心脏被划分为胚胎心脏(NFIX和E2F1)、主动脉和动脉(SRF和PAX5)以及心腔(MEF2D和ESRRG);大脑被细分为胚胎(NFIX和NEUROD2),成人大脑(RFX2和SOX10)和星形胶质细胞(NFE2L2和JDP2);造血细胞被细分为为自然杀伤细胞(ETV2)、B细胞(NFKB2和SPIB)和多能祖细胞(GATA1和NFE2L2)。同时master regulator motif表现出了组合型的富集,与多个tissue相关。

  研究同时根据mark水平,距离和enhancer注释相关性,预测gene和enhancer之间的link,每个gene平均和13个enhancer有link,每个enhancer和1.5个gene存在link,平均距离是42359bp。右边是根据2020年提出BENGI提出的benchmark和功能相关划分数据集进行验证。

7.GWAS: tissue, target, fine-mapping

  研究人员使用210万个增强子注释及其组织特异性来解释与复杂性状相关的GWAS位点。研究人员汇总了了一份来自803项GWAS研究的GWAS位点数据集,捕获了70,000 多个GWAS位点。研究人员发现了17,658个显著的性状-组织富集,覆盖了245个性状中的27,000多个候选GWAS SNP。图中标注了40个代表性的性状。

  研究人员结合表观基因组学的注释和增强子-基因的远程交互作用,对疾病相关的位点产生了新的认识。例如乳腺癌GWAS富集在上皮细胞和癌细胞样本中,其中SNP rs17356907位于靠近USP44基因的增强子内部,但与另一个基因NTN4交互,而NTN4与肿瘤发生和血管生成有关。精神分裂症GWAS在中额叶皮质样本中富集,其中SNP rs2007044位于一组靠近DCP1B启动子的增强子内部,所有这些增强子都与CACNA1C交互,已知CACNA1C编码与神经精神疾病有关的钙通道蛋白,提示多种变异可能共同导致其失调。

  研究人员研究了性状-组织、性状-性状和组织-组织表观基因组GWAS共富集模式,以了解它们之间复杂的相互作用。图中每个圆都是一个性状的tissue富集饼图,研究人员使用在每个性状中富集的组织数量来将性状划分为两类:56个“单因子”性状(22%)在一个组织中具有最多富集(例如,心脏的QT间期、脑的受教育程度和免疫细胞的甲状腺功能减退),而192个“多因子”性状(79%)平均富集在五个组织类别中(例如,免疫细胞和大脑中的阿尔茨海默病;脂肪、肌肉、肾脏和消化组织中的腰臀比),其中26个“多因子”性状(11%)平均富集在14个组织类别中。


  根据组织的共富集特性可以区分每个GWAS性状的“主要”组织(例如免疫细胞,肝脏,心脏,大脑和脂肪组织)与“伙伴”组织(例如,消化、肺、肌肉和上皮组织),“主要”组织和“伙伴”组织相比始终表现出更高的富集,这表明它们具有驱动作用而不是辅助作用。特定的主要-伙伴组织共同发生的频率比预期的要高,并且揭示了它们可能在性状上共同发挥作用。冠状动脉疾病(CAD)富集在19个组织组中,其中肝脏、心脏、等具有更多的SNP,涉及到更多的生物过程。

  可以看到CAD的一些 snp位点只在心脏、肝脏富集,还有一些富集在不同的tissue中。研究人员将“多因子”性状的SNPs划分为组织特异性的组分。例如,339个与CAD相关的SNPs划分为:195个富含动脉、心脏和血管形态发生的心脏增强子SNPs;171个脂质稳态的内分泌增强子SNPs;169个胆固醇和脂质代谢和转运的肝脏增强子SNPs;轴突导向和局灶粘附中122个脂肪增强子SNPs,与脂肪组织神经支配过程一致;112个胚胎干细胞衍生的肌肉增强子SNPs,富含中隔形态发生、腔和主动脉发育。

  这些分区也显示出独特的协同关系。例如:心脏,肌肉和内皮细胞增强子中的CAD SNPs均与与高血压和心房颤动相关;肝脏和内分泌增强子中的CAD SNPs与收缩压相关;脂肪增强CAD SNP与腰臀比相关;以及肝脏,脂肪和内分泌CAD SNPs与HDL胆固醇相关。

  从单个多因子性状位点来看,既有在单个组织中富集的,也有在多个组织中富集的。一些CAD SNP位点仅与心脏增强子重叠(例如EDNRA、TCF21和ADAMTS7),一些仅与肝脏增强子重叠例如PCSK9),一些不位于任何增强子中,许多位于广泛活跃的增强子中(例如,LDLR、APOE、SH2B3和COL4A1),这表明即使在单个SNP位点水平上也存在多种调控机制。

  研究人员区分了“单效”和“多效”位点,并发现得分最高的位点通常有多个驱动突变,通过不同的方式发挥“多效”功能:多个增强子和一个共同的靶基因、调控单个组织中的多个基因或多个组织中发挥功能。即使看似单一的SNP也会在其他组织里:rs17114046在肝脏中有很强的信号,同时它位于多个增强子中,并调控基因PLPP3,肝脏特异性PLPP3缺失会增加动脉粥样硬化;然而这个SNP也同时连接到另一个肝脏产生的补体因子C8A,并通过心脏特异性和肌肉特异性的交互连接到PRKAA2。这说明单个SNP也可能具有多种功能,这一特性存在与许多高度富集的SNP中。

8.Conclusion

  该研究结果证明了高通量、丰富多维、高分辨率的表观基因组和调控回路注释在研究基因调控、复杂性状和疾病位点机制研究中的实用性,使得生物空间和疾病复杂性的规模、范围和覆盖面达到前所未有的程度。以上所有的network,dataset和locus都已可视化并且可以在网址compbio.mit.edu/epimap下载。

【Nature | EpiMap】Regulatory genomic circuitry of human disease loci by integrative epigenomics相关推荐

  1. 【文献阅读】Faces of emotion in Parkinsons disease

    [文献阅读]Faces of emotion in Parkinsons disease: Micro-expressivity and bradykinesia during voluntary f ...

  2. 【Nature重磅】OpenAI科学家提出全新强化学习算法,推动AI向智能体进化

    深度强化学习实验室 官网:http://www.neurondance.com/ 论坛:http://deeprl.neurondance.com/ 编辑:DeepRL 近年来,人工智能(AI)在强化 ...

  3. 【Simple Baselines】《Simple Baselines for Human Pose Estimation and Tracking》

    ECCV-2018 文章目录 1 Background and Motivation 2 Advantages / Contributions 3 Method 3.1 Pose Estimation ...

  4. 【Nature重磅】大脑意念可以控制机器说话了

    为了让失语者开口「说话」,神经科学家设计了一种可以将大脑信号转换为语音句子的设备.这项研究发表在4月24日的Nature期刊上. 许多失去说话能力的人需要利用某种技术进行交流,这项技术要求他们做出微小 ...

  5. 性能计数器驱动_【Nature Sustainability】机械力驱动的摩擦电高效空气负离子发生器...

    空气负离子被称为空气"维他命",是一种电迁移率在1-2 cm2 V-1 S-1的小离子.就目前的科学研究表明,他们对空气中PM物质的净化,有害有机物的分解,以及细菌的抑制均具有重要 ...

  6. Deep Learning 【Nature review】

    如今,机器学习的技术在我们的生活中扮演着越来越重要的角色.从搜索引擎到推荐系统,从图像识别到语音识别.而这些应用都开始逐渐使用一类叫做深度学习(Deep Learning)的技术. 传统机器学习算法的 ...

  7. 【Nature 子刊】I型HLA基因中和癌症相关的体细胞突变--转载

    肿瘤的发生与免疫系统的功能密切相关.在免疫系统中,MHC(主要组织相容性复体,majorhistocompatibilitycomplex)是所有生物相容复合体抗原的一种统称.HLA(humanleu ...

  8. 【Paper Reading】

    Levers are simple too, but they can move the world1. 文章目录 1 Categories Classification Compression Da ...

  9. python并行计算numpy_【Nature文章摘录】NumPy: 从单机到分布式并行计算

    原标题:[Nature文章摘录]NumPy: 从单机到分布式并行计算 点击上图,查看详情 本公众号的推送以互联网大数据技术为主,是<互联网大数据处理技术与应用><Python爬虫大数 ...

最新文章

  1. 1000亿美元!英特尔要在美国建世界最大芯片厂,美520 亿美元芯片法案接近敲定...
  2. 会开了一天,赛题有结果了吗?
  3. 【CF应用开发大赛】微博社交简历
  4. C/S框架-WebService部署图
  5. mysql 唯一编号_Mysql表中唯一编号的分配机制
  6. Troubleshooting OpenStack Bug- 每天5分钟玩转 OpenStack(162)
  7. Django的View(视图)
  8. HTTP2和HTTPS来不来了解一下?
  9. Mybatis-Plus的SQL语句组拼原理
  10. 上拉加载更多后台数据_6-7【微信小程序全栈开发课程】记录页面(七)--分页加载记录数据...
  11. 解决Centos 7安装在虚拟机中没有图形界面的问题
  12. 春日 [宋] 王安石
  13. 去掉图片黑背景输出为透明png(算法和工具)
  14. port 执行命令的封装和参数详解
  15. 蓝桥杯 拉马车(模拟)
  16. python中空间的位置怎么放置_python / django,名称空间的根在哪里?
  17. Linux群控链接USB手机个数,群控系统能做到同时控制上百台手机吗?教你如何群控手机...
  18. 数字化转型六图法:数据地图
  19. 中央电视台硬盘播出系统的扩展应用与维护经验(mxf 格式)
  20. 在移动开发快捷推广方式

热门文章

  1. java 调用企查查API查询企业信息
  2. 做成事情的3个要素:意愿、能力、资源
  3. 20分钟让你了解OpenGL——OpenGL全流程详细解读
  4. P1852 跳跳棋(建模LCA)
  5. uniapp 消息提示框
  6. 在线客服系统代码安装 (附移动版APP下载)
  7. 发布轻开平台移动App服务器
  8. E-牛牛小数点_牛客练习赛89(数学)
  9. Qt编写项目作品大全(自定义控件+输入法+大屏电子看板+视频监控+楼宇对讲+气体安全等)...
  10. 【Arduino 连接 SD 卡模块实现数据读写】