生物信息学习的正确姿势

NGS系列文章包括NGS基础、在线绘图、转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这)、ChIP-seq分析 (ChIP-seq基本分析流程)、单细胞测序分析 (重磅综述:三万字长文读懂单细胞RNA测序分析的最佳实践教程)、DNA甲基化分析、重测序分析、GEO数据挖掘(典型医学设计实验GEO数据分析 (step-by-step))、批次效应处理等内容。

大约20年前,耗资30亿美元的人类基因组计划绘制出了首个人类基因组草图。随着这项规模宏大、影响深远的基因测序项目的落幕,许多研究者相信他们能够迅速找到导致糖尿病或精神分裂症等复杂疾病的基因。但是他们很快就陷入了僵局,部分原因在于当时的研究忽视了对控制基因在体内表达位置和方式的“开关系统”。例如,正是这种基因调控系统使心脏细胞有别于脑细胞,使肿瘤有别于健康组织。如今,通过将人类2万个编码蛋白质基因的活性水平与数百万条调控DNA序列的变异相关联,一项长达10年的大规模研究已经开始填补这一空白。

本周,“基因型-组织表达研究联盟”(Genotype-Tissue Expression Consortium)结束了为期10年的多机构研究工作,于ScienceCell等期刊发布了斥资1.5亿美元的“基因型-组织表达项目”(The Genotype-Tissue Expression (GTEx) Project)最后一期共计15项研究成果,介绍了跨细胞类型和组织的遗传调控变异综合图谱,并分析了这些调控变化如何增加疾病风险和促进疾病特征的发展。据悉,本周发表的15篇最新论文基于GTEx V8版本数据集。研究人员对来自838名死亡捐赠者49个组织的15,201份样本进行了RNA测序,并分析了每个捐赠者的全基因组测序数据。整个研究使用的一种关键方法为基因表达数量性状位点(eQTL)分析,以鉴定影响基因表达的遗传变异以及分析剪接变异数量性状位点(sQTL);其中一篇论文还使用CRISPR分析了罕见病的调控变异。最终,共有五篇论文发表于Science,两篇发表于Science Advances,一篇发表于Cell,五篇发表于Genome Biology,一篇发表于Genetic Epidemiology,最后一篇发表于Genome Medicine

图:GTEx v8研究样本及数据类型

正如前文所言,科学家们多年以来就意识到,基因组并不仅仅只是编码蛋白质的一系列遗传密码。它同时也是一块巨大的“开关板”,充满了可控制基因活性的DNA序列。事实上,基因组在调控方面的复杂性已极大地阻碍了研究者们对疾病遗传学基础的探索和靶向特定致病性DNA药物的开发。但近年来,一些大型研究也已聚焦于基因调控开关的位置、调控开关所控制的特定基因以及调控开关在体内激活或抑制基因活性的具体部位。

为了深入了解基因在人体中的表达方式以及调控方式,美国国立卫生研究院共同基金(NIH Common Fund)于2010年启动了“基因型-组织表达项目”(The Genotype-Tissue Expression (GTEx) Project),并在2013年提供了对GTEx数据资源访问的GTEx门户网站(http://www.gtexportal.org/home/)。当时,上百位科学家联名在Nature Genetics期刊发表文章介绍了GTEx项目,并成立了“基因型-组织表达研究联盟”(Genotype-Tissue Expression Consortium)。目前,GTEx项目已经建立了一个数据资源和组织库,用于研究在多种人类组织和个体中遗传变异与基因表达之间的关系,以及男性和女性之间基因表达的差异。对于此类研究,研究人员往往需要获取大量人类器官的组织样本,但由于GTEx项目所需组织样本种类太多,因此研究人员将视线转移到短期逝世的个体中——这些死者的亲属将遗体捐赠出来用于研究。截至目前,GTEx项目已经从约960名捐献者中收集了多种人体组织(包括脑、心脏、肺、乳房、皮肤和全血等)和30,000多份样本。这些组织和样本由美国国家癌症研究所的人类癌症生物样本信息资源库代表GTEx项目进行存储。

GTEx项目获得了具体的基因调控情况,确定了当某基因附近200万个碱基范围内的DNA序列发生细微改变后会开启或者关闭哪些基因的表达。此外,GTEx项目也从每位捐赠者体内获取了多个组织的遗传物质,评估这些遗传物质之间的差异,从而详细记录基因调控序列在不同细胞类型中的影响范围——有的调控序列能够影响所有组织中某个基因的表达,而其他调控序列只会影响几种或一种组织内的基因表达情况。2015年,GTEx项目发布了第一个阶段性成果,在Science期刊上发表3项基因表达相关研究成果。随着研究的深入,GTEx项目进一步于2017年10月在Nature期刊发表了二期共计4项研究成果。目前,GTEx项目资源正在帮助研究人员了解癌症、心脏病、帕金森症和糖尿病等常见疾病的遗传易感性。

对于本次发布的最新研究成果,在Science的核心论文中,研究人员描述了其目标和方法,并强调了数据集中捐赠者祖先和性别的多样性。在838名捐赠者中,有715名(85.3%)为欧洲裔美国人,103名(12.3%)为非裔美国人,12名(1.4%)为亚裔美国人,16名(1.9%)为西班牙裔或拉丁裔;其中男性557名(66.4%),女性281名(33.5%)。研究人员指出,这些跨组织不同类型数据之间共享的高度相似模式表明,从细胞类型组成到转录组变异和遗传调控效应具有共享的生物学基础。这些结果表明,组织间共享的细胞类型可能是组织共享遗传调控作用的关键因素。Science杂志发表的其他四篇论文中,研究人员还分别探讨了性别对人体组织基因表达的影响、跨组织基因表达的细胞类型特异性遗传调控、人类组织中端粒长度的决定因素,以及在人类组织中转录组特征中发现的功能性稀有遗传变异。另外,在发表于Science Advances的两篇文章中,研究人员分别分享了组织特异性遗传特征如何在临床试验中为药物副作用的预测提供信息,以及其开发的一种名为“PhenomeXcan”的资源,可通过转录组将基因组映射到表型组。而在发表于Cell的文章中,由斯坦福大学研究人员领导的小组则报告了人体的定量蛋白质组图谱

图:GTEx最新研究总览

回顾GTEx项目的十年历程以及该联盟完成的工作,GTEx的共同负责人、纽约基因组中心人类遗传学家Tuuli Lappalainen表示,研究人员已经获得了大量了生物学知识,并且能够回答有关基因组功能的许多问题。“我认为GTEx在许多方面都履行了诺言。它提供了非常全面的数据。而且,这些年来的技术发展引入了回答这些问题的新途径和方法。”她还表示,在过去的10年中,GTEx数据可以通过门户网站广泛获取。与此同时,该联盟还向更大的研究团体授权以推动功能基因组学研究,为GWAS研究提供支持,并为疾病相关变异的潜在调控作用研究提供理解。癌症基因组学界也广泛使用GTEx来推动其研究,研究人员也在使用GTEx来寻找寻找特定基因剪接模式或变异的答案。她还补充说,尽管该GTEx目前已经发布了海量数据和大量论文,但仍有更多工作要做。例如,她计划研究将基因组和RNA测序数据以及表型数据结合起来的方法,以更好地了解疾病机制,并且还正在考虑研究环境因素和遗传因素的结合如何影响疾病风险。

随着GTEx项目的结束,据悉美国国立卫生研究院正在计划一项发育性GTEx研究,将招募20岁以下的志愿者来创建一个从出生到成年的基因表达图谱。研究人员表示,对于这样的后续项目,一个更加多样化的组织捐赠者群体将是非常有价值的。虽然GTEx项目一开始也是为了这个目标而努力的,但由于组织和器官捐赠者大多为白人,导致该愿景最终并未完全实现。到目前为止,虽然GTEx项目还不能完全说明基因组是如何驱动人类各种组织的产生或引发各类疾病。但研究人员预测,GTEx资源一定会被反复使用,并将产生一些他们无法预测的用途。

附15项研究成果速览

Science

题目:GTEx项目构建人体组织遗传调控效应图谱

The GTEx Consortium atlas of genetic regulatory effects across human tissues

研究团队介绍了GTEx(v8)版本数据的分析,检测了来自838个死后捐赠者49个组织的15201个RNA测序样本。该研究全面表征了顺式和反式基因表达和剪接的遗传关联,表明几乎所有基因都存在调节关联,并描述了潜在的分子机制及其对等位基因异质性和复杂性状的多效性的贡献。

文章链接:

https://science.sciencemag.org/content/369/6509/1318.abstract

题目:性别对跨人体组织基因表达的影响

The impact of sex on gene expression across human tissues

研究团队通过GTEx(v8)版本数据,分析了44个人体组织来源的基因表达和基因表达的遗传调控中的性别差异。结果证明,性别可影响整个人体组织样本的基因表达水平和细胞组成,人类37%的基因在至少一个组织中表现出性别偏向的表达。同时,研究人员确定了具有性别差异作用的顺式表达定量性状基因座(eQTLs),并表征其细胞起源。通过将性别偏见的eQTL与全基因组关联研究数据进行整合,最终确定了58个由单一性别基因表达的遗传调控驱动的基因-性状关联。

文章链接:

https://science.sciencemag.org/content/369/6509/eaba3066

题目:细胞类型特异性基因调控基因在人体组织中的表达

Cell type–specific genetic regulation of gene expression across human tissues

GTEx项目已经确定了人体组织中大部分基因的顺式数量性状基因座(QTL)表达和剪接定量性状基因座。该研究绘制了细胞类型丰度和基因型的计算估计之间的相互作用,以确定七种细胞类型的细胞类型-相互作用QTL,并表明细胞类型相互作用表达QTL比组织特异性顺式eQTL能提供更好的组织特异性分辨率。对87个复杂性状遗传关联的分析表明,细胞类型-相互作用QTL发挥了作用,并能够发现数百个此前未知的共定位基因座。

文章链接:

https://science.sciencemag.org/content/369/6509/eaaz8528

题目:端粒长度在人体组织中的决定性作用

Determinants of telomere length across human tissues

研究团队表征了来自6391个组织样本端粒长度的变异性,这些样本代表了GTEx项目的20多个组织类型和952个个体。研究描述了不同组织类型之间的差异,以及组织类型之间的正相关以及与年龄和血统的关联,发现遗传变异可影响多种组织类型中的端粒长度,并且端粒长度可能介导年龄对基因表达的影响。

文章链接:

https://science.sciencemag.org/content/369/6509/eaaz6876

题目:跨人体组织的转录特征可识别功能性罕见遗传变异

Transcriptomic signatures across human tissues identify functional rare genetic variation

确定稀有遗传变异的功能和表型影响是一项重大挑战。研究团队通过分析基因表达、等位基因特异性表达和多组织RNA测序数据的可变剪接,扩展了基因驱动的转录组异常检测,并证明了每种信号都可以指导稀有变异的独特分类。该研究结果将成千上万的稀有变异链接到各种分子效应,为将稀有变异影响转录组与人类特征相关联提供了证据。

文章链接:

https://science.sciencemag.org/content/369/6509/eaaz5900

Science Advances

题目:组织特异性遗传特征为临床试验中药物副作用的预测提供依据

Tissue-specific genetic features inform prediction of drug side effects in clinical trials

通过结合48个组织中的基因表达和eQTL,该研究评估了> 360000个英国生物库个体中1167个表型的全表型关联研究(PheWAS),以分析是否可在临床试验中预测药物副作用。研究确定了具有五个遗传特征的药物靶基因,包括基因表达的组织特异性。与没有这种特征的基因相比,其带来的副作用风险增加了2.6倍。该研究展示了来自多个组织的PheWAS和eQTL数据用于药物副作用预测的效用,并强调了组织特异性药物递送的需求。

文章链接:

https://advances.sciencemag.org/content/6/37/eabb6242

题目:PhenomeXcan:通过转录组将基因组映射到表型

PhenomeXcan: Mapping the genome to the phenome through the transcriptome

PhenomeXcan是将来自GTEx(v8)49个组织的4091个性状转录组数据与GWAS研究统计数据中887万个变体整合的一个可查询基因平台,其中包括22515个基因。研究团队开发了一种新颖的贝叶斯共定位方法,即快速富集估计辅助共定位分析(fastENLOC),可先考虑可能的因果基因-性状关联。利用PhenomeXcan,研究团队提供了新的和未报告的基因与表型关联以及复杂的基因特征簇。PhenomeXcan(phenomexcan.org)为转录研究提供了对复杂数据的广泛及用户友好的访问。

文章链接:

https://advances.sciencemag.org/content/6/37/eaba2083

Cell

题目:人体定量蛋白质组图谱

A Quantitative Proteome Map of the Human Body

研究团队从32个正常人体组织中超过12000个基因中定量了相对蛋白质水平。通过鉴定组织特异性或组织富集的蛋白质,并将其与转录组数据进行比较,许多普遍存在的转录本被发现可编码组织特异性蛋白质。RNA和蛋白质富集的差异揭示了分泌蛋白合成和作用的潜在位点。此外,该研究表明蛋白质组织富集信息可以解释遗传疾病的表型,而仅靠转录本信息是无法获得的。

文章链接:

https://www.cell.com/cell/fulltext/S0092-8674(20)31078-3

Genome Biology

题目:Primo:整合多个GWAS和omics QTL汇总统计数据,阐明与性状相关SNP的分子机制并检测复杂性状的多效性

Primo: integration of multiple GWAS and omics QTL summary statistics for elucidation of molecular mechanisms of trait-associated SNPs and detection of pleiotropy in complex traits

为全面解释已知的性状相关SNP如何影响复杂性状,研究团队提出了一种Primo方法,用于对来自不同细胞条件或研究的系列omics QTL汇总统计数据进行GWAS统计数据的综合分析。Primo方法可研究SNP与复杂和组学特征的关联模式。在含有已知易感位点的基因区域,Primo可进行条件关联分析,以解释连锁不平衡问题。Primo允许进行未知的异质性和样本相关性研究。

文章链接:

https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-02125-w#auth-Lin_S_-Chen

题目:sn-spMF:基质分解告知组织特异性基因表达的遗传调控

sn-spMF: matrix factorization informs tissue-specific genetic regulation of gene expression

研究团队开发了一个受约束的矩阵分解模型sn-spMF,以学习组织共享的模式将其应用于GTEx项目的49个人体组织。学习因子(learned factors)可反映具有已知生物学相似性的组织,并识别可能介导组织特异性作用的转录因子。sn-spMF可在https://github.com/heyuan7676/ts_eQTLs获取。

文章链接:

https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-02129-6

题目:大量跨人体组织等位基因的表达数据

A vast resource of allelic expression data spanning human tissues

研究团队介绍并演示了从GTEx(v8)版本中生成的大量等位基因表达资源的实用性,其中包含15253个样本,覆盖54个人体组织,SNP级别的等位基因总计为4.31亿,单倍型水平的总量为1.53亿。此外,研究团队扩展了phASER工具,允许使用单倍型水平的等位基因数据估算顺式调节变体的效应大小。这是迄今为止最大的等位基因资源,且能够公开提供单倍型水平的等位基因数据。

文章链接:

https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-02122-z

题目:GTEx中外源和祖源对eQTL分析和GWAS共定位的影响

Impact of admixture and ancestry on eQTL analysis and GWAS colocalization in GTEx

研究团队在GTEx(v8)中识别了117个具有高度群体混合个体的子集,并估计了全基因组的局部祖源信息。在七个组织中使用混合样本进行全基因组顺-eQTL定位,并通过祖源信息进行调整。最后,该研究确定了与本地祖先高度相关的一部分eQTL变体。为GTEx(V8)版本中的混合个体提供了本地祖先图,并描述了祖先和混合物对基因表达,eQTL和GWAS共定位的影响。

文章链接:

https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-02113-0

题目:PTWAS:利用TWAS概率分析研究组织相关复杂性状的因果分子机制

PTWAS: investigating tissue-relevant causal molecular mechanisms of complex traits using probabilistic TWAS analysis

研究团队提出了一种新的计算框架,即概率全转录组关联研究(PTWAS),以研究基因表达与复杂性状之间的因果关系。PTWAS应用工具变量分析的既定原则,利用概率eQTL注释来描述和解决TWAS中出现的独特挑战。PTWAS不仅具有比现有方法更高的功能,而且还提供了新颖的功能来评估因果关系假设,以及评估组织或细胞类型特异性基因对性状的影响。研究团队通过分析来自GTEx(v8)49个组织的eQTL数据和114个复杂性状的GWAS统计数据证明了PTWAS的强大功能。

文章链接:

https://genomebiology.biomedcentral.com/articles/10.1186/s13059-020-02026-y

Genetic Epidemiology

题目:精细映射和QTL组织共享信息提高了因果基因识别的可靠性

Fine‐mapping and QTL tissue‐sharing information improves the reliability of causal gene identification

近年来,通过转录表达整合转录组学研究和GWAS研究已得到广泛应用,使得GWAS基因座的功能表征和因果基因的预测成为可能。但最佳的预测性能模型不一定会导致更可靠的因果基因发现。为在不增加假阳性的情况下改善目标基因的发现,研究团队使用GTEx项目中948个供体54个组织的17382个RNA测序样本的表达和剪接数据,开发并比较了多种转录组预测方法。研究发现,通过精细映射(dap-g)和跨组织借用信息(masher)来反映具有因果概率的预测模型可以在重要关联的数量和比例方面提供更好的性能。所有的预测模型都可以在predictdb.org上公开获得。

文章链接:https://onlinelibrary.wiley.com/doi/full/10.1002/gepi.22346

Genome Medicine

题目:用于检测转录物变体调控作用的多克隆等位基因表达测定方法

A polyclonal allelic expression assay for detecting regulatory effects of transcript variants

研究团队提出了一种利用CRISPR / Cas9检测基因变异在转录组中调节作用的实验方法,然后进行靶向测序。利用该检测方法,研究团队对整个基因组和两个孟德尔遗传病基因中的32个提前终止变异体,HEK293T细胞中的33个eQTL预测因果变异体和62个对照变异体进行了分析,并复制HeLa细胞中的一部分变异体。结果显示,该方法能够捕获eQTL变体以及提前终止变异体触发的无意义介导衰变的调节作用,表明该方法可用于验证遗传变异的转录组水平效应。

文章链接:

https://genomemedicine.biomedcentral.com/articles/10.1186/s13073-020-00777-8#article-info

参考资料:

1. ‘Invaluable’ database helps solve mystery of how genes are regulated

https://www.sciencemag.org/news/2020/09/invaluable-database-helps-solve-mystery-how-genes-are-regulated

2. GTEx Studies Provide Comprehensive Map of Genetic Regulatory Variation Across Cell Types, Tissues

https://www.genomeweb.com/genetic-research/gtex-studies-provide-comprehensive-map-genetic-regulatory-variation-across-cell#.X1rSiHot1PY

3. https://commonfund.nih.gov/GTex

4. https://commonfund.nih.gov/gtex

往期精品(点击图片直达文字对应教程)

后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集

喜欢别忘了点“在看”呦!

刷新认知!基因表达,男女有别|Science、Cell等发布15篇人类遗传调控新成果相关推荐

  1. Cell重磅发布15万人体微生物基因组!超大规模宏基因组研究揭示数千计人体微生物新物种...

    本文转载自"测序中国",已获授权 微生物宏基因组是当今世界最热门的科研领域之一.越来越多的研究表明,人体微生物发挥着重要的健康作用,但大部分多样性仍未得到充分探索,尤其是在除肠道以 ...

  2. Cell重磅综述:关于人类转录因子,你想知道的都在这

    ▼生物信息学习的正确姿势(第三版) NGS系列文章包括NGS基础.转录组分析 (Nature重磅综述|关于RNA-seq你想知道的全在这).ChIP-seq分析 (ChIP-seq基本分析流程).单细 ...

  3. 人社部已发布3个批次38个新职业!热门“风向标”来了,快跟上

    来源:经管之家公众号 由经管之家综合整理自人力资源社会保障部官方网站.央视新闻客户端.中国青年报.工人日报客户端.龙为科技. (一)人社部第三批新职业发布! 热门"风向标"来了! ...

  4. 智源社区AI周刊No.100:李飞飞等最新文章:社会化人工智能;DreamFusion:Google发布“文本-3D”生成新成果...

    汇聚每周AI观点.研究和各类资源,不错过真知灼见和重要资讯!欢迎扫码,关注并订阅智源社区AI周刊. 编辑精选 1. 斯坦福大学李飞飞等最新文章:社会化人工智能 查看详情 近日,斯坦福大学计算机系的 R ...

  5. 新产品上市推广需要发布几篇软文?

    一般来说新产品上市的时候,产品和品牌都是需要营销推广的,那么在进行产品的营销的时候,一般要发布几篇软文呢?对于这个问题,可能不同的人有着不同的看法和见解,有的人认为在发布新产品的时候要多发几篇软文,有 ...

  6. 度量 数据突变_4篇Nature“霸屏”!史上最大规模人类遗传变异体数据库发布

    以下文章来源于BioWorld ,作者iBioWorld 早在100多年前的19世纪,孟德尔(Gregor Mendel,1822-1884)盯着修道院花园里的豌豆,就开始思考为什么有的豌豆会开出白花 ...

  7. Meta AI 发布 data2vec!统一模态的新里程碑!

    文 | ZenMoore 编 | 小轶 如果让大家举一个最成功的自监督模型的例子,尤其对于各位 NLPer,肯定毫不犹豫地祭出我大 BERT. 想当年 BERT 打了一个名叫 MLM (Masked ...

  8. 政府安全资讯精选 2017年第十三期 网信办发布《互联网新闻信息服务新技术新应用安全评估管理规定》;Facebook颁布新广告政策,加强内容安全...

    [国内政策分析] 网信办发布<互联网新闻信息服务新技术新应用安全评估管理规定> 点击查看原文 概要:网信办发布了针对新闻行业信息技术新应用的安全评估规定,要求根据新闻舆论属性.社会动员能力 ...

  9. unity怪物攻击玩家减血_怪物猎人发布15周年 — 回顾历代封面怪之三大传奇怪物...

    本文来自Jump用户投稿,作者:水熊 2019年3月正逢怪物猎人发布15周年之际,CAPCOM官方网站公布了本次15周年庆典的主题图片. (转自CAPCOM官网,本次15周年主题图片为历代怪物猎人作品 ...

最新文章

  1. Kotlin implements 的实现
  2. 深度插值与透视纹理映射插值
  3. python恶搞表情包-Python开发个人专属表情包网站,表情在手,天下我有
  4. git merge 回退_Git命令
  5. Spring Web Flow 2.0 入门详解
  6. strak组件(9):关键字搜索
  7. 数据库备份需要注意的
  8. 获取机器安装.NET版本的几种方式
  9. 【jeecg Docker安装】使用 Docker 搭建 Java Web 运行环境
  10. 【英语学习】【WOTD】liaison 释义/词源/示例
  11. 我的docker随笔:开篇
  12. 3- 基于代理 Dao 实现 CRUD 操作
  13. 词法分析与语法分析简介
  14. POJ 1265 计算几何 多边形面积 内部格点数 边上格点数
  15. de4dot构建过程
  16. 《C语言》2022山西专升本C语言知识点
  17. word自带公式编辑_怎么在Word上编辑数学公式?教你一招
  18. 使用IE7登陆工商银行的个人网上银行
  19. 利用Windows内置工具winsat测试硬盘速度(SSD机械盘对比)
  20. Bellman-Ford算法图解及手算过程详解 —— C++代码实现

热门文章

  1. 【2015年第4期】面向科技情报的互联网信息源自动发现技术
  2. 【项目管理】风险分析
  3. 【MySQL】命令行遇到 ‘> 而无法结束语句编辑的解决方案
  4. 地图上探测器扫描到的范围(洛谷P3717题题解,Java语言描述)
  5. N进制正反累加判回文数(洛谷P1015题题解,Java语言描述)
  6. 洛谷P5831题题解(Java语言描述)
  7. gcc编译以及Makefile与GDB调试
  8. 区块链每日一问 | 数字货币的场内交易和场外交易各指什么?各有哪些特点?...
  9. group by 和where 条件后面不能用刚设置的别名。
  10. 工作与生活平衡(2)运动也需要执行力