2.GWAS研究和多基因评分

GWAS的一般思想是扫描样本中所有测量到的单核苷酸多态性(SNPs)与结果的关联,使用可能的环境混杂进行严格的控制和多重测试。除了测量到的SNPs,GWAS还使用典型的填充SNPs。对未测量的SNPs的归类使研究人员能够汇集来自各种基因分型平台的证据,这些平台具有测量的非完全重叠的SNPs集合。此外,与直接分型的SNPs相比,填充使研究人员能够提高统计能力并获得对相关遗传变异的更高分辨率的洞察。填充“借用”了所有DNA变异之间的相关性模式的信息,这些变异来自于完全以高精度测序的个体DNA的大型参考数据集。其精度随着参考集的样本大小而增加,并且最新的参考集允许以相对较高的精度对即使是罕见的统计变体进行估计。在实践中,大多数现代GWAS包括比直接分型更多的SNPs。

在过去十年中,数据可用性和计算能力的快速增长导致公布的GWAS和遗传关联的数量同样迅速增加。数据可用性的提高也使GWAS研究能够获得更大的样本量和统计功能强大的分析,从而能够检测到越来越多的相关遗传变异。更大的样本也对单个遗传变异的真实效应大小的有更精确的估计。对于绝大多数遗传复杂的性状(包括迄今为止研究的所有行为和社会经济结果),任何特定的SNP在群体中的变异都不到0.03%。

2.1 公众可获取的GWAS结果

GWAS结果一般发表在同行评议的科学杂志,一些GWAS 汇总统计数据需要对其他研究者方便存储和获得。事实上,当报告研究结果的文章发表在同行评议的期刊上时,与更广泛的研究社区共享GWAS摘要统计数据已经成为最佳实践。一些科学家甚至更早地分享了他们的汇总统计数据。然而,仍有科学家和研究小组没有与更广泛的学术团体分享他们的成果。

GWAS 汇总统计数据对跟踪研究是有用的,应该包括一个唯一的遗传变异标识,P值,估计系数和标准误(或统计检测),每个SNP的样本量,还有等位基因信息(参考和最小等位基因频率MAF)。为了保护研究对象隐私,许多GWAS汇总统计数据不报告样本MAF。相反,他们从参考人群报告MAF,并将估计系数的报告位数限制在必要的最小值,以保护对研究做出贡献的个人的身份。

科学家通常在网站(例如,参见SSGAC、PGC或GOGER的联合体网站)或存储库(如dbGaP)上共享这样的GWAS摘要统计数据。美国国家人类基因组研究所创建了所有已发表的GWAS关联结果的目录(由欧洲生物信息学研究所维护):https://www.ebi.ac.uk/gwas/)。这些公开共享的资源对研究社区具有非常高的价值,并导致了交互式地图集的开发,这些地图集比较了数以千计的性状(例如http://atlas.ctglab.nl/和https://biobankengine.stanford.edu/的遗传结构)。

2.2假说和挑战

GWAS使用标准线性或Logistic回归来估计SNP和某些感兴趣的特征之间的关联。因此,这些回归方法的所有标准假设也适用于GWAS。从这个一般角度考虑GWAS中的假设是有用的(见附件1,统计回归部分)

SNPs并不是唯一将人与人区分开来的遗传变异。除了SNP外,还存在所谓的结构变异(例如插入、缺失、反转、拷贝数变异、易位),并可能影响感兴趣的结果。然而,在实践中,由于目前流行的基因分型技术,GWAS的绝大多数集中在SNP或仅包括那些通过基因分型芯片直接测量的结构变异。结构变体可以与SNP相关,因此,即使GWAS完全聚焦于SNP,它仍然可以检测到但相关的结构变体中找到一些信号。GWAS中未观察到的、非完全相关的遗传变异导致了所谓的“遗传度缺失”问题,我们将在稍后返回到这个问题。

对人口结构控制不足可能导致完全误导GWAS结果。例如,不能适当控制遗传祖先的教育-GWAS会发现与编码乳糖酶的乳糖(LCT)基因有关。乳糖不耐受与认知能力或个性无关,但在欧洲东南部地区比西北部地区更常见。由于基因的流行率因地理位置而异,因此地理区域之间的环境驱动差异可能导致与LCT基因的虚假关联。不幸的是,不能保证这种方法或者更复杂的方法能够成功地消除所有形式的环境混淆。

解决这一挑战的一个干净而有力的方法是对异卵、不同卵(DZ)双胞胎或兄弟姐妹的样本进行GWAS。这将利用这样一个事实,即DZ双胞胎或兄弟姐妹之间的遗传变异是完全随机的,因此不受家庭特定环境影响的影响。不幸的是,DZ双胞胎和兄弟姐妹目前可用的样本量仍然太小,无法对大多数遗传复杂性状进行有力的GWAS分析。这种情况在未来可能会发生变化,这要归功于不断增长的数据可用性和研究人员最近的努力,以形成双胞胎基因型数据集的联盟。然而,与此同时,正在使用上述人口样本中的控制,它们可以与各种后续分析相结合,从而能够量化人口结构在GWAS汇总统计中的存在程度。

最后,GWAS扫描整个基因组与结果的关联的方法意味着测试非常大量的独立假设。这对统计推断来说是一个挑战。为了说明这个问题,考虑一个研究人员的假设实验,进行了一百万次独立统计检验,其中x和y之间没有关联的Null假设始终为真。如果使用0.05的p值阈值来评估测试,则意味着即使Null假设为真,研究者也期望在5%的情况下拒绝Null假设。因此,1000000个独立测试中的≈5%将被错误地拒绝,这意味着研究人员最终将得到50000个预期的假阳性结果。当然,这是不可接受的,并且需要在检验程序中进行校正,以调整所测试的大量独立假设。从经验上讲,GWAS 确实测试了大约1000000个独立假设。独立测试的实际数量因研究而异,这取决于包括多少稀有遗传变异和正在研究的人群。为了纠正这种多重检验负担,GWAS强加了非常严格的p值阈值5×10-8,只有p值低于这个阈值的SNP才被认为是“全基因组显著”。许多已发表的GWAS有效地测试了不到50万个独立假设,因为它们仅限于欧洲人的样本和次要等位基因频率>2%的常见SNP-但他们仍然使用全基因组显著性水平p<5×10-8作为统计推断的基准。然而,科学家们仍在讨论这一问题。

必须使用这些非常严格的p值阈值进行统计推断的一个副作用是,它降低了检验的统计能力,即,如果Null假设实际上为假,则研究人员拒绝Null假设的能力。然而,统计能力随着样本量(N)的增加而增加,因此,成功的GWAS对遗传复杂性状的努力通常需要极大的样本量,通常在N>100000的范围内

小结

  • 1.GWAS要求对多重测试进行严格控制,这反映在全基因组显著性的常用阈值为5×10-8
  • 2.GWAS对可能与遗传数据相关的环境混杂要求严格控制
  • 3.GWAS没有告知哪些相关的遗传变异是因果关系:这些研究突出了相关性,但没有得出因果关系
  • 4.关于遗传复杂性状的GWAS需要非常大的样本量,通常超过100,000名参与者

2.2质控

在第一代候选基因研究的令人失望的不可重复之后,基因科学界已经接受了非常严格的质量标准,用于直接根据上述讨论报告新的遗传关联。

最重要的是,基因界大多已经意识到需要统计上功能强大的研究设计(N约为数万的行为结果),其中包括对多重假设检验的足够校正,例如普遍接受的全基因组显著性阈值(p<5×10-8),对于包括许多罕见的遗传变异或非欧洲样本的数据集,可能必须进一步向下调整(Auton等,2015;McCarthy等,2008)。重要的是,在报道新的遗传关联的文章中,报告来自独立样本的新遗传关联的重复结果已经成为GWAS文献中的常见做法。事实上,这通常是GWAS在领先的领域期刊上发表的要求。该领域对改进GWAS重复记录的这种承诺,导致了所报告的经验证据质量的戏剧性提高,使得大规模GWAS结果可能成为迄今为止最透明和最好的重复记录的科学领域之一。

此外,GWAS在顶级期刊上的同行评议过程通常需要大量证据来说服推荐人和读者所报告的遗传关联不是由于环境混淆,例如人口分层引起。在这种情况下的标准预防措施是将GWAS限制为具有相似祖先的个体样本,并排除遗传异常值和不属于样本中最大祖先群体的个体。在实践中,这往往意味着GWAS仅限于欧洲的白人,这导致了以欧洲人为中心的GWAS文献主导,这对GWAS研究结果向非欧洲人口的推广提出了挑战。一种名为Linkage不平衡得分回归(LD得分回归)的统计方法的开发是向前迈出的重要一步,现在允许科学家区分GWAS结果在多大程度上代表真正的关联信号或由于不受控制的群体结构或非独立样本造成的混淆。LD分数回归的截距是对导致测试统计数据膨胀的混杂程度的测量,并且此截距随后可用于相应地校正所有SNP的测试统计数据和p值。

另一个重要的质量标准是遗传数据和衍生的关联结果在多大程度上经过质量和貌似可信的筛选。遗传数据可能是不精确的(例如,由于基因分型错误,链翻转,或不准确的估算),特别是罕见的遗传变异经常测量错误。此外,与同一样本中具有更多常见变异的检测相比,具有罕见遗传变异的统计测试的威力较小,这意味着增加了假阳性关联结果的风险,并夸大了稀有变异的效应大小估计。为了应对这一挑战,许多GWAS的分析努力对罕见变异(次要等位基因频率)进行了过滤。

此外,在分析数据和将结果转移到其他研究中心的过程中可能会发生许多错误(例如,因变量的错误编码,错误的列标题,复制-粘贴错误),所有这些都可能导致错误的关联结果。复杂性状遗传学领域的领先中心已经开发了自动化过程,仔细检查所有数据和这些错误的汇总统计数据。一个特定的GWAS利用这些质量控制工具的程度通常是研究整体质量的一个重要标志。

此外,良好的GWAS通过公开提供分析协议、计算机代码和GWAS汇总统计数据来参与开放科学运动,以提高透明度,实现独立的重复努力,并通过允许其他研究人员进行后续研究,使用GWAS汇总统计数据作为输入来促进科学进步。最后但同样重要的是,高质量的GWAS出版物遵循最近的统计分析报告标准。特别是,他们报告了所进行的分析的所有细节,除了p值外,还包括关于样本量、参考等位基因、次要等位基因频率、效应大小估计和每个SNP的置信区间的信息。

出版GWAS的领先科学期刊正在严格执行这些质量标准。然而,并不是所有的研究小组和期刊都坚持相同水平的严谨性,偏离这些最佳实践中的任何一个都可能在各自的GWAS文章中指出潜在的问题。

小结:

  • 样本量(行为结果的N>100,000)。
  • 精确调整多个假设检验(例如,使用全基因组)。显著性阈值为5×10-8或更低)。
  • 独立样本中的复制。
  • 同质祖先的发现样本,没有遗传异常值,并在关联分析中控制微妙的群体结构。
  • GWAS结果测试是否存在人口分层(例如LD得分回归或家庭内的遗传预测)。
  • 基因数据和关联统计的严格质量控制参数。
  • 应报告效应大小和置信区间(而不仅仅是p值)。
  • 摘要统计数据和分析协议公开可用,以支持独立的复制工作和后续研究

2.4 使用GWAS做预测,PGS/PRS

有没有可能,使用来自GWAS的见解,做出一些预测?大规模的GWAS对行为特征的研究清楚地表明,单独考虑的每个共同的遗传变异只捕捉到群体中性状的总体变异量很小的量。然而,将许多SNP的影响聚合在所谓的多基因得分(PGS)中会产生一个遗传指数,该指数可以捕获行为特征变异的很大部分,因此在社会科学中变得广泛有用。在多基因评分中,研究人员从特定特征的GWAS获得结果,并将其应用于新样本,对来自GWAS的效应大小对每个人的遗传变异进行加权,并对变异进行求和。因此,由此产生的PGS是一个线性指数,概括了个人对表型的总体遗传度。从理论上可以证明,PGS的准确性主要取决于性状的遗传力(+),GWAS样本量(+),性状的多基因(-),以及性状的遗传架构是否在不同环境中变化(-)(Dudbridge,2013;de Vlaming等,2017)。一个性状的PGS可以预测多少的上限由该性状的基于SNP的狭义遗传力给出。经验结果很好地映射了理论预期,显示了随着GWAS样本量的增加,PGS准确度明显上升的趋势。

在实践中如何构建PGS有许多不同的方式,这些方法在如何处理SNP之间的相关性模式(在GWAS中被忽略)与分数中包括多少SNP方面存在差异通常,包括大量SNP并在某种程度上说明SNP之间的相关性模式的方法往往表现得更好,但所有由大规模GWAS构建的方法往往表现更好。

然而,PGS对结果的预测程度还取决于感兴趣性状的遗传结构在GWAS发现和预测样本中是否具有可比性

此外,最近的几项研究已经清楚地表明,PGS目前不能用于在与GWAS发现样本不同的血统样本中做出准确的预测,这部分是由于技术原因(例如,不同的祖先群体具有不同的次要等位基因频率,这意味着来自一个群体的估计的GWAS效应大小对于另一个群体来说不是正确的效应大小),但部分原因也是因为对于具有不同祖先的个体,影响结果的环境条件往往是非常不同的。因此,如果群体的环境条件不同和/或群体具有不同的祖先背景,则群体之间的PGS值的差异不能用于得出关于这些群体之间观察到的性状差异的原因的结论。

重要的是,即使教育程度等社会科学成果的PGS开始捕获大量样本变异,即使是目前最好的PGS对于个体水平的预测也是无用的

小结:

  • PGS比任何特定的遗传变异更能预测遗传复杂的性状。
  • 随着GWAS样本量的增加,PGS变得更加精确。
  • PGS可以捕获性状方差的多少的上限由该性状的SNP遗传力给出。
  • PGS正在成为社会科学家越来越有用的工具。
  • PGS对于个体水平预测的用途非常有限。
  • PGS在具有不同血统或环境背景的样本中没有或仅有限的预测精度。
  • PGS不能用于得出关于群体之间或一段时间内表型差异的原因的结论

GWAS研究和多基因评分相关推荐

  1. GWAS研究基本概念2——Fine mapping

    有了GWAS公共数据后的下一步就是找因果变异(causal varision),这篇文章介绍fine-mapping精细映射 和gene prioritization基因排序,简单一句话就是 tran ...

  2. 2020.9.9丨遗传进化与GWAS研究

    自然群体研究方法概览 研究材料.方法.方向 关系图 方法概览 遗传进化 进化\驯化历史 分化时间 地理起源 GWAS 基因定位 遗传进化分析 定义 通过系统发育分析揭示物种或种群间 的进化关系和发展历 ...

  3. R 绘制 GWAS 研究的 Manhattan 图

    曼哈顿图本质上是一个散点图,用于显示大量非零大范围波动数值,最早应用于全基因组关联分析(GWAS)研究展示高度相关位点.它得名源于样式与曼哈顿天际线相似(如下图). 近几年,在宏基因组领域,尤其是差异 ...

  4. 数据研究之综合评分(一) 权重-评分-指标

    背景: 大数据火热的背景下,数据的深层次挖掘成了一个热门的话题,单一类型的数据.只需要看不同年份数值,即可以明白其含义,然而很多时候研究方向是多维度,多类型的数据,这个时候,无法在一张图表上更好的展示 ...

  5. GWAS - PRS多基因风险评分计算学习笔记

    一.安装PRSice(mac版) 经试验我觉得直接从git hub中下载对应的安装包是最快的:https://github.com/choishingwan/PRSice,下载之后解压,解压文件如图所 ...

  6. polygenic risk score:多基因风险评分

    欢迎关注"生信修炼手册"! 针对复杂疾病,通过GWAS研究可以识别到大量的疾病易感位点,然而这些位点绝大多数都属于微效位点,单个或者少数几个位点对疾病的效应较弱,无法准确的预测疾病 ...

  7. PRS多基因风险评分的几个算法

    之前体验了一下impute.me的基因检测分析服务,其内容之丰富和详尽让我感到吃惊.基本上涵盖了几乎所有有影响的GWAS研究结果(GWAS-Catalog等来源),于是我感到很好奇,他的评估计算方法, ...

  8. 阿尔茨海默最新研究进展(2022年12月)

    阿尔茨海默病(Alzheimer's disease, AD),俗称"老年痴呆症",是一种严重的神经退行性疾病,患者通常会出现以记忆力衰退.学习能力减弱为主的症状,并伴有情绪调节障 ...

  9. 全基因组关联分析(GWAS)

    全基因组关联分析是一种在人类或动植物全基因组中寻找变异序列的方法,全英文名为Genome-wide association study,缩写名为GWAS. 2005年,Science杂志报道了第一篇G ...

最新文章

  1. python分组函数_Python中如何按列分组和按自己的函数汇总
  2. 小程序之旅——第六站(模板首页)
  3. PHPStorm 配置远程服务器文件夹在本地windows镜像,实现代码自动同步(类似于Samba架构文件同步功能)
  4. SQL性能优化整合持续更新
  5. android 中文语音
  6. java equals 字符串_Java String 字符串 比较 == equals
  7. Mac 版 QQ 音乐上线离线提示音的方法?
  8. JSEclipse安装后无法打开js文件_如何在你的 PC 上 下载并配置 Node.js
  9. python输入输出格式_Python基础-用户的输入及格式化输出 | 【韩涛博客】
  10. Matlab2017b配置C++/C/Fortan编译器的问题(已解决)
  11. WAP技术入门(续)
  12. 模拟银行转账(java+mysql+tomcat +JDBC+ druid连接池 + Servlet + Ajax)
  13. @import ‘./common/stylus/mixins.styl‘引起的一系列错误
  14. 笔记本电脑显示dns服务器出错,电脑出现dns错误无法上网的解决方法详解
  15. IE浏览器高通网站打不开dump分析选择目录总结
  16. adb命令查看手机电量_adb获取电池信息以及电量消耗信息
  17. Nikon Capture NX2.2.6下载及破解方法
  18. java向量加法_结构-03. 平面向量加法(10) java
  19. 编程实现:任意输入英文的月份,在查找月份表后输出其对应的中文提示。缩写也可查找。
  20. LeetCode hot-100 简单and中等难度,21-30.

热门文章

  1. excel 添加换行符,去除换行符:
  2. 【第二十四期】golang 一年经验开发 富途
  3. springboot毕设项目社区健康服务系统h9bpy(java+VUE+Mybatis+Maven+Mysql)
  4. React Native从入门到实战--开发环境搭建
  5. 无人机测量在房地一体项目中的应用
  6. 获取树莓派4系统信息
  7. AjaxFileUploaderV2.1修改版
  8. canvas绘制火柴人
  9. 互联网巨头前沿科技产品一览
  10. 域用户不准更改计算机名,请教高手,域环境下如何不退域修改计算机名?