近日,GPB在线发表了西南民族大学青藏高原动物遗传资源保护与利用(四川省、教育部)重点实验室题为“GAPIT Version 3: Boosting Power and Accuracy for Genomic Association and Prediction”的软件文章,我们的“要文译荐”栏目很高兴邀请到西南民族大学王嘉博博士和美国华盛顿州立大学张志武教授共同为大家系统介绍该全基因组关联分析与预测软件的具体情况。


要点介绍

研究问题:

全基因组关联分析与预测软件(GAPIT version 3)的构建。

研究背景:

GAPIT是一款基于R语言平台编译,整合了多种全基因组关联分析和全基因组选择新算法,集输出相关图形、表格于一身的免费软件。全基因组关联分析包括一般线性模型(General Linear Model, GLM);混合线性模型(Mixed Linear Model, MLM);压缩式混合线性模型(Compressed Mixed Linear Model, CMLM);改进版压缩式混合线性模型(Enrichment CMLM, ECMLM);快速式混合线性模型(Fast-LMM);快速选择式混合线性模型(Fast-LMM-Select);逐步排它性混合线性模型(Settlement of MLMs Under Progressively Exclusive Relationship, SUPER);多位点混合线性模型(Multiple Loci Mixed Model, MLMM);固定随机模型循环概率模型(Fixed and random model Circulating Probability Unification, FarmCPU);和贝叶斯信息与连锁不平衡迭代嵌套式模型(Bayesian-information and Linkage-disequilibrium Iteratively Nested Keyway, BLINK)。全基因组选择包括基因组最佳线性无偏估计(genomic Best Linear Unbiased Prediction, gBLUP);压缩式最佳线性无偏估计(Compressed BLUP, CBLUP);和SUPER 最佳线性无偏估计(SUPER BLUP, SBLUP)。截止目前GAPIT已经发展到第三个版本,前两个版本累计引用超过1400余次,从2016年至今,GAPIT网站累计获得34,000次以上的网页访问,使GAPIT成为目前世界上研究人类疾病、动植物育种全基因组学关联分析和预测的重要分析工具。

主要成果1:

整合目前最新的全基因组关联分析算法(MLMM, FarmCPU和BLINK)以及全基因组选择预测算法(CBLUP, SBLUP)。

主要成果2:

经过逻辑重排,代码优化,使多种算法独立存在于GAPIT3中,用户无须分别下载、安装和维护。

主要成果3:

创建交互式输出,包括交互式曼哈顿图,交互式分位数-分位数(Quantile-Quantile, QQ)图以及交互式全基因组选择预测结果。

软件主页及Github连接:

http://zzlab.net/GAPIT

https://github.com/jiabowang/GAPIT3

背景和研究对象

基因组学研究一直是研究生物基因与性状潜在关系的重要热点,全基因组关联分析(Genome Wide Association Study, GWAS)和全基因组选择预测(Genomic Selection/Genomic Prediction, GS/GP)是基因组学研究中两项重要的研究内容。 GWAS的重点是寻找与特定性状相关的有效遗传位点(通常是单核苷酸多态性,Single Nucleotide Polymorphisms,SNPs),而GP在动植物育种领域被用来估计基因组育种值并预测表型值,以此来进行育种规划和选择。而计算机软件方法在GWAS和GP研究中关系着研究结果的统计学效力、计算效率以及最终推广应用的可行性。

软件简介

GAPIT目前发展到第三个版本,现已经整合最新的全基因组关联分析算法(GLM, MLM, CMLM, ECMLM, SUPER, FarmCPU和BLINK)以及全基因组选择预测算法(GBLUP, CBLUP, SBLUP),前两个版本累计被他引超过1400余次,从2016年至今,GAPIT网站累计获得34,000次以上的网页访问。GAPIT是目前世界上研究人类疾病、动植物育种全基因组学关联分析和预测的主要分析工具。

软件主要结构

为了适应多种方法的不断融入和比较,我们将GAPIT原有逻辑结构进行了重排,以方便集成外部软件包,即使有些没有整合在GAPIT3中的算法也可以使用GAPIT3的输出模式进行方法之间的比较。GAPIT分为五个模块:(1)数据与参数(DP); (2)质量控制(QC);(3)中间元件(IC);(4)充分统计量(SS);(5)解释和诊断(ID)。这些模块中的任何一个都是可选的,可以跳过。但是,GAPIT3不允许以相反的顺序执行模块(1)。

图1  GAPIT逻辑模块及适应性拓展

软件集成的算法

GAPIT目前整合了多种算法,我们比较了这些算法的优势以及适宜性,方便用户了解这些算法,并选择适合自己数据类型的算法(2)。

2  GAPIT三个版本中统计方法的比较

集成算法与独立算法比较

目前GAPIT整合的第三方软件和算法包括:MLMM, FarmCPU, BLINK-R和BLINK-C。我们比较了这三款软件独立运行和在GAPIT3中估计遗传标记P值的结果,同时还比较了使用MLM在rrBLUP, EMMAREML, BGLR以及GCTA和在GAPIT中预测的结果(3)。结果显示GWAS结果中,GAPIT中运行的四款软件与其独立运行的计算结果完全一致;GP结果中仅有BGLR中MLM与GAPIT中的存在一定偏差,其他三款软件与GAPIT中的预测结果完全一致。BGLR中的MLM是采用马尔科夫链(Markov Chain Monte Carlo, MCMC)进行估计遗传方差与环境方差的比值(λ),而在rrBLUP, EMMAREML, GCTA以及GAPIT中均采用谱分解法估计λ,因此造成了预测上的轻微波动。

图3  GAPIT中的方法与独立运行下GWAS和GP结果比较

交互式关联分析结果

GAPIT3包含两种类型的交互式报告。首先,用户现在可以与曼哈顿图、QQ图和预测与观察表现型的散点图交互,提取标记和个体信息。例如,通过在数据点上移动光标或指向设备,用户可以找到标记的名称和位置,或个体的名称和表型,用户也可以用鼠标点击特定的染色体进行选择、排序、剔除和缩放视角,这类交互结果使用web浏览器显示(4)。其次,用户可以使用鼠标或触控板等指向设备旋转图形,也可以选择、剔除选择的子群体,如3D主成分分析(Principal Component Analysis, PCA)图(图5)。

图4  交互式输出结果截图

图5  交互式3D PCA截图

软件的计算时间比较

GAPIT3中GWAS和GP算法的计算时间与标记数呈线性关系(图6)。然而,它们将计算复杂度与个体数量混合在一起。大多数方法的计算时间复杂度是个体数的立方,包括GBLUP, CBLUP以及SBLUP。GWAS中只有两种方法对个体数量具有线性计算时间:FarmCPU和BLINK。与直接使用这些包相比,在GAPIT中使用MLMM, FarmCPU和BLINK包时,计算时间有适度的增加。BLINK方法有两个版本:C版本和R版本。当C版本单独作为标准操作时,比R版本要快得多。当它们在GAPIT内执行时,情况就相反了。这是因为GAPIT直接使用R版本的输入和输出,而当GAPIT执行C版本时,输入和输出数据必须在内存和磁盘之间进行转换。

图6  多方法计算时间比较

GAPIT数据统计

GAPIT的使用量、网页论坛的访问量以及引用次数在过去几年始终稳定增加。截止2021年8月6日,前两个版本累计被引超过1400余次,从2016年至今,GAPIT网站累计获得34,000次以上的网页访问。自2012年GAPIT第一版本发表后,GAPIT谷歌论坛累计活跃800多个关于使用、功能、BUG以及修正建议等相关主题,累计回帖数量达到2900多次,总计访问量达到了74,000次以上。

7  GAPIT谷歌论坛使用情况

总结与展望

GAPIT作为一款面向全基因组关联分析和选择预测的软件,已经受到了世界范围遗传学者和更多科学家的关注和使用。目前已有的版本累计被引超过1400多次,其不断发展并整合的新方法为人们更快、更精准的探测潜在遗传关联位点,以及预测个体的遗传育种值和表型值提供了巨大的帮助。为了充分推进动植物遗传进展的不断进步,以及人类遗传疾病的攻克,GAPIT将不断强化自身功能性、可视性以及方法性,引领GWAS和GP的方法研究、软件发展以及结果信息的阅读质量。最后,我们计划与美国俄勒冈州立大学合作继续深入开发GAPIT软件,将GAPIT在全面的R档案网络(CRAN)上得以加载,更好地为世界上全基因组关联分析和选择预测研究提供帮助。

文章编译来源: Jiabo Wang, Zhiwu Zhang. GAPIT Version 3: Boosting Power and Accuracy for Genomic Association and Prediction. Genomics Proteomics Bioinformatics 2021. https://doi.org/10.1016/j.gpb.2021.08.005. 英文全文详见: https://www.sciencedirect.com/science/article/pii/S1672022921001777.

扫描二维码直接访问原文

西南民族大学青藏高原动物遗传资源保护与利用(四川省、教育部)重点实验室的王嘉博博士为该文第一作者和通讯作者,华盛顿州立大学的张志武教授为该文通讯作者。本研究得到了四川省科技项目,国家牦牛肉产业体系项目的支持。

相关阅读

组学原始数据管理体系(GSA Family)

Genome Warehouse:基因组数据公共资源库

双11后拒绝“吃土”!新品数据“大锅菜”来袭,0元抢够~

数据“大锅菜”plus 版~吃饱开工!

舌尖上的数据?“百家饭”Plus版来啦

2018年度“中国生物信息学十大进展”公布

2019年度“中国生物信息学十大进展”公布

2020年度“中国生物信息学十大进展”公布


Genomics, Proteomics & Bioinformatics(基因组蛋白质组与生物信息学报,简称GPB)于2003年创刊,是由中国科学院主管、中国科学院北京基因组研究所(国家生物信息中心)与中国遗传学会共同主办的英文学术期刊,由Elsevier金色开放获取(Gold Open Access)出版。刊载来自世界范围内组学、生物信息学及相关领域的优质稿件。现为中国科学引文数据库(CSCD)和中国科技论文与引文数据库(CSTPCD)核心期刊,被SCIE、PubMed / MEDLINE、Scopus等数据库收录。2018、2019、2020连续位于中科院文献情报中心期刊分区表大类“生物1区Top"。2020年,CiteScore为12.4,位于“计算数学”、“遗传学”、“生物化学”、“分子生物学”四个学科领域Q1区;Impact Factor为7.691,位于“遗传学与遗传性”学科领域前10%。期刊由科技部等七部门联合实施的“中国科技期刊卓越行动计划”资助(2019–2023)。

猜你喜欢

10000+:菌群分析 宝宝与猫狗 梅毒狂想曲 提DNA发Nature Cell专刊 肠道指挥大脑

系列教程:微生物组入门 Biostar 微生物组  宏基因组

专业技能:学术图表 高分文章 生信宝典 不可或缺的人

一文读懂:宏基因组 寄生虫益处 进化树

必备技能:提问 搜索  Endnote

文献阅读 热心肠 SemanticScholar Geenmedical

扩增子分析:图表解读 分析流程 统计绘图

16S功能预测   PICRUSt  FAPROTAX  Bugbase Tax4Fun

在线工具:16S预测培养基 生信绘图

科研经验:云笔记  云协作 公众号

编程模板: Shell  R Perl

生物科普:  肠道细菌 人体上的生命 生命大跃进  细胞暗战 人体奥秘

写在后面

为鼓励读者交流、快速解决科研困难,我们建立了“宏基因组”专业讨论群,目前己有国内外5000+ 一线科研人员加入。参与讨论,获得专业解答,欢迎分享此文至朋友圈,并扫码加主编好友带你入群,务必备注“姓名-单位-研究方向-职称/年级”。PI请明示身份,另有海内外微生物相关PI群供大佬合作交流。技术问题寻求帮助,首先阅读《如何优雅的提问》学习解决问题思路,仍未解决群内讨论,问题不私聊,帮助同行。

学习16S扩增子、宏基因组科研思路和分析实战,关注“宏基因组”

点击阅读原文

GAPIT 3.0:全基因组关联分析与预测软件最新版发布相关推荐

  1. 【生信】全基因组关联分析(GWAS)原理

    [生信]全基因组关联分析(GWAS)原理 文章的文字/图片/代码部分/全部来源网络或学术论文,文章会持续修缮更新,仅供大家学习使用. 目录 [生信]全基因组关联分析(GWAS) 1.前提知识介绍 1. ...

  2. 使用LASSO进行全基因组关联分析

    目录 介绍 解决的核心问题 方法流程 变量预筛选 正则化参数选择 p值估计 错误发现率的控制 方法效果 模拟数据 实际数据 总结 介绍 本文介绍一种利用LASSO来做响应变量是01变量时进行全基因组关 ...

  3. 全基因组关联分析(Genome-Wide Association Study,GWAS)流程

    转载:http://www.cnblogs.com/chenwenyan/ 全基因组关联分析流程: 一.准备plink文件 1.准备PED文件 PED文件有六列,六列内容如下(PED文件是空格(空格或 ...

  4. DNA 12. SCI 文章绘图之全基因组关联分析可视化(GWAS)

    点击关注,桓峰基因 桓峰基因 生物信息分析,SCI文章撰写及生物信息基础知识学习:R语言学习,perl基础编程,linux系统命令,Python遇见更好的你 134篇原创内容 公众号 桓峰基因公众号推 ...

  5. 2020.10.21【转载】丨GWAS全基因组关联分析流程

    感谢CSDN用户 追梦生信人 梳理了GWAS全基因组关联分析的整个流程,并提供了基本的命令,用到的软件包括BWA.samtools.gatk.Plink.Admixture.Tassel等,在此分享出 ...

  6. GWAS全基因组关联分析流程(BWA+samtools+gatk+Plink+Admixture+Tassel)

    我梳理了GWAS全基因组关联分析的整个流程,并提供了基本的命令,用到的软件包括BWA.samtools.gatk.Plink.Admixture.Tassel等,在此分享出来给大家提供参考. 一.BW ...

  7. 全基因组关联分析(GWAS)实现途径之一

    转自:简书:链接:https://www.jianshu.com/p/bf7e67680414 ################################################# 写在 ...

  8. SNPassoc全基因组关联分析

    WGassociation(SNPassoc) WGassociation()所属R语言包:SNPassoc Whole genome association analysis            ...

  9. GWAS理论 1-5 全基因组关联分析结果解读与经典案例介绍

    一.主要结果 二.结果可视化与后续分析建议 置换检验(Permutation test) bonferroni threshold 和 FDR 看我之前的简书文章有解释 可视化 理想结果 失败结果 受 ...

最新文章

  1. 转发和重定向的区别是什么
  2. boost::spirit模块实现逗号分隔的数字列表的解析器的测试程序
  3. Angular No provider for EffectsRootModule错误消息的出现原因和修复方式
  4. 语义分割和实例分割_语义分割入门的一点总结
  5. 3号团队-团队任务4:每日例会(2018-11-28)
  6. 大数据 机器学习 人工智能_在这个季节中,您如何免费学习数据科学,人工智能和机器学习。...
  7. Android System ANR caused SWT restart issue
  8. tomcat 启动编码设置
  9. ubuntu上传本地文件到服务器_ubuntu怎么本地上传文件到服务器ssh
  10. java计算机毕业设计中小学生错题管理系统源码+数据库+系统+lw文档+mybatis+运行部署
  11. java服务器动态打包apk
  12. JS === 实现多个光标跟随事件
  13. LPDDR4学习笔记
  14. 动态代理的两种方式以及区别
  15. 文本挖掘与matlab,文本挖掘与数据挖掘:发现差异
  16. 将汉字数字转换成数字
  17. 计算机开机硬盘扫描,电脑开机出现磁盘扫描故障的原因及解决妙招
  18. JS 日期的获取和计算 ios不兼容问题
  19. 解决MySQL的Unknown system variable ‘tx_isolation‘
  20. 学习日记day38 字体设计排版

热门文章

  1. 设置ubuntu1920*1080分辨率
  2. 图片如何高清修复?高清修复图片的方法
  3. APP开发从需求到产品—APP产品经理成长日记
  4. 搜狗输入法 - 自定义短语
  5. 中国超级计算机计算圆周率,圆周率都已算到31.4万亿位,为什么超级计算机还在算圆周率?...
  6. 关于微信小程序申请及个人信息和微信账号的问题
  7. codeforces 438D
  8. Java 字母飘落小游戏
  9. 六个做PPT离不开的辅助插件,一秒让你的PPT逼格满满!
  10. 做个清醒的程序员之拥抱AI