本节,介绍一下官网上面GCTA的功能描述。

1. 最新功能

GCTA在2010年首次释放,现在的版本是1.94.0beta,2021年到现在更新了3次,重要的更新时增加了fastGWAfastGWA-GLMM,相关文章发表在NG上。

2. 2019 NG:fast-LMM模型

2019年的NG,介绍了fast-LMM模型,分析45万个个体,2048个性状,无压力!

这个主要分析连续数量性状。

3. 2021年NG:fast-GLMM模型

2021年的NG,介绍了fast-GLMM模型,分析1184万个个体,2989个二元性状性状,无压力!

这个主要分析二分类性状!

4. 媒体报告

GCTA的作者杨剑老师,也到国内的西湖大学了,跟大牛的物理距离更近啦

https://www.westlake.edu.cn/research/achievements/202111/t20211116_15322.shtml

5. 西湖大学官网介绍fast-GLMM

https://www.westlake.edu.cn/research/achievements/202111/t20211116_15322.shtml

2021年11月4日,西湖大学生命科学学院杨剑教授团队在《自然-遗传学》Nature Genetics 发表题为A generalized linear mixed model association tool for biobank-scale data的论文。

该研究团队开发出了一款极为高效的广义线性混合模型(Generalized Linear Mixed Model,GLMM)关联分析工具,将其命名为fastGWA-GLMM,专门针对二元性状的全基因组关联研究(Genome-Wide Association Study,简称GWAS)。fastGWA-GLMM以及该团队之前开发的fastGWA(主要针对连续型性状)是目前唯一可应用于百万级生物样本库的混合模型GWAS分析工具。

人类常见的性状,包括我们的行为、生理特征、疾病易感性,大多都是由大量的、效应微小的DNA片段变化造成的。这些被称为遗传变异的DNA变化与哪些疾病的发生有关?

GWAS就是一种被广泛用于检测遗传变异与表型之间关联的实验设计。简单地说,它是通过比较大量人群的遗传信息特征,找到特定的遗传变异,利用统计学的方法寻找与复杂疾病相关的遗传因素,揭示与疾病发生、发展相关的基因和调控机制。

但GWAS受制于数据分析能力。尤其是近年来,随着十万级、甚至百万级大型生物样本库的出现,例如英国生物样本库(UK Biobank,简称UKB)、美国的基因检测公司23andMe等,原有的GWAS分析工具“捉襟见肘”。

人体的性状可以大致分为两类,一种是连续型数量性状,指的是个体间的差异可以用数量区别,例如身高、体重等;另一种是二元性状,表现为对立面的两种状态,例如患病还是不患病。UKB中有3000-4000个性状,其中一半以上是“非此即彼”的二元性状。

过去常用的GWAS分析工具主要是基于线性回归模型(Linear Regression,LR),但LR的缺点是忽略了群体结构以及人与人之间的亲缘关系,从而会影响结果的准确性。随后出现的基于线性混合模型(Linear Mixed Model,LMM)的方法,可以有效控制样本中的群体结构和亲缘相关,无需移除样本中大量的亲缘相关个体,从而在避免虚假关联的条件下达到更高的统计功效。但线性混合模型原则上只适用于连续型性状,当它被应用于二元性状时,得到的只是近似解,结果并不精确。广义线性模型正好能弥补上述二者的缺陷,但广义线性模型有着比一般线性模型更高的计算复杂度。于是,科学家们开始思考如何开发一种可以高效地分析大型生物样本库数据的广义线性模型方法。

杨剑团队提出了一系列基于稀疏矩阵的算法,突破了传统广义线性模型和线性混合模型耗时、耗计算资源的瓶颈,开发出了一款极为高效的基于广义线性混合模型的二元性状全基因组关联分析工具:fastGWA-GLMM。

该团队用真实数据展示了fastGWA-GLMM极高的运算效率,远超同类二元性状关联分析方法,运算效率最高可达到传统方法的36倍。而在一个模拟的两百万人的群体中(每个人有约1千2百万个变异位点),fastGWA-GLMM在使用16个CPU核和32GB内存的情况下只需要17小时就可以完成一个二元性状的全基因关联分析,而这对于原有的工具是几乎不可能完成的任务。fastGWA-GLMM对大量数据的快速处理能力,对即将到来的百万级生物样本库具有重大意义。

16核32G内存,17小时分析了百万人的二分类性状!!!

作为一款稳健、强大且高效的关联分析工具,fastGWA-GLMM可以应用于几乎所有的大型生物样本库的二元性状关联分析。杨剑团队已经用fastGWA-GLMM分析了英国生物样本库中的2989个二元性状,并将所有的关联分析结果共享在他们的在线数据平台上(http://fastgwa.info/ukbimpbin)。用户可以在这个平台上无限制地浏览、检索、查询、下载所有的结果数据。并且,该方法已被整合至该团队开发的开源软件包GCTA中(https://yanglab.westlake.edu.cn/software/gcta)。fastGWA和fastGWA-GLMM或将成为未来超大型生物样本库关联分析研究不可或缺的工具之一,其破解人类复杂疾病遗传奥秘的应用潜力不可估量。

澳大利亚昆士兰大学博士生、西湖大学访问学生江龙达(现为纽约基因组中心博士后)、澳大利亚昆士兰大学郑志利博士为本文共同第一作者,西湖大学杨剑教授为本文通讯作者。

论文链接:https://www.nature.com/articles/s41588-021-00954-4

杨剑团队网站:https://yanglab.westlake.edu.cn/

6. GCTA更新日志

Update log

Version 1.94.0beta (4 Jan 2022)

A major update of the software to be compatible with ARM architecture (credits to the openEuler BIO-SIG).
Proofreading of all the error and warning messages.
Changed the buffer size of line field from 50 to 512 bytes in ACAT.

Version 1.93.3beta2 (17 Aug 2021)

Fixed a bug when running fastGWA with genotype files in BGEN format.
Fixed an issue when running fastGWA with a stringent filtering which leads to not sufficient null SNPs (i.e., < 100) to estimate the parameter gamma.

Version 1.93.3beta (1 Jun 2021)

Added a new module fastGWA-GLMM (a resource-efficient generalized linear mixed model association tool for biobank-scale data).
Added a new module fastGWA-BB (a set-based burden test for binary traits based on the framework of fastGWA-GLMM).
Added a new module ACAT-V (a very efficient summary-level set-based test that only requires GWAS summary statistics, originally proposed by Liu et al, 2019).

……

30 Aug, 2010

first release.

欢迎关注我的公众号:育种数据分析之放飞自我。主要分享R语言,Python,育种数据分析,生物统计,数量遗传学,混合线性模型,GWAS和GS相关的知识。

GCTA 系列教程

GCTA学习1 | 抛砖引玉–初步介绍

GCTA学习2 | 软件下载安装–windows和Linux

GCTA学习3 | GCTA的两篇NG:fast-LMM和fast-GLMM

GCTA学习4 | GCTA说明文档–功能分类及常见问题

GCTA学习5 | GCTA计算PCA及可视化

GCTA学习6 | GCTA计算GRM矩阵(kinship矩阵)

GCTA学习7 | 计算单性状遗传力和标准误

GCTA学习8 | GCTA计算多性状遗传力和遗传相关

GCTA学习3 | GCTA的两篇NG:fast-LMM和fast-GLMM相关推荐

  1. GCTA学习4 | GCTA说明文档--功能分类及常见问题

    1. GCTA 说明文档 最新版是2021-06-01更新,共有98页: GCTA说明文档:https://yanglab.westlake.edu.cn/software/gcta/static/g ...

  2. 深度学习论文阅读目标检测篇(二):Fast R-CNN《Fast R-CNN》

    深度学习论文阅读目标检测篇(二):Fast R-CNN<Fast R-CNN> Abstract 摘要 1. Introduction 引言 1.1 RCNN and SPPnet 1.2 ...

  3. GCTA学习7 | 计算单性状遗传力和标准误

    前面的几节中,我们介绍了GCTA计算G矩阵,本节我们介绍,如果使用GCTA进行遗传力的估计. 1. GCTA计算单性状遗传力常用参数 1.1 --reml(必须) 这部分,是使用reml的方法进行估计 ...

  4. 学习两篇文章后才知道 高价值分享之写作这件事值得坚持做

    01 写在前面 进入私密圈子社群.勾搭大V 青眼有加 .先别人获取第一手价值信息 .不知道你们想过没,这些事情我不止想了一次. 但是作为一个普通人,身上没有那些牛叉的 Title 加成,几乎很难实现. ...

  5. 【NLP学习笔记】文本相似度计算——判断两篇文章是否相似

    一.算法流程 (1)使用TF-IDF算法,提取出两篇文章的关键词: (2)每篇文章各取出若干个关键词(比如20个),合并成一个集合,计算每篇文章对于这个集合中的词的词频(为了避免文章长度的差异,可以使 ...

  6. 语义分割车道线,来自两篇论文的融合算法

    语义分割车道线,来自两篇论文的融合算法 IEEE IV 2018论文<LaneNet: Real-Time Lane Networks for Autonomous Driving>.这篇 ...

  7. 100%抄袭!ICLR 2022投稿竟公然剽窃两篇顶会,程序主席放「实锤」严词拒稿

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来源丨新智元 编辑丨极市平台 导读 ICLR 2022会议投稿出现抄 ...

  8. 两篇大而全的SLAM综述

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者:iceytan | 来源:知乎 https://zhuanlan.zhihu.com/p/111 ...

  9. 一个课题组两篇Cell发布病毒与宿主相互作用重要研究

    撰文丨赵欣(中科院微生物研究所 ).滕越(军事医学研究院微生物流行病研究所) 责编丨迦溆 Drug targets for Dengue, Zika and Ebola viruses.图片引自:ht ...

最新文章

  1. UIImage的scale
  2. Tomcat关闭后,重新启动,session中保存的对象为什么还存在解决方法
  3. Rxjava之操作符distinct和elementAt
  4. 去掉字符串连续出现K个0的子串
  5. 深入理解分布式技术 - 降级和熔断
  6. 在VS2010调试javascript程序时的各种问题
  7. c语言复杂的程序代码,C语言中复杂结构的序列化
  8. with open新创建的文件在哪找_Python 简明教程——24,Python 文件读写
  9. 更新Svn客户端后,右键菜单中没有TortoiseSVN了
  10. 精益或六西格玛已经不易了,为啥还需要“精益六西格玛”?
  11. Ubuntu下Tomcat连接MySql数据库
  12. centos7 配置anaconda及anaconda常用命令
  13. slam 图像处理 matlab,MATLAB R2020a图像处理和计算机视觉新进展
  14. python mro算法_Python MRO C3算法实现
  15. add p4 多个文件_Python实例:对文件夹图片批量添加logo操作
  16. 随机过程 - 马尔可夫链
  17. 抖音壁纸小程序怎么做?教你开通和对接流量主拥有自己的小程序
  18. 数据结构与算法2:线性表的顺序存储与链式存储
  19. 英文题面翻译(30)
  20. 不同手机型号图文预览_关于iPhone的不同型号手机和不同版本系统

热门文章

  1. iOS音视频播放-AVPlayer简单使用
  2. 潇洒郎:VMware固定虚拟机IP地址
  3. 有关监控的前5名最佳书籍
  4. 两个例子让你了解什么是中介作用和调节作用
  5. 测试环境docker-swarm安装部署
  6. UUI Make StartUp Disk
  7. 编译Python时报错:configure: error: no acceptable C compiler found in $PATH
  8. 面试十五年经验程序员,面试官沦为听众
  9. cleanmymac苹果电脑必备mac系统垃圾清理工具分享
  10. 元宇宙照进现实 金蝶联手科大讯飞发布“数字员工”