原标题:【技术干货】动植物GWAS经典软件TASSEL的使用

做功能基因定位的生物狗基本都知道,经过10来年的发展,关联分析与连锁分析一样,已经成为一项基本工具,广泛应用于动植物功能基因挖掘中。在动植物(尤其是植物)的关联分析中,TASSEL软件是最早出现的开源软件,相对于其他软件,TASSEL也是使用的最广泛的,您想不想知道在您有了表型、基因型之后,怎么使用TASSEL进行关联分析呢?往下看吧

,小编教你啊~

先给软件的下载地址 http://www.maizegenetics.net/tassel

在拿到表型和基因型(我们以vcf为例)后,完成GWAS分析,你只需要5步。

第一步 数据质控

内容包括:

1)按分型百分比条件过滤,多数文章剔除缺失率在20%以上的位点,样本量较大的群体中,可以将缺失率小于50%的位点都保留;

2)按等位基因频率过滤,通常去除最小(或第二)等位基因频率小于5%的位点,样本量较大的群体中,可以降低到1%;

3)多等位位点的过滤(当软件无法接受时);

4)有时候还会去除缺失数据太多的样本(基因型缺失比例大于20%或更高);

5)哈迪温伯格平衡过滤,一般在无法使用较为复杂的统计模型的情况下使用,如人类的Case/Control GWAS中一般将不符合哈迪温伯格平衡的位点过滤掉,动植物GWAS中一般不过滤;

6)表型极端值去除,用Excel从小到大排一下序看看就知道了。

如果你熟悉plink软件(https://www.cog-genomics.org/plink2),那么第1)到第5)点就变得非常easy了,一条命令行即可以搞定:

./plink --vcf ./test.vcf --maf 0.05 --geno 0.2 --mind 0.2 --hwe 0.001 --biallelic-only --recode vcf-iid --out test.bia.maf0.05.int0.8.ind0.8.hwe0.001 --allow-extra-chr

--vcf 表示输入的文件为vcf文件

--maf 控制第二等位基因频率的,我们这里设置为不小于5%

--geno 控制位点基因型的缺失比例的,我们这里设置为20%,即缺失比例大于20%的位点都会过滤掉

--mind 控制样本基因型缺失比例的,我们这里设置为20%,即基因型缺失比例大于20%的位点都会被过滤掉

--hwe 哈迪温伯格平衡显著性阈值的,我们这里设置为0.001,即哈迪温伯格平衡检验p值小于0.001的位点都会被过滤掉

--biallelic-only 表示只保留二等位位点

--recode 把基因编码为某种格式,我们这里还是输出为与输入文件一样的vcf,所以选vcf-iid,另外还有十几种格式,有需要的生物狗狗们可以到plink的官网上看看

--out 给定输出文件的前缀

--allow-extra-chr 允许存在22+X+Y以外的染色体,非人类数据建议都把这一项给上

我们要讲的TASSEL软件,也可以完成一些过滤,导入数据vcf数据后(File -- open),选中导入的基因型文件,点击Filter菜单操作就行了,具体如下图。

第二步 群体结构分析

群体结构分析的内容其实是很丰富的,包括系统发育树的构建(用于直观地看出样本的亚群分化情况);基于模型的(model-base)群体结构分析,可以使用的软件包括STRUCTURE、Admixture等,分析结果可以获得Q矩阵,用于关联分析;数学降维的主成分分析,也就是我们常说的PCA分析,获得样本的主成分得分表,也可以作为Q矩阵用于关联分析。

本帖小编带领大家用TASSEL进行PCA分析,获得的结果作为Q矩阵用于关联分析,系统发育树的构建(各种树)方法可以参考百迈客云课堂(http://live.biocloud.net/course/21)相关的课程,STRUCTURE的使用介绍见今天下午的直播课程或者云课堂。

PCA分析:导入vcf后,选中导入的基因型文件,依次选择Analysis--Relatedness--PCA即可。

获得的结果包括样本在各个PC(上面选返回多少个就显示多少个的信息)的得分表以及每个PC的特征值列表;如下两图:

第三步 亲缘关系分析

亲缘关系衡量的是两两样本间的相关关系(可能是血缘的或者其他的)的数值,计算的方法很多(具体介绍见云课堂GWAS生信培训班),亲缘关系矩阵(K)在MLM模型中作为随机效控制关联结果的假阳性。在TASSEL中,基于分子标记,获得亲缘关系矩阵有两种方法,一种是计算Distance Matrix(Analysis -- Distance Matrix),另一种是计算Kinship(Analysis -- Kinship),两种途径获得的结果都可以用于关联分析,没有说非要用哪一种才是最好的。

我们以计算Kinship为例,操作图示如下,OK以后即可得到结果。

第四步 关联分析

获得Q矩阵,K矩阵后,导入性状数据,我们就可以进行关联分析了,关联分析之前,我们需要将基因型、性状、Q矩阵合并:按Ctrl键,鼠标依次选择基因型列表、样本在前5个PC的得分矩阵、性状列表,选择Data--Intersect jion完成合并。

终于进入正题了,下面的操作将教会大家如何用TASSEL完成GLM和MLM/CMLM的关联分析。

GLM:选中性状+基因型+PC列表;Analysis--Genotype/Phenotype Association--GLM;选择输出路径,填写输出文件名,然后点击OK即可。

MLM/CMLM:选中性状+基因型+PC列表和亲缘关系列表,Analysis--Genotype/Phenotype Association--GLM;选择输出路径,填写输出文件名,然后点击Okay即可。

结果如下

第五步 绘图展示

把结果文件导入TASSEL中,选中导入的文件,Results--Manhattan plo/QQ plot即可绘出相关图形(TASSEL自带绘图功能画出来的图,小编真心觉得挺丑);想知道漂亮的图怎么画出来的吗,请参加今天下午的直播课程吧,小编手把手教你,包教包会。

通过上面的学习,相信大家已经学会了都动植物经典关联分析软件TASSEL的使用,以上展示的是该软件界面版的使用方法,界面版的软件在数据量比较小的时候操作起来比较顺畅,但是,如果数据量比较大的话,界面版的可能hold不住了,这时您可能想起要用命令行版的,那命令行版该怎么使用呢,请参加下午四点半的直播培训,我们一一为您讲解。

TASSEL目前只能实现GLM/MLM/CMLM三种模型,其他常用模型如EMMAX、FaST-LMM(样本间亲缘关系对结果的影响比较大的时候建议选择这两种模型)等的使用方法以及GAPIT、Admixture软件的使用方法,请看百迈客云课堂GWAS生信专题培训班的内容(http://live.biocloud.net/course/21)。

想要参加今天下午的直播培训的老师们,请下载演示数据,链接: https://pan.baidu.com/s/1nv9TFM5 密码: up8d;并提前配置好Java环境,安装好以下软件:

STRUCTURE:https://web.stanford.edu/group/pritchardlab/structure.html

CLUMMP:https://rosenberglab.stanford.edu/clumpp.html

R:https://www.r-project.org/

Pophelper:http://royfrancis.github.io/pophelper/

CMplot:https://github.com/YinLiLin/R-CMplot返回搜狐,查看更多

责任编辑:

tassel软件使用linux,【技术干货】动植物GWAS经典软件TASSEL的使用相关推荐

  1. 苹果频率测试软件gen,【技术干货】进行精准的PCIe 4.0时钟抖动测量

    原标题:[技术干货]进行精准的PCIe 4.0时钟抖动测量 随着数据传输速率的提升,相关标准也变得越加严苛.PCI-Express标准亦呈现了此趋势,从PCIe Gen3.1的抖动要求为1.0ps R ...

  2. linux能安装音乐软件吗,Linux上如何安装使用音乐软件SoundCloud

    Linux上如何安装使用音乐软件SoundCloud 卡饭网 梦在深巷 2015-02-13 18:16:08 对于喜欢音乐的朋友来说,SoundCloud是个不错的音乐软件,SoundCloud是德 ...

  3. xmind linux,xmind 8 pro序列号-XMind 8(思维导图软件) for Linux下载v8.0-乐游网软件下载...

    <XMind 8>forLinux打造的系统导图思维类软件,提供一体化的可视化思考空间,帮助企业人员进行获取更多的新想法,捕捉新元素,导入导出自己的思路,用于团队协助的工作中,提高企业人员 ...

  4. c++软件开发面试旋极面试题_经典软件开发面试题:浏览器中输入一个网址后发生了什么?...

    经典软件开发面试题:浏览器中输入一个网址后发生了什么? ​ 大家好, 这一期呢,我们来谈一个经典的面试题.这种题目是在浏览器中输入一个网址以后, 会显示一个网页,这期间到底发生了什么? 答案要求说的越 ...

  5. linux服务器下数学软件下载,Linux下数学(科学)软件简介(一)

    装了linux已经有很久了,想着也得用用啊,不然浪费了多不好,以后搞嵌入式的时候还是要用的.很何况linux 就是用C编写的,在哪里编写C/C++那可是很好的,用一个很牛的编译器--GCC. 哈哈!言 ...

  6. linux 文件恢复 软件,用于Linux数据恢复的前5大软件

    数据恢复是为了确保硬盘驱动器的内容在计算机内置功能的帮助下或安装任何第三方软件程序时都没有任何问题和问题.完全避免危机的最佳方法是确保在这方面做了足够的准备工作,以便启动灾难恢复或灾难恢复计划.编写本 ...

  7. linux下截图软件,Flameshot - Linux下功能强大的屏幕截图软件

    今天推荐大家使用Flameshot(火焰),因为它是我个人最喜欢屏幕截图软件.如果你不知道,Flameshot是一个Linux可用的开源截屏工具. 在本文中,我将重点介绍"Flameshot ...

  8. linux 虚拟光驱软件,Ubuntu Linux下强大的虚拟光驱软件 :AcetoneISO

    AcetoneISO 是一款十分强大的虚拟光驱软件,支持 Linux 及 Mac 系统,其功能主要包括: 支持挂载/卸载 ISO.MDF.NRG 等映像文件格式 能够将 BIN/CUE.MDF.NRG ...

  9. linux+上的录屏软件下载,Linux下优秀的屏幕录像软件Kazam | 薄荷开源网

    屏幕录像软件,对于要制作计算机视频教程的人是必不可少的.Linux下的屏幕录像软件有Recordmydesktop.Recorditnow等.不过小编经过试用,个人感觉不太好用. 今天发现一款比上述二 ...

  10. 计算机办公软件的快捷方法,干货!计算机办公软件快捷键小合集

    在当代科学技术迅速发展的时期,电脑已经成为我们每个人的生活工作必须技能.在我们平时的工作中,工作是量大,繁琐,压力大枯燥的,这个时候我们就需要利用一些电子科学技术,小技巧来让我们的工作变得轻松,变得迅 ...

最新文章

  1. DevExpress控件之GridControl、GridView
  2. AtomicInteger源码分析——基于CAS的乐观锁实现
  3. SQL Servr 2008空间数据应用系列三:SQL Server 2008空间数据类型
  4. HDU - 4725 The Shortest Path in Nya Graph(最短路+思维)
  5. Oracle 12c 安装及配置
  6. FL Studio常见问题之通道窗口和步进音序器的设置
  7. 从dump看硬件问题
  8. 软件测试工程师要掌握的Linux系统命令-很全,但不是最全!
  9. Mac 的 Adobe Creative Cloud 无法连接至服务器的解决办法?
  10. python爬虫框架scrapy实例详解
  11. java毕业设计宿舍管理系统mybatis+源码+调试部署+系统+数据库+lw
  12. 【mysql】mysql表分区、索引的性能测试
  13. python增加一列数据_使用Python向DataFrame中指定位置添加一列或多列的方法
  14. VMware故障:配置文件(.vmx)损坏修复
  15. 三明梅列:社区服务走进“微时代”
  16. Python中文转数字
  17. python优秀的项目经理_30来岁的项目经理,谁不是老出差啊?
  18. 何为非侵入式负荷识别-事件检测
  19. matlab reff,R语言逻辑回归和泊松回归模型对发生交通事故概率建模
  20. 抓住汽车消费红利 车载软件开发 让旅途更美好

热门文章

  1. uniapp使用web-view跳转外部链接
  2. Dell笔记本Alienware Command Center监测不到CPU和内存数据
  3. python-制作手机通讯录导入的vcf格式文件,txt格式转vcf格式
  4. vb mysql数据库连接,VB连接Mysql数据库
  5. html页面改成wap页面,wap网页怎么制作 这五大常见问题你要了解一下了!
  6. Ubuntu安装Flash Player
  7. .net core 中使用httpclient下载文件
  8. GBK内码字符串转Unicode字符串
  9. cocos2dx +vs2012安装教程
  10. 如何抓取html请求,网页抓取工具如何进行http模拟请求