利用群体遗传数据估计基因组上重组率
计算所用软件:FastEPRR,需要熟悉和掌握的软件,PLINK,TASSEL, vcftools, Beagle4.1, R
准备工作:
1. 准备输入文件,phased genotype file with VCF format
2. 如何实现 phased genotype file? 假如我们手中的是unphased的 vcf 文件或者hapmap 或者plink 软件格式。
首先准备VCF 格式,可以采用Mega2软件或者TASSEL 进行转化,我的文件是plink 的格式,用TASSEL 转化(这个时候一定要设置最小等位基因频率进行过滤,否则产生的VCF文件有可能报错),如下:
./run_pipeline.pl -fork1 -plink -ped file.ped -map file.map -filterAlign -filterAlignMinFreq 0.05 -export file_vcf -exportType VCF -runfork1
压缩TASSEL导出的文件, 也可以直接输入。
其次用Beagle4.1对unphased的genotyoe 文件进行imputation , 命令如下:
java -jar beagle.21Jan17.6cc.jar gt=Project_vcf.vcf.gz out=Project.gz
3, 产生的VCF压缩文件要用vcftools按照染色体进行分割,分割之后再保存为压缩的vcf 文件格式,
vcftools --gzvcf file.vcf.gz --chr 2 --recode --recode-INFO-all --stdout |gzip -c > chr2.vcf.gz
4 在R中安装FastEPRR,并调用
该软件包使用VCF文件输入,必须是按照单个染色体进行的,分别有三支程序进行操作,最后把所有的结果进行整合
install.packages("package_path /FastEPRR_1.0.tar.gz", repos = NULL, type="source")
library(FastEPRR)
dir.create("/home/zhr/chr1_rr")#创建一个文件夹,存放第一步整理的结果
FastEPRR_VCF_step1(vcfFilePath="/home/zhr/chr1.vcf.gz",winLength="100",srcOutputFilePath="/home/zhr/chr1_rr")
dir.create("/home/zhr/chr1_output")#创建一个文件夹,存放计算的结果
FastEPRR_VCF_step2(srcFolderPath="/home/zhr/chr1_rr",jobNumber=1,currJob=1,DXOutputFolderPath="/home/zhr/chr1_output/")
dir.create("/home/zhr/chr1_results")##存放最终整理的结果
FastEPRR_VCF_step3(srcFolderPath="/home/zhr/chr1_rr",DXFolderPath="/home/zhr/chr1_output",finalOutputFolderPath="/home/zhr/chr1_results")
通过三步就可以计算一个染色体的重组率,如果要计算整个基因组的,则需要把每个染色体都按照上面的步骤运行,在Linux下可以写一个脚步,依次运行每个脚本。
利用群体遗传数据估计基因组上重组率相关推荐
- python运行excel高级筛选怎么用_懂点EXCEL就行!教你利用Python做数据筛选(上)...
前言 Python的数据清洗功能有多厉害,相信不用我说大家都知道了,寥寥几行代码便可以把一份杂乱无章的表格给处理的干干净净.但是python也是不容易入门的,毕竟编程语言要理解和精通也是要花不少功夫的 ...
- python excel筛选统计_懂点EXCEL就行!教你利用Python做数据筛选(上)
前言 Python的数据清洗功能有多厉害,相信不用我说大家都知道了,寥寥几行代码便可以把一份杂乱无章的表格给处理的干干净净.但是python也是不容易入门的,毕竟编程语言要理解和精通也是要花不少功夫的 ...
- python做excel数据条件_懂点EXCEL就行!教你利用Python做数据筛选(上)
前言 Python的数据清洗功能有多厉害,相信不用我说大家都知道了,寥寥几行代码便可以把一份杂乱无章的表格给处理的干干净净.但是python也是不容易入门的,毕竟编程语言要理解和精通也是要花不少功夫的 ...
- python—利用TCP实现数据上传
今天晴,天气微热,易分享代码.因最近利用python完成脚本功能,现做一下整理,因整体代码过程可能不适用各种业务需求,先进行拆分讲解.如有缺陷或不美妙的地方,还请各位多多交流指教!! 以下代码将:利用 ...
- (转)基于MVC4+EasyUI的Web开发框架经验总结(12)--利用Jquery处理数据交互的几种方式...
http://www.cnblogs.com/wuhuacong/p/4085682.html 在基于MVC4+EasyUI的Web开发框架里面,大量采用了Jquery的方法,对数据进行请求或者提交, ...
- 【Python】利用滑动窗口计算全基因组每个窗口上CNV的拷贝数和Vst
目录 Vst介绍 计算每个窗口的绝对拷贝数 1.文件准备 2.编写脚本 计算每个窗口的Vst Vst介绍 Vst是通过计算拷贝数的方差来衡量不同群体之间CNV的分化的一个指标,类似于Fst的概念,可以 ...
- android返回上一级代码,Android实践11 | 利用intent返回数据给上一级activity
利用intent返回数据给上一级activity 2018-05-08_154146.jpg activity间数据传递的,不但可以把数据从一个activity传给下一个activity,也可以从下一 ...
- 利用python爬取丁香医生上新型肺炎数据,并下载到本地,附带经纬度信息
新增:国外疫情网站介绍 已更新:爬取国外疫情数据 已更新:新型肺炎历史数据下载 2020年3月27日补充: 制作了一个全球肺炎数据查询下载网站,效果如下: 访问地址:http://119.3.227. ...
- python爬取电脑本地数据_利用python爬取丁香医生上新型肺炎数据,并下载到本地,附带经纬度信息...
原标题:利用python爬取丁香医生上新型肺炎数据,并下载到本地,附带经纬度信息 新型肺炎肆虐全国,可以预知,最近一两年地理学中会有一部分论文研究新型肺炎的空间分布及与其他指标的关联分析.获取其患病人 ...
最新文章
- 软件开发模式对比(瀑布、迭代、螺旋、敏捷)
- 谋定菲律宾农业全产业链建设 对话国际农民丰收节贸易会
- 流利说CFO辞职 公司上市一年多股价跌去一半
- 1.8_heapq模块_优先队列
- 64位浮点数_浮点数误差
- Django中ORM对数据库的增删改查操作
- JS 屏蔽按键效果和改变按键效果
- 记录10本关于开关电源的书
- opencv 叠加文字_利用opencv为视频添加动态字幕
- 机器人挠人脚心_美国惊现“挠脚狂魔” 潜入宿舍挠人脚心
- AS导入项目或开启项目时,Gradle一直卡在build状态
- Metro 风格应用的导航设计
- 使用Lens管理多云Kubernetes
- 10 种 Python 聚类算法完整操作示例(附代码说明)
- 用v-modle做一个简单的计算器
- python列转行函数_python 列转行
- Redis的Java客户端
- 30.PCIe扫盲——TLP Header详解(一)
- 微信小程序体验版,手机打开调试正常访问 关闭调试访问不通
- 3D-Max 软件许可证检出失败 错误20 解决办法