MEGA使用VCF/Hapmap数据构建进化树
MEGA使用VCF/Hapmap数据构建进化树
- 1. VCF/Hapmap数据转换为单字符形式基因型文件
- 2. Hapmap文件转换为Fasta格式
- 3. MEGA运行
MEGA是进化树的优秀软件,还包含诸多功能,想要使用MEGA构建多材料的进化树,方法步
骤如下。
1. VCF/Hapmap数据转换为单字符形式基因型文件
使用TASSEL Linux版本完成。
## VCF 文件 转换
run_pipeline.pl -Xms51200m -Xmx500600m -vcf \
CORbnaG.corn.filter.imp.vcf -export \
CORbnaG.corn.imp.singlechar.hmp.txt \
-exportType Hapmap## Hapmap Diploid模式转换(双字符基因型,eg: AA,GG... etc)
run_pipeline.pl -Xms51200m -Xmx500600m -h \
CORbnaG.corn.filter.imp.hmp.txt -export \
CORbnaG.corn.imp.singlechar.hmp.txt \
-exportType Hapmap
2. Hapmap文件转换为Fasta格式
使用Python DataFrame完成,此步骤耗内存,或者使用开发好的工具转换速度更快。
### 将上面hmp数据转换为 filename.fasta
#!/usr/bin/env python
import sys
import os
import pandas as pddef trans(input,output):ouf=open(output,"w")data1=pd.read_csv(input,header=0,sep="\t")data2=data1.iloc[:,11:data1.shape[1]].Tcol=data2._stat_axis.values.tolist()for i in range(len(data2)):a=data2.iloc[i] b=list(a)ouf.write(">%s\n"%(col[i]))ouf.write("%s\n"%("".join(b)))ouf.close()input=sys.argv[1] # single character hapmap file
output=sys.argv[2] # fasta-like hapmap sequence
trans(input,output)
3. MEGA运行
设定配置文件 filename.mao,该步骤使用windows MEGA X软件点击保存即可。
; Please do not edit this file! If this file is modified, results are unpredictable.
; Instead of modifying this file, simply create a new MEGA Analysis Options file by using the MEGA Prototyper.
[ MEGAinfo ]
ver = 0
[ DataSettings ]
datatype = snNucleotide
containsCodingNuc = False
MissingBaseSymbol = ?
IdenticalBaseSymbol = .
GapSymbol = -
[ ProcessTypes ]
ppInfer = true
ppNJ = true
[ AnalysisSettings ]
Analysis = Phylogeny Reconstruction
Scope = All Selected Taxa
Statistical Method = Neighbor-joining
Phylogeny Test = Not Applicable
Test of Phylogeny = Bootstrap method
No. of Bootstrap Replications = 500
Substitution Model = ====================
Substitutions Type = Nucleotide
Model/Method = No. of differences
Substitutions to Include = d: Transitions + Transversions
Rates and Patterns = ====================
Rates among Sites = Uniform Rates
Gamma Parameter = Not Applicable
Pattern among Lineages = Same (Homogeneous)
Data Subset to Use = ====================
Gaps/Missing Data Treatment = Pairwise deletion
Site Coverage Cutoff (%) = Not Applicable
Number of Threads = 16
Has Time Limit = False
Maximum Execution Time = -1
运行megacc(MEGA linux版本)
mkdir tree
~/bin/mega/megacc -a ../mega_nj.500bs.mao -d ./filename.fasta -o ./tree
注意megacc命令输出文件夹时,需要提前创建,否则即便设定输出文件夹,mega会输出到当前目录,以上仅为记录。
MEGA使用VCF/Hapmap数据构建进化树相关推荐
- linux系统发育树的构建步骤,megacc构建进化树.mao文件生成方法
基于linux版megacc构建系统进化树命令如下: /biosoft/MEGA/megacc -a .mao -d fasta -o ./ -a输入的是构建进化树的参数 .mao文件 -d输入的是多 ...
- linux中mpich的运行线程,贝叶斯法构建进化树:MrBayes
1. 简介 使用贝叶斯法构建进化树的软件有很多.在这里简要介绍MrBayes的安装和使用.以下介绍是对几种贝叶斯法构建进化树软件的简介: MrBayes is a program for Bayesi ...
- 群体结构分析:用 phylip 构建进化树
用 phylip 构N-J树 在 linux 系统,可以用 conda 安装 phylip 软件 1. 将 SNP 文件转换为 phylip 格式 用 tassel 的格式转换功能将 plink 格式 ...
- 滴滴快的精打细算:利用大数据构建产业生态圈
ZDNet至顶网软件频道消息: 随着2014年初那场旷日持久补贴大战的落幕,"土豪"一词也随之成为人们对滴滴快的的印象标签.殊不知,在疯狂补贴的同时,滴滴快的也有一颗精打细算的&q ...
- 【干货】产品经理如何使用大数据构建用户画像
送给真正的互联网人一顿干货早餐 [小咖导读]文自"数据挖掘与数据分析",伴随着大数据应用的讨论.创新,个性化技术成为了一个重要落地点.相比传统的线下会员管理.问卷调查.购物篮分析, ...
- bootstrap-table真实交互数据_博思远略:基于AI交互场景数据构建用户画像的几点思考...
什么是用户,就是那些藏在每台电脑.手机.pad.智能watch屏幕背后的使用产品或服务恰如你我--有血有肉.有情绪.有想法.有阅历.有逻辑.有思考.固守某种习惯且独一无二.形形色色的人. 用户画像本质 ...
- 历经3年的打磨,数据构建及管理平台Dataphin增加了什么新功能?
简介:自Dataphin产品上线以来,经历3年的迭代打磨,在2021年5月15日发布新版本,主要涉及数据源类型拓展,数据集成.实时研发.数据服务功能升级,运维体验优化等,将满足更多用户场景,提升研发体 ...
- 智能数据构建与管理平台Dataphin的前世今生:缘起
简介:阿里巴巴提出的OneData方法论帮助企业捋清了数据全生命周期的管理思路,更将其植入到产品Dataphin(智能数据构建与管理)中,通过阿里云为企业提供服务. Dataphin 智能数据构建与管 ...
- 知识图谱数据构建的“硬骨头”,阿里工程师如何拿下?
阿里妹导读:搜索"西红柿",你不但能知道它的营养功效.热量,还能顺带学会煲个牛腩.炒个鸡蛋!搜索引擎何时变成"暖男"了?原来背后有"知识图谱" ...
- 领域应用 | 知识图谱数据构建的“硬骨头”,阿里工程师如何拿下?
本文转载自公众号:阿里技术. 阿里妹导读:搜索"西红柿",你不但能知道它的营养功效.热量,还能顺带学会煲个牛腩.炒个鸡蛋!搜索引擎何时变成"暖男"了?原来背后有 ...
最新文章
- 关于TensorFlow你需要了解的9件事
- Python3 打印九九乘法表
- android 蓝牙通讯实现手机蓝牙的开启,并扫描附近可见的蓝牙设备
- css属性 background
- 《TOMCAT权威指南》摘抄
- Sobel边缘检测算法verilog实现及仿真
- arm's multiply(arm的乘)之三
- Servlet和JSP中的文件上传示例
- 【转】对ASP.NET程序员非常有用的85个工具
- mysql导出数据意义_11、mysql导出数据
- oracle 触发器
- Python分析一下双色球,中大奖指日可待!
- js学习总结--持续更新(2)
- 微信小程序 上传本地图片
- 数学基础之列联表分析2——独立性检验(卡方检验)
- MATLAB--特征值和特征向量 及具体应用
- 无锡梅里旅游策划方案——中国第一锡宫!
- CAD——MV视口与图层
- paddlepaddle 27 支持任意维度数据的梯度平衡机制GHM Loss的实现(支持ignore_index、class_weight,支持反向传播训练,支持多分类)
- D. Tournament Countdown