MEGA使用VCF/Hapmap数据构建进化树

  • 1. VCF/Hapmap数据转换为单字符形式基因型文件
  • 2. Hapmap文件转换为Fasta格式
  • 3. MEGA运行

MEGA是进化树的优秀软件,还包含诸多功能,想要使用MEGA构建多材料的进化树,方法步
骤如下。

1. VCF/Hapmap数据转换为单字符形式基因型文件

使用TASSEL Linux版本完成。

## VCF 文件 转换
run_pipeline.pl  -Xms51200m -Xmx500600m -vcf \
CORbnaG.corn.filter.imp.vcf  -export \
CORbnaG.corn.imp.singlechar.hmp.txt \
-exportType  Hapmap## Hapmap Diploid模式转换(双字符基因型,eg: AA,GG... etc)
run_pipeline.pl  -Xms51200m -Xmx500600m -h \
CORbnaG.corn.filter.imp.hmp.txt  -export \
CORbnaG.corn.imp.singlechar.hmp.txt \
-exportType  Hapmap

2. Hapmap文件转换为Fasta格式

使用Python DataFrame完成,此步骤耗内存,或者使用开发好的工具转换速度更快。

### 将上面hmp数据转换为 filename.fasta
#!/usr/bin/env python
import sys
import os
import pandas as pddef trans(input,output):ouf=open(output,"w")data1=pd.read_csv(input,header=0,sep="\t")data2=data1.iloc[:,11:data1.shape[1]].Tcol=data2._stat_axis.values.tolist()for i in range(len(data2)):a=data2.iloc[i]                 b=list(a)ouf.write(">%s\n"%(col[i]))ouf.write("%s\n"%("".join(b)))ouf.close()input=sys.argv[1] # single character hapmap file
output=sys.argv[2] # fasta-like hapmap sequence
trans(input,output)

3. MEGA运行

设定配置文件 filename.mao,该步骤使用windows MEGA X软件点击保存即可。

; Please do not edit this file! If this file is modified, results are unpredictable.
; Instead of modifying this file, simply create a new MEGA Analysis Options file by using the MEGA Prototyper.
[ MEGAinfo ]
ver                                = 0
[ DataSettings ]
datatype                           = snNucleotide
containsCodingNuc                  = False
MissingBaseSymbol                  = ?
IdenticalBaseSymbol                = .
GapSymbol                          = -
[ ProcessTypes ]
ppInfer                            = true
ppNJ                               = true
[ AnalysisSettings ]
Analysis                           = Phylogeny Reconstruction
Scope                              = All Selected Taxa
Statistical Method                 = Neighbor-joining
Phylogeny Test                     = Not Applicable
Test of Phylogeny                  = Bootstrap method
No. of Bootstrap Replications      = 500
Substitution Model                 = ====================
Substitutions Type                 = Nucleotide
Model/Method                       = No. of differences
Substitutions to Include           = d: Transitions + Transversions
Rates and Patterns                 = ====================
Rates among Sites                  = Uniform Rates
Gamma Parameter                    = Not Applicable
Pattern among Lineages             = Same (Homogeneous)
Data Subset to Use                 = ====================
Gaps/Missing Data Treatment        = Pairwise deletion
Site Coverage Cutoff (%)           = Not Applicable
Number of Threads                  = 16
Has Time Limit                     = False
Maximum Execution Time             = -1

运行megacc(MEGA linux版本)

mkdir tree
~/bin/mega/megacc  -a  ../mega_nj.500bs.mao  -d ./filename.fasta  -o  ./tree

注意megacc命令输出文件夹时,需要提前创建,否则即便设定输出文件夹,mega会输出到当前目录,以上仅为记录。

MEGA使用VCF/Hapmap数据构建进化树相关推荐

  1. linux系统发育树的构建步骤,megacc构建进化树.mao文件生成方法

    基于linux版megacc构建系统进化树命令如下: /biosoft/MEGA/megacc -a .mao -d fasta -o ./ -a输入的是构建进化树的参数 .mao文件 -d输入的是多 ...

  2. linux中mpich的运行线程,贝叶斯法构建进化树:MrBayes

    1. 简介 使用贝叶斯法构建进化树的软件有很多.在这里简要介绍MrBayes的安装和使用.以下介绍是对几种贝叶斯法构建进化树软件的简介: MrBayes is a program for Bayesi ...

  3. 群体结构分析:用 phylip 构建进化树

    用 phylip 构N-J树 在 linux 系统,可以用 conda 安装 phylip 软件 1. 将 SNP 文件转换为 phylip 格式 用 tassel 的格式转换功能将 plink 格式 ...

  4. 滴滴快的精打细算:利用大数据构建产业生态圈

    ZDNet至顶网软件频道消息: 随着2014年初那场旷日持久补贴大战的落幕,"土豪"一词也随之成为人们对滴滴快的的印象标签.殊不知,在疯狂补贴的同时,滴滴快的也有一颗精打细算的&q ...

  5. 【干货】产品经理如何使用大数据构建用户画像

    送给真正的互联网人一顿干货早餐 [小咖导读]文自"数据挖掘与数据分析",伴随着大数据应用的讨论.创新,个性化技术成为了一个重要落地点.相比传统的线下会员管理.问卷调查.购物篮分析, ...

  6. bootstrap-table真实交互数据_博思远略:基于AI交互场景数据构建用户画像的几点思考...

    什么是用户,就是那些藏在每台电脑.手机.pad.智能watch屏幕背后的使用产品或服务恰如你我--有血有肉.有情绪.有想法.有阅历.有逻辑.有思考.固守某种习惯且独一无二.形形色色的人. 用户画像本质 ...

  7. 历经3年的打磨,数据构建及管理平台Dataphin增加了什么新功能?

    简介:自Dataphin产品上线以来,经历3年的迭代打磨,在2021年5月15日发布新版本,主要涉及数据源类型拓展,数据集成.实时研发.数据服务功能升级,运维体验优化等,将满足更多用户场景,提升研发体 ...

  8. 智能数据构建与管理平台Dataphin的前世今生:缘起

    简介:阿里巴巴提出的OneData方法论帮助企业捋清了数据全生命周期的管理思路,更将其植入到产品Dataphin(智能数据构建与管理)中,通过阿里云为企业提供服务. Dataphin 智能数据构建与管 ...

  9. 知识图谱数据构建的“硬骨头”,阿里工程师如何拿下?

    阿里妹导读:搜索"西红柿",你不但能知道它的营养功效.热量,还能顺带学会煲个牛腩.炒个鸡蛋!搜索引擎何时变成"暖男"了?原来背后有"知识图谱" ...

  10. 领域应用 | 知识图谱数据构建的“硬骨头”,阿里工程师如何拿下?

    本文转载自公众号:阿里技术. 阿里妹导读:搜索"西红柿",你不但能知道它的营养功效.热量,还能顺带学会煲个牛腩.炒个鸡蛋!搜索引擎何时变成"暖男"了?原来背后有 ...

最新文章

  1. 关于TensorFlow你需要了解的9件事
  2. Python3 打印九九乘法表
  3. android 蓝牙通讯实现手机蓝牙的开启,并扫描附近可见的蓝牙设备
  4. css属性 background
  5. 《TOMCAT权威指南》摘抄
  6. Sobel边缘检测算法verilog实现及仿真
  7. arm's multiply(arm的乘)之三
  8. Servlet和JSP中的文件上传示例
  9. 【转】对ASP.NET程序员非常有用的85个工具
  10. mysql导出数据意义_11、mysql导出数据
  11. oracle 触发器
  12. Python分析一下双色球,中大奖指日可待!
  13. js学习总结--持续更新(2)
  14. 微信小程序 上传本地图片
  15. 数学基础之列联表分析2——独立性检验(卡方检验)
  16. MATLAB--特征值和特征向量 及具体应用
  17. 无锡梅里旅游策划方案——中国第一锡宫!
  18. CAD——MV视口与图层
  19. paddlepaddle 27 支持任意维度数据的梯度平衡机制GHM Loss的实现(支持ignore_index、class_weight,支持反向传播训练,支持多分类)
  20. D. Tournament Countdown

热门文章

  1. 三年级计算机课标,三年级信息技术教案上册
  2. 百度信誉保障服务架构全解析
  3. 毕业设计-电子商务网站(二)
  4. C++ 填入数字1-9 使数学等式成立
  5. 特别篇:公主,快放开那只巨龙
  6. 计算机开启后显示器黑屏,电脑打开后显示器黑屏怎么办
  7. 卡内基梅隆大学计算机科学博士,卡内基梅隆大学有哪些专业处于世界顶尖水平?...
  8. 离散数学——命题逻辑
  9. 研究生英语期末复习(Unit3)
  10. mysql dual表用法_mysql dual表的用途及案例