物种内共线性分析(MCScanX+BLAST+TBtools)

数据要求:做物种内共线性分析的话主要需要的是
全基因组序列、cds或pep序列、gff3/gtf序列三者缺一不可。
上一节下载好了cds序列以及gff3序列文件,以此为例(数据可在Phyzome下载,也可以在服务器上在线下载)

2021.10.15更:因为这些内容之前都是通过Markdown写的,转过来可能现在代码块变得极其难看,我的个人博客网址是:lxz9.com 以及 公众号:生信技术,大家可以关注一下,以后我会更新优质、准确、详细的内容教程,下面是原内容

软件要求:MCScanX、blast、TBtools(JCVI)

物种内blast

物种内blast 使用cds或pep序列进行自我比对,结果*.blast格式得到此结果(这一步耗时最长,可以使用TBtools一键完成,有服务器的同学可以使用服务器运行)

blast构建索引 | makeblastdb

makeblastdb -in Zmarina_324_v2.2.cds.fa -dbtype nucl -out Zmarina.db

参数说明:

-in 后接输入文件,你要格式化的fasta序列
-dbtype 后接序列类型,nucl为核酸,prot为蛋白
-out 后接数据库名,自定义,后续blast+要用到的-db的参数
-logfile 日志文件,如果没有默认输出到屏幕

比对核酸数据库(blastn)

如果下载的cds序列

blastn  -query Zmarina_324_v2.2.cds.fa -db Zmarina.db -out Zmarina.blast -evalue 1e-10 -num_threads 10 -outfmt 6 -num_alignments 5

比对蛋白数据库(blastp)

如果下载为pep序列

blastp  -query Zmarina_324_v2.2.pep.fa -db Zmarina.db -out Zmarina.blast -evalue 1e-10 -num_threads 10 -outfmt 6 -num_alignments 5

参数说明:

-query: 输入文件路径及文件名
-out:输出文件路径及文件名
-db:格式化了的数据库路径及数据库名
-outfmt:输出文件格式,总共有12种格式,6是tabular格式对应BLAST的m8格式
-evalue:设置输出结果的e-value值
-num_threads:线程数
-num_alignments: 设置每个query保留多少条匹配结果

gff序列简化

已知gff序列分成许多行,其实我们只需要四行,所以需要将这四行提取出来得到简化后的gff文件
简化的步骤可用脚本获得如下:

##Phytozome GFF3文件处理
awk -F '[\t;]' '{if($3=="mRNA")print $1"\t"$10"\t"$4"\t"$5}' Zmarina_324_v2.2.gene.gff3 | sed 's/Name=//g' > Zmarina_324_v2.2.gene.gff3.gff
##CDS序列文件处理
cut -d " " -f 1 Zmarina_324_v2.2.cds.fa > Zmarina_324_v2.2.cds.simple.fa、
##提取第一列染色体(control文件,设置需要展示的染色体信息(和gff的第一列一致))
awk '{print $1}' ./CH_word_ls.txt > ./out.txt
##删除文件 text中第一列
#方式一
awk '{$1="";print $0}' text
#方式二
sed -e 's/[^ ]* //' text

MCScanX

命令行格式:MCScanX + 名称(这里需要注意的是前面得到的简化后的gff文件以及blast之后的结果文件;命名须一致)
比如得到的blast结果为zm.blast,简化为四列后的gff文件为zm.gff
使用命令MCScanX zm即可得出共线性结果。

$ ls -lh
总用量 6.5M
-rw-r--r--. 1 lixingze lixingze 5.6M 12月 17 00:55 zm.blast
-rw-r--r--. 1 lixingze lixingze 4.1K 12月 17 00:55 zm.collinearity
-rw-r--r--. 1 lixingze lixingze 845K 12月 17 00:55 zm.gff
drwxr-x---. 2 lixingze lixingze  28K 12月 17 00:55 zm.html
-rw-r--r--. 1 lixingze lixingze  20K 12月 17 00:55 zm.tandem

运行此软件即可得出结果文件:
名称.html,
名称.collinearity, (包含了共线性分析的结果)
名称.tandem(串联重复)

在这一步遇到了问题是一直出不来结果的原因:
上面gff格式的问题tab改为空格等原因导致软件跑不出来共线性。可以通过文本软件检查一下格式是否准确

可视化circos

在这里可以用的有TBtools、circos、JCVI等软件进行可视化其中需要配置很多的文件进行分析出图
准备好简化后的四列gff文件;*.blast文件
以及MCScanX分析得出的.collinearity.tandem进一步分析步骤
这里以TBtools为例进行说明:
整体流程如下~

  1. 用到 Advanced Circos 模块

需要准备的文件如下:

  • 染色体长度文件:
    用到 fasta stat 模块, 将基因组的文件输入进去,输出整个染色体长度的文件;提取染色体的长度信息,保存为文本文件,ChrLen.txt ( Advanced Circos 模块 需要的文件1)

  • 基因组内的共线性:
    将共线性分析结果,转换成GenePairTable(模块Text Merge for MCScanX;输入前面得到的.collinearity文件,Merge Mode选择Collinear输出txt文件命名为GenePair.tab.txt),之后需要继续转换为LinkedRegion文件(模块Text Transformat for Micro-Synteny View;Input File Format为GenePair,输出命名为LickedRegion.tab.txt)

这一步做完就得到了他们的共线性关系
需要的是展示WRKY基因家族内部参与的复制事件,所以与WRKY·ID相关的连接线应该被高亮出来。或者我们直接补充一些高亮的线进去就可以了
直接使用TBtools的文本区块提取工具【Text Block Extract】

结果图

参考

关于TBtools这一部分内容可以参考此处更为详细

物种内共线性分析——思路以及踩坑总结(二)相关推荐

  1. 物种内共线性分析——JCVI安装以及数据下载(一)

    物种内共线性分析步骤--JCVI安装以及数据下载(一) 安装 最简单的方法是通过PyPI安装它: pip install jcvi #或者安装开发版本 pip install git+git://gi ...

  2. ODrive踩坑(二)3508电机和TLE5012B磁编码器参数配置、校准、位置闭环模式转动电机(TLE5012B-E1000)

    ODrive对无刷电机进行闭环控制,需要提前获取电机和编码器的参数. 电机极对数 电机需要配置的参数为 极对数.最大电流.校准电流.电机类型.其他参数如相电阻.电感等可由驱动器自动测量. 极对数 = ...

  3. 小米平板2无线网卡服务器,二手平板踩坑 篇二:400多收下小米平板2——屏幕通病有点要命...

    二手平板踩坑 篇二:400多收下小米平板2--屏幕通病有点要命 2020-04-11 21:34:22 2点赞 6收藏 7评论 又是一次踩坑,这个平板我总体感觉还是不错的,屏幕有点难受 价格就不说了, ...

  4. 【群晖NAS】真·免费内网穿透方案 及踩坑合集

    一.介绍 一篇科普贴,帮助那些刚入门NAS的朋友尽量避免踩坑.因为本人实践了其中几种穿透方案,也积攒了一些经验,跟大家分享一下. 在这里想说一句,现在网上充斥着各种<内网穿透方案对比>,可 ...

  5. php kafka storm,php的kafka踩坑(二)

    接上一篇文章,上次没有解决的一个问题就是在做一个队列的时候,存在多消费者消费到同一个消息的情况,今天终于解决了这个问题,问题的本质是因为运维给我创建的topic是有问题的,他创建的分区数量是0,我今天 ...

  6. Virtual Box报错VT-x is not available (VERR_VMX_NO_VMX)--大踩坑(二)

    说明 ubuntu 20 下玩Cuckoo Sandbox继续踩坑,上文 Link 天坑: Vitual Box处理器虚拟化 在cuckoo和virtual box安装完成后,在virtual box ...

  7. Spotmicroai机械狗初上手——组装测试踩坑(二)

    Spotmicroai机械狗初上手--组装测试踩坑 说明 spotmicroai/utilities文件夹 log.py config.py queues.py run.sh spotmicroai/ ...

  8. 微信小程序使用web-view,内嵌跳转h5踩坑记!!

    先说说我遇到的错误,项目在部署测试环境之前一切正常,没有遇到任何阻碍性bug,但是部署测试环境之后,跳转h5报如下错误: 然后我就去查了官方文档,以及各类技术文档,意思就是需要在微信公众平台配置业务域 ...

  9. AI视觉边缘计算盒的主流SOC分析及落地踩坑的注意事项。

    边缘计算盒是云边端架构和小系统管理的核心设备,是视觉AI落地的关键设备,也是物联网的节点设备,是人工智能应用绕不过去的核心. 当前边缘计算设备的技术路径有4种,分别是:CPU架构,GPU架构,ASIC ...

  10. Android集成极光推送踩坑(二)升级篇

    转载请标明出处 http://blog.csdn.net/mohan6/article/details/74133186 本文作者:[默寒的博客] 前言 前段时间针对集成极光推送写了篇文章( Andr ...

最新文章

  1. 腾讯精选练习 50 题(Leetcode)笔记 PDF下载!
  2. hibernate中 query 的list方法 用法
  3. iOS中改变部分字体颜色
  4. 新闻与传播c刊_新闻传播类c刊有哪些
  5. windows server 2012多用户用一个账号同时登陆
  6. reactivecocoa基础讲解
  7. 猜数大小编程c语言_猜数正确编程
  8. LOOP WITH CONTROL 用法
  9. HDU - 7084 Pty loves string kmp + fail树 + 主席树
  10. excel oledb mysql_OLEDB操作Excel
  11. 我的游测之路 | 揭秘游戏测试神秘面纱(一)
  12. 计算机应用从组织内部,全国2014年10月自考管理系统中计算机应用试题和答案
  13. python入门-windows下anaconda环境搭建
  14. 新议题,好多年前的华为面试题
  15. opencv imshow 窗口无响应 the window does not seem to be responding. do you want to force
  16. @程序员,快来速取硬核的汇编语言知识大全!
  17. 存图方式---邻接表邻接矩阵前向星
  18. Hadoop的详细配置(持续更新)
  19. 开源XML数据集编辑器
  20. juce教程005-中文显示

热门文章

  1. 百度 UNIT 使用
  2. 可以说是迄今为止最好用的右键菜单管理工具
  3. 团队内部分享--工作杂谈(读书推荐)
  4. 计算机上岗证学校,计算机岗位资格证
  5. 如何显示手机gps定位服务器,手机gps定位服务器设置
  6. python3的print()函数的用法图文讲解
  7. 你觉得最好用的地图导航软件是哪一个?这3款App供你选择
  8. photoshop常用图片处理技巧
  9. 两个向量的点乘和叉乘怎么算_点乘和叉乘的区别是什么?
  10. springboot word excel ppt 图片aspose 转换PDF 在线预览