最近需要做转座子分析,查找发现可以使用 TransposonPSI 来进行分析。但是登陆官网,该软件 update 时间为 2013 年,但是因为时间紧迫,暂时还没有进行其他方法的调研,所以先选用该软件进行了分析。

一、TransposonPSI 安装及使用

1. TransposonPSI 安装

官网: http://transposonpsi.sourceforge.net

下载地址:https://sourceforge.net/projects/transposonpsi/

压缩包非常小,只有 10M 左右,解压后修改主角本 transposonPSI.pl 中三个软件的路径(blastall, formatdb, blastpgp),即可食用。

目录结构:

README
docs/
PerlLib/
scripts/
transposon_ORF_lib/
transposon_PSI_LIB/
misc/
transposonPSIcreate/
TransposonWeb/
transposonPSI.pltest/

2. TransposonPSI 使用入门

直接进入 test 目录,执行 runMe.sh 即可进行测试,非常简单。查看 runMe.sh 发现,输入文件是我们需要进行分析的数据序列,nuc 表示核酸序列,prot 表示蛋白序列。

if [ -e target_test_genome_seq.fasta.gz ] && ! [ -e target_test_genome_seq.fasta ]
thengunzip target_test_genome_seq.fasta.gz
fi../transposonPSI.pl target_test_genome_seq.fasta nuc

runMe.sh

二、TransposonPSI 流程解读

对 transposonPSI.pl 进行 Linux 脚本复现

cd /Transposon/div_step/
if [ -d tmp ]
thenrm -rf tmp
fimkdir tmp
cd tmp
ln -s ../target_test_genome_seq.fasta
/software/blast-2.2.26/bin/formatdb -i target_test_genome_seq.fasta -p Fcd /Transposon/div_step/tmpTPSI_list=(
cacta
DDE_1
gypsy
hAT
helitron
ISa
ISb
isc1316
line
ltr_Roo
mariner_ant1
mariner
MuDR
P_element
piggybac
TY1_Copia
TyrRecombinaseCrypton
)for int in {0..16}
doname=${TPSI_list[$int]}/software/blast-2.2.26/bin/blastall -i /Transposon/TransposonPSI_08222010/transposon_PSI_LIB/$name.refSeq -d target_test_genome_seq.fasta -p psitblastn -R /Transposon/TransposonPSI_08222010/transposon_PSI_LIB/$name.chk -F F -M BLOSUM62 -t -1 -e 1e-5 -v 10000 -b 10000 >target_test_genome_seq.$name.psitblastn/Transposon/TransposonPSI_08222010/scripts/BPbtab </Transposon/div_step/tmp/target_test_genome_seq.$name.psitblastn> /Transposon/div_step/tmp/target_test_genome_seq.$name.psitblastn.btab
donecat /Transposon/div_step/tmp/*btab | sort -rn -k13 >/Transposon/div_step/target_test_genome_seq.TPSI.allHitscd /Transposon/div_step/
perl /Transposon/TransposonPSI_08222010/scripts/TBLASTN_hit_chainer.pl target_test_genome_seq.TPSI.allHits btab >target_test_genome_seq.TPSI.allHits.chains
perl /Transposon/TransposonPSI_08222010/scripts/TPSI_btab_to_gff3.pl target_test_genome_seq.TPSI.allHits.chains >target_test_genome_seq.TPSI.allHits.chains.gff3
perl /Transposon/TransposonPSI_08222010/scripts/TBLASTN_hit_chainer_nonoverlapping_genome_DP_extraction.pl target_test_genome_seq.TPSI.allHits.chains >target_test_genome_seq.TPSI.allHits.chains.bestPerLocus
perl /Transposon/TransposonPSI_08222010/scripts/TPSI_chains_to_gff3.pl target_test_genome_seq.TPSI.allHits.chains.bestPerLocus >target_test_genome_seq.TPSI.allHits.chains.bestPerLocus.gff3

work.sh

1. 格式化序列数据库

这是 blast 比对的首要步骤,这里我就不多介绍了,详细的参数和使用说明很多大佬都有介绍,使用时百度即可。

/software/blast-2.2.26/bin/formatdb -i target_test_genome_seq.fasta -p F

2. 数据库列表准备

TPSI_list=(
cacta
DDE_1
gypsy
hAT
helitron
ISa
ISb
isc1316
line
ltr_Roo
mariner_ant1
mariner
MuDR
P_element
piggybac
TY1_Copia
TyrRecombinaseCrypton
)

TPSI_list

以上列表为各类转座子名称,它们存在于 transposon_PSI_LIB/ 目录中,每一种数据库有三种格式:refSeq,chk,chkp

3. 序列与各数据库进行比对

/software/blast-2.2.26/bin/blastall \  -i /Transposon/TransposonPSI_08222010/transposon_PSI_LIB/$name.refSeq \  -d target_test_genome_seq.fasta \  -p psitblastn -R /Transposon/TransposonPSI_08222010/transposon_PSI_LIB/$name.chk \  -F F \  -M BLOSUM62 \  -t -1 \  -e 1e-5 \  -v 10000 \  -b 10000 \>target_test_genome_seq.$name.psitblastn

特殊参数

-R  PSI-TBLASTN checkpoint file [File In]  Optional

得到比对结果。

4. BPbtab

/Transposon/TransposonPSI_08222010/scripts/BPbtab \  </Transposon/div_step/tmp/target_test_genome_seq.$name.psitblastn> \  /Transposon/div_step/tmp/target_test_genome_seq.$name.psitblastn.btab

将比对结果转化为 btab 格式:

 1 cacta        1264    PSITBLASTN    target_test_genome_seq.fasta    genome    752    784    637    735    81.8    81.8    130    54.5            0    Plus    117619    1e-09
 2 cacta        1264    PSITBLASTN    target_test_genome_seq.fasta    genome    751    791    769    891    68.3    78.0    126    52.9            0    Plus    117619    4e-09
 3 cacta        1264    PSITBLASTN    target_test_genome_seq.fasta    genome    753    781    37440    37526    89.7    89.7    124    52.2            0    Plus    117619    7e-09
 4 cacta        1264    PSITBLASTN    target_test_genome_seq.fasta    genome    752    784    622    720    75.8    75.8    118    49.8            0    Plus    117619    3e-08
 5 cacta        1264    PSITBLASTN    target_test_genome_seq.fasta    genome    753    790    658    771    68.4    71.1    118    49.8            0    Plus    117619    3e-08
 6 cacta        1264    PSITBLASTN    target_test_genome_seq.fasta    genome    752    845    41583    41933    29.7    39.8    117    49.5            0    Plus    117619    4e-08
 7 cacta        1264    PSITBLASTN    target_test_genome_seq.fasta    genome    753    789    664    774    70.3    73.0    116    49.1            0    Plus    117619    6e-08
 8 cacta        1264    PSITBLASTN    target_test_genome_seq.fasta    genome    752    785    649    750    76.5    79.4    115    48.7            0    Plus    117619    7e-08
 9 cacta        1264    PSITBLASTN    target_test_genome_seq.fasta    genome    750    838    37422    37697    33.3    46.5    115    48.7            0    Plus    117619    7e-08
10 cacta        1264    PSITBLASTN    target_test_genome_seq.fasta    genome    756    800    775    909    55.6    64.4    114    48.3            0    Plus    117619    1e-07
11 cacta        1264    PSITBLASTN    target_test_genome_seq.fasta    genome    751    784    625    726    73.5    73.5    111    47.2            0    Plus    117619    2e-07
12 cacta        1264    PSITBLASTN    target_test_genome_seq.fasta    genome    752    789    715    873    58.5    60.4    111    47.2            0    Plus    117619    2e-07
13 cacta        1264    PSITBLASTN    target_test_genome_seq.fasta    genome    753    784    682    810    62.8    62.8    108    46.0            0    Plus    117619    5e-07
14 cacta        1264    PSITBLASTN    target_test_genome_seq.fasta    genome    753    784    706    831    61.9    61.9    103    44.1            0    Plus    117619    2e-06
15 cacta        1264    PSITBLASTN    target_test_genome_seq.fasta    genome    751    784    577    696    62.5    62.5    102    43.7            0    Plus    117619    3e-06

target_test_genome_seq.cacta.psitblastn.btab

BPtab 是一个Blast输出解析器, 脚本将 WU-BLAST 或 NCBI-BLAST 输出文件解析为BTAB格式,其中每个 HSP 报告为带有制表符分隔字段的单行。

5. 统计比对结果

cat /Transposon/div_step/tmp/*btab | sort -rn -k13 >/Transposon/div_step/target_test_genome_seq.TPSI.allHits

1 TY1_Copia        1643    PSITBLASTN    target_test_genome_seq.fasta    genome    511    1530    4007    7159    27.2    46.4    1826    707            0    Plus    117619    0
2 helitronORF        1321    PSITBLASTN    target_test_genome_seq.fasta    genome    663    1175    7497    9239    53.4    64.2    1633    633            0    Plus    117619    0
3 Crypton        457    PSITBLASTN    target_test_genome_seq.fasta    genome    1    456    85676    87118    40.7    57.7    1148    446            0    Plus    1.18E-139
4 TY1_Copia        1643    PSITBLASTN    target_test_genome_seq.fasta    genome    1149    1641    52051    53538    35.3    56.2    1138    442            0    Plus    117619    1.00E-129
5 helitronORF        1321    PSITBLASTN    target_test_genome_seq.fasta    genome    998    1321    35448    36542    56    66    1086    422            0    Plus    117619    1.00E-125
6 gypsy        1463    PSITBLASTN    target_test_genome_seq.fasta    genome    574    1018    111538    112860    26.7    46.7    1012    394            0    Plus    1.18E-109
7 cacta        1264    PSITBLASTN    target_test_genome_seq.fasta    genome    752    784    637    735    81.8    81.8    130    54.5            0    Plus    1.18E-04    

target_test_genome_seq.TPSI.allHits

BTAB 格式的具体内容并为完全掌握,暂时不提。

6. 共线性 HSPs 关联

perl /Transposon/TransposonPSI_08222010/scripts/TBLASTN_hit_chainer.pl \  target_test_genome_seq.TPSI.allHits btab \>target_test_genome_seq.TPSI.allHits.chains

collinear HSPs are chained together into larger chains (more complete element regions).

将共线性的 HSP 连接在一起,形成 larger chains,例如下面的文件,会将线性相关的放在一起

 1 #Chain  Crypton 167-308 genome  23349-23753     +       46.3
 2 Crypton         457     PSITBLASTN      target_test_genome_seq.fasta    genome  167     308     23349   23753   32.6    47.9    210     85.5
 3
 4 #Chain  Crypton 1-257   genome  37524-38356     +       92.7
 5 Crypton         457     PSITBLASTN      target_test_genome_seq.fasta    genome  1       73      37524   37742   42.5    57.5    160     66.2
 6 Crypton         457     PSITBLASTN      target_test_genome_seq.fasta    genome  74      257     37742   38356   33.5    50.0    297     118
 7
 8 #Chain  Crypton 52-456  genome  40190-41483     +       148.0
 9 Crypton         457     PSITBLASTN      target_test_genome_seq.fasta    genome  52      189     40190   40600   37.9    55.7    258     103
10 Crypton         457     PSITBLASTN      target_test_genome_seq.fasta    genome  182     456     40641   41483   34.8    48.2    401     159 

target_test_genome_seq.TPSI.allHits.chains

7. 将 larger chains 转 gff3 格式

perl /Transposon/TransposonPSI_08222010/scripts/TPSI_btab_to_gff3.pl \  target_test_genome_seq.TPSI.allHits.chains \>target_test_genome_seq.TPSI.allHits.chains.gff3

8. best chains :提取分数最高的 chains

perl /Transposon/TransposonPSI_08222010/scripts/TBLASTN_hit_chainer_nonoverlapping_genome_DP_extraction.pl \  target_test_genome_seq.TPSI.allHits.chains \>target_test_genome_seq.TPSI.allHits.chains.bestPerLocus

9. best chains 转 gff3 格式

perl /Transposon/TransposonPSI_08222010/scripts/TPSI_chains_to_gff3.pl \  target_test_genome_seq.TPSI.allHits.chains.bestPerLocus \>target_test_genome_seq.TPSI.allHits.chains.bestPerLocus.gff3

即为最终结果。

转载请注明出处:https://www.cnblogs.com/Shinamy/p/10956849.html

转载于:https://www.cnblogs.com/Shinamy/p/10956849.html

TransposonPSI——转座子分析的入门自学相关推荐

  1. 自学python要看哪些书籍-Python入门自学到精通需要看哪些书籍?

    Python语言在近几年可以算得上如日中天,越来越火爆的同时,学习Python的人也越来越多了.对于不同基础的学习者来讲,学习的重点和方式也许会有差别,但是基础语法永远都是重中之重.在牢牢掌握基础知识 ...

  2. Python 股票分析快速入门

    Python 股票分析快速入门 这段时间股市又开始火爆起来了,隐约这透着点大牛市气息,多年不用的股票账户也找回来了.然后就想着用python做下股票分析,尝试制作自己的分析脚本,本篇教程是自己的一些笔 ...

  3. 电脑编程入门自学java_电脑编程入门自学Java指南

    随着Java近些年来的强劲发展,想要转行学习Java的初学者也越来越多了.然而,入门自学Java并不是一件轻松的事情.众所周知,万事开头难,尤其是没有编程语言基础的学习者,不仅仅需要付出更多的心血和汗 ...

  4. Spring入门自学

    学习目标: Spring入门自学(持续更新) 学习方式: 知识的浏览者,网页的搬运工. 学习内容: 1.项目目录结构 2.使用框架的版本 3.Spring 概述 4.入门实例代码 5.数据库 6.GE ...

  5. c语言入门自学手机版,c语言入门自学app下载-C语言入门学习 安卓版v1.0.2-PC6安卓网...

    C语言入门学习app是一款C语言零基础自学软件.C语言入门自学app提供海量精品学习资源,从小白入门到基础进阶都有,帮你轻松学习编程. 软件介绍 C语言入门学习app是一款专业的编程入门学习App,致 ...

  6. c语言自学文档,C语言入门自学教程傲梦.docx

    C 语言入门自学教程 C 语言是一种通用的.面向过程式的计算机程序设计语言.1972 年, 为了移植与开发UNIX 操作系统,丹尼斯·里奇在贝尔电话实验室设计开 发了 C 语言. C 语言是一种广泛使 ...

  7. c语言入门自学手机版,C语言入门学习app下载-C语言入门学习app最新版下载 V1.0.2-友情手机站...

    C语言入门学习app是一款0基础自学软件,这里有着丰富C语音相关课程学习,大家在这里是可以便捷搜索查找,随时都是可以找到适合感兴趣课程学习,都是一些优质课程知识提供大家,学员在这里是可以高效学习,海恩 ...

  8. 自学app难不难 有c语言,软件编程入门自学到底难不难 零基础自学软件编程的方法...

    很多人想知道软件编程入门自学到底难不难,零基础怎么自学软件编程呢?下面小编为大家介绍一下! 软件编程入门自学到底难不难 对编程有一定了解的人一定知道--编程是简单劳动,好学与不好学在于你是否能吃得了这 ...

  9. Python在入门-自学笔记-8字典

    Python零基础入门自学笔记 参考教程[Python教程]<零基础入门学习Python>最新版@B站@鱼C-小甲鱼 本文记录的主要是Python中的字典. 映射关系 效率会比列表快 0. ...

  10. 基于Proteus无实物STM32入门自学教程(二)--LED流水灯

    本教程面向新手,前期没有用到stm32的内部库,源程序尽量使用单文件.方便从51直接转过来的同学有个适应期.proteus仿真stm32总所周知没有51仿真的那么完美.笔者在51年代进行仿真时基本与实 ...

最新文章

  1. 微信小程序实现画布自适应各种手机尺寸
  2. PTA数据结构与算法题目集(中文)7-39
  3. android linux应用安装位置,Android中App安装位置详解
  4. 目前流行的装修风格_当下最流行十种装修风格,总有一款适合你!
  5. 怎么知道电脑是32位还是64位_vnc 64位远程控制软件,你用的vnc 远程控制软件是32位还是64位?...
  6. java分布式应用限流实现
  7. SAP UI5 Fiori flower动画效果的实现明细
  8. 不删除侦听器–使用ListenerHandles
  9. nao机器人拆解_一些机器人硬件网站
  10. jmeter监控服务资源
  11. html5学习笔记---01.HTML5介绍,02.HTML5的新特性
  12. Data Guard Service 相关介绍
  13. java newtonsoft.json_(转载)Newtonsoft.Json使用总结
  14. nxp单片机入门_使用恩智浦MCUXpresso开发FRDM-KL46Z入门
  15. SpringBoot-短信发送
  16. Spark 内存管理之Tungsten
  17. linux清除字体缓存,在 Windows,Mac和Linux上,如何安装,删除和管理字体
  18. SpringBoot集成Liquibase
  19. java手机振动软件_Android实现手机震动效果
  20. Mangos模拟器综合资源贴

热门文章

  1. 在计算机应用领域中媒体是指,在计算机中,媒体是指什么
  2. 关联分析(三)--GSP算法
  3. 三维计算机视觉(四)--关键点
  4. 用python提取图片主要颜色_用Python提取图片主要颜色
  5. linux下通过伪造udp包来实现指定网卡发送数据
  6. Windows核心编程_Edit操作
  7. nginx官方模块之http_random_index_module
  8. 7 大版块 | 全面解读与认知支付系统
  9. scala 冒泡排序
  10. select框多级联动