exonerate结果整理,获取target序列
软件exonerate输出的结果如下,想要获得比对上的target序列
Command line: [./exonerate INPUT/UN029382.fa INPUT/scaffold125532.fa --model est2genome --showtargetgff TRUE --showvulgar no --showalignment yes --alignmentwidth 200 --bestn 1 --verbose 2]
Hostname: [node009]C4 Alignment:
------------Query: UN029382Target: scaffold125532 [revcomp]Model: est2genomeRaw score: 6062Query range: 0 -> 1336Target range: 23867182 -> 238613531 : ATCTGTTGCCCTCGCCCTTCGCAATGGCCTCCTCCTCCTCTGTCTCCCGTCCGCGGAAGCGTCCCGCCGCCGTCGCCTTTTCTTCCTCGCCTCCGCCGCCGTCGCCTTTTCTTCCTCGCCTCCGCCGCCGCCTCAG >>>> Target Intron 1 >>>> GGGCTAAGG : 145||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||++ 1301 bp ++|||||||||23867182 : ATCTGTTGCCCTCGCCCTTCGCAATGGCCTCCTCCTCCTCTGTCTCCCGTCCGCGGAAGCGTCCCGCCGCCGTCGCCTTTTCTTCCTCGCCTCCGCCGCCGTCGCCTTTTCTTCCTCGCCTCCGCCGCCGCCTCAGgt.........................agGGGCTAAGG : 23865737146 : ACTCTGAAATTGACACCAAAGAAGAATTTTCCCCTGATCTGGCGGACCTGTGATGTTCTTCAGCTTTATCTAAAGTCTTTTGGCAGG >>>> Target Intron 2 >>>> ACAGCTCGTTTGACGAGTCCAGAGGGACGTCAGCGAGACTACTTTGAGGCAGAGTTCT : 290|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||++ 83 bp ++||||||||||||||||||||||||||||||||||||||||||||||||||||||||||23865736 : ACTCTGAAATTGACACCAAAGAAGAATTTTCCCCTGATCTGGCGGACCTGTGATGTTCTTCAGCTTTATCTAAAGTCTTTTGGCAGGgt.........................agACAGCTCGTTTGACGAGTCCAGAGGGACGTCAGCGAGACTACTTTGAGGCAGAGTTCT : 23865509291 : TTTTTAAAGAAGAAGCTGAAGATGCATTGCAGAACTGCAAAATCCCAAACATGACCATTGAATGGGCTGAAGCAAACATATCAGACAATCCACTTACAG >>>> Target Intron 3 >>>> GACCAGCACAAATTTCGTATGACCCACCAAGGTGTGACTACGATGA : 435|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||++ 74 bp ++||||||||||||||||||||||||||||||||||||||||||||||23865508 : TTTTTAAAGAAGAAGCTGAAGATGCATTGCAGAACTGCAAAATCCCAAACATGACCATTGAATGGGCTGAAGCAAACATATCAGACAATCCACTTACAGgt.........................agGACCAGCACAAATTTCGTATGACCCACCAAGGTGTGACTACGATGA : 23865290436 : TTTTAACATTCTGGTAAACAGCTCGAGCACAACTTTTAAATAATTCGCTTATTGGTCTGAAGCAAACATATCAGACAATCCACTTACAGGTAATGATAAGTATAAGTAAATCTTGAGCCTGCTTATTGGTTTCACGAGAAATAATTCGCTTCTGTCAATACAGGACCAGCACAA : 609||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||23865289 : TTTTAACATTCTGGTAAACAGCTCGAGCACAACTTTTAAATAATTCGCTTATTGGTCTGAAGCAAACATATCAGACAATCCACTTACAGGTAATGATAAGTATAAGTAAATCTTGAGCCTGCTTATTGGTTTCACGAGAAATAATTCGCTTCTGTCAATACAGGACCAGCACAA : 23865116610 : ATTTCGTATGACCCACCAAGGTGTGACTACGATGATTTTAACATTCTGGTAAACAGCTCGAGCACAACTTTTAAATAATTCGCTTATTGGTCTGAA--GCA- >>>> Target Intron 4 >>>> AACATATCAGACAATC--------CACTTACAGGACCAGCAC- : 743|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||| | | | | || | | | ||| ++ 525 bp ++||||| | | ||| | |||| | ||||| | 23865115 : ATTTCGTATGACCCACCAAGGTGTGACTACGATGATTTTAACATTCTGGTAAACAGCTCGAGCACAACTTTTAAATTAAGCACATGTTCCTTCGTATTGCATgt.........................agAACATGCATGCCCATCTTTGTAAGAAGTTACCTG-CCAGCTCT : 23864447744 : -AAATTTCGTATGACCCACCAAGGTGTGACTACGATGATTT-TAACATTCTGCCATTAGTACCACAGCCACGAAACAATCCTTTTCACATAAAATGGGTATTACCTAAAATGCCGAAAAGACAACAAGGCCAGCCAGAAGAACCTCAATTACCAGCCGCTCGCTATTCCCCTGA : 914|||| | | | || || | | || | | |||| | | | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||23864446 : TGAATTGC-TTTTTCC--TTAAAATTTAAC-ATTTTAATTTGTTTTGTGCAGCCATTAGTACCACAGCCACGAAACAATCCTTTTCACATAAAATGGGTATTACCTAAAATGCCGAAAAGACAACAAGGCCAGCCAGAAGAACCTCAATTACCAGCCGCTCGCTATTCCCCTGA : 23864277915 : AAAAGTTAAGGTTGAGCCAGCAGACCCAAGAAAACCGGCCAAGCCGCGGTACTGGCCTAAGTTTCCAATATATCTGCCAATAAAATGACGCCTCGGATGAGAAAGGCTACATCGGCTCGCAGTAAG >>>> Target Intron 5 >>>> CTCCAGGAGTAGAAGAATC : 1059||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||++ 2501 bp ++|||||||||||||||||||23864276 : AAAAGTTAAGGTTGAGCCAGCAGACCCAAGAAAACCGGCCAAGCCGCGGTACTGGCCTAAGTTTCCAATATATCTGCCAATAAAATGACGCCTCGGATGAGAAAGGCTACATCGGCTCGCAGTAAGgt.........................agCTCCAGGAGTAGAAGAATC : 238616311060 : TTTTGTTGAGAAACAAGACATTCAAGGCTCTCTTTCTCTTGTCGAGAAATAAGACATTCAAGGCTCTCTTTTCTTAAAAGAAAGTGCATTTTTTGTGGAATTGTGGGATTCGTCCCTTCACTACTTTTTTTTGGTAGAGCTGCTGTCTCCTAGAGCTTACTGTGCAATAGACAT : 1233||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||23861630 : TTTTGTTGAGAAACAAGACATTCAAGGCTCTCTTTCTCTTGTCGAGAAATAAGACATTCAAGGCTCTCTTTTCTTAAAAGAAAGTGCATTTTTTGTGGAATTGTGGGATTCGTCCCTTCACTACTTTTTTTTGGTAGAGCTGCTGTCTCCTAGAGCTTACTGTGCAATAGACAT : 238614571234 : GCATGAAGTATTCGTAGTCTTTTTTATTCAAGTTTAGATTTCCAAGCATATATGCTATAGCCTAAAAAAAAACTGGTCGAAATGCAGGTTTGGTCTGTTGTTG : 1336|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||23861456 : GCATGAAGTATTCGTAGTCTTTTTTATTCAAGTTTAGATTTCCAAGCATATATGCTATAGCCTAAAAAAAAACTGGTCGAAATGCAGGTTTGGTCTGTTGTTG : 23861354# --- START OF GFF DUMP ---
#
#
##gff-version 2
##source-version exonerate:est2genome 2.2.0
##date 2016-06-22
##type DNA
#
#
# seqname source feature start end score strand frame attributes
#
scaffold125532 exonerate:est2genome gene 23861354 23867182 6062 - . gene_id 0 ; sequence UN029382 ; gene_orientation +
scaffold125532 exonerate:est2genome utr5 23867047 23867182 . - .
scaffold125532 exonerate:est2genome exon 23867047 23867182 . - . insertions 0 ; deletions 0
scaffold125532 exonerate:est2genome splice5 23867045 23867046 . - . intron_id 1 ; splice_site "GT"
scaffold125532 exonerate:est2genome intron 23865746 23867046 . - . intron_id 1
scaffold125532 exonerate:est2genome splice3 23865746 23865747 . - . intron_id 0 ; splice_site "AG"
scaffold125532 exonerate:est2genome utr5 23865650 23865745 . - .
scaffold125532 exonerate:est2genome exon 23865650 23865745 . - . insertions 0 ; deletions 0
scaffold125532 exonerate:est2genome splice5 23865648 23865649 . - . intron_id 2 ; splice_site "GT"
scaffold125532 exonerate:est2genome intron 23865567 23865649 . - . intron_id 2
scaffold125532 exonerate:est2genome splice3 23865567 23865568 . - . intron_id 1 ; splice_site "AG"
scaffold125532 exonerate:est2genome utr5 23865410 23865566 . - .
scaffold125532 exonerate:est2genome exon 23865410 23865566 . - . insertions 0 ; deletions 0
scaffold125532 exonerate:est2genome splice5 23865408 23865409 . - . intron_id 3 ; splice_site "GT"
scaffold125532 exonerate:est2genome intron 23865336 23865409 . - . intron_id 3
scaffold125532 exonerate:est2genome splice3 23865336 23865337 . - . intron_id 2 ; splice_site "AG"
scaffold125532 exonerate:est2genome utr5 23865014 23865335 . - .
scaffold125532 exonerate:est2genome exon 23865014 23865335 . - . insertions 3 ; deletions 0
scaffold125532 exonerate:est2genome splice5 23865012 23865013 . - . intron_id 4 ; splice_site "GT"
scaffold125532 exonerate:est2genome intron 23864489 23865013 . - . intron_id 4
scaffold125532 exonerate:est2genome splice3 23864489 23864490 . - . intron_id 3 ; splice_site "AG"
scaffold125532 exonerate:est2genome utr5 23864151 23864488 . - .
scaffold125532 exonerate:est2genome exon 23864151 23864488 . - . insertions 11 ; deletions 5
scaffold125532 exonerate:est2genome splice5 23864149 23864150 . - . intron_id 5 ; splice_site "GT"
scaffold125532 exonerate:est2genome intron 23861650 23864150 . - . intron_id 5
scaffold125532 exonerate:est2genome splice3 23861650 23861651 . - . intron_id 4 ; splice_site "AG"
scaffold125532 exonerate:est2genome exon 23861354 23861649 . - . insertions 0 ; deletions 0
scaffold125532 exonerate:est2genome similarity 23861354 23867182 6062 - . alignment_id 0 ; Query UN029382 ; Align 23867183 1 136 ; Align 23865746 137 96 ; Align 23865567 233 157 ; Align 23865336 390 316 ; Align 23865018 706 3 ; Align 23864489 709 16 ; Align 23864465 725 10 ; Align 23864455 736 7 ; Align 23864446 743 7 ; Align 23864439 751 7 ; Align 23864432 760 12 ; Align 23864420 773 10 ; Align 23864409 783 258 ; Align 23861650 1041 296
# --- END OF GFF DUMP ---
#
-- completed exonerate analysis
代码如下
import re
with open('result.exonerate.txt', 'r') as f:a =[]for num, line in enumerate(f):if '|' in line:a.append(num + 1)if 'Query:' in line:print ">" + line.strip().split()[1],elif 'Target:' in line:print line.strip().split()[1]elif num in a:b = re.sub(r'[^A-Z]','', line[2:-2])print b
修改加强版代码
import re
with open('result.exonerate.txt', 'r') as f:a =[]for num, line in enumerate(f):if 'Query:' in line:b = []d = []print ">" + line.strip().split()[1],elif 'Target:' in line:print line.strip().split()[1],elif '|' in line:a.append(num + 1)b.append(line.count('|'))elif 'Query range:' in line:print int(line.strip().split()[-1]) - int(line.strip().split()[-3]),elif num in a:c = re.sub(r'[^A-Z]','', line[2:-2])d.append(c)elif 'completed exonerate analysis' in line:count = sum(b)print countprint ''.join(i for i in d)
exonerate结果整理,获取target序列相关推荐
- Mybatis 获取当前序列和下一个序列值 以及在一个方法中写多条SQL 语句
目录 1.Mybatis 获取当前序列和下一个序列值 2.Mybatis 在一个方法中写多条SQL 语句 1.Mybatis 获取当前序列和下一个序列值 #获取当前序列值 select XXX_seq ...
- 与同步传递相关的获取-释放序列
与同步传递相关的获取-释放序列 为了考虑传递顺序,你至少需要三个线程.第一个线程用来修改共享变量,并且对其中一个 做"存储-释放"处理.然后第二个线程使用"加载-获取&q ...
- Java获取target下的classes路径
Java获取target下的classes路径 String resourcePath= ResourceUtils.getURL("classpath:").getPath()
- 2020/09/20 React中获取target(报错信息Warning: This synthetic event is reused for performance reasons.)
如下图,我要获取到点击的li 我的代码 return中的内容 函数 -这里要加上 event.persist() 否则只有第一次点击能够获取到target,再次会报错,显示target:null,报错 ...
- MyBatis中获取Oracle序列
一.应用情景: 当应用系统中使用了mybatis,并且首先需要获取序列的下一个值来完成某些功能操作,之后再进行数据的添加操作. 二.代码: <select id="findMaxId& ...
- 通过bed文件获取fasta序列
一.BED 文件格式 BED 文件格式提供了一种灵活的方式来定义的数据行,以用来描述注释的信息.BED行有3个必须的列和9个额外可选的列. 每行的数据格式要求一致. 必须包含的3列: 1.chrom, ...
- 自动批量裁剪+合成+整理正反向序列
说明 自动识别,批量拼接文件夹中的16S rRNA 正反向序列. 优化了前文中的方法,简化运行方式 点击查看.具体来说,拖动文件夹和文件 取代 输入路径. 在前面安装的包基础上,增加了 filesst ...
- 素数筛选法,快速获取素数序列
今天,学习了素数求取的方法,感觉很棒,拿来分享一下.首先,对比一下两种方法:普通求取素数的方法和基于筛选法的素数求取方法. -普通方法求取素数 普通方法求取素数是根据素数的定义来判断一个数N是否为素数 ...
- exonerate结果文件提取(蛋白序列)
近期在使用exonerate进行蛋白比对基因,对其结果log文件未找到方便提取的脚本,自己写了一个,python脚本(未进行优化,欢迎优化评论) 使用:python 脚本.py log文件 思路就 ...
最新文章
- Linux 查看文件大小
- RISC-V会被卡吗?那么你觉得C语言会不会被卡? | 包云岗
- 【解决方案】调用multiprocessing中创建的文件无法打开的问题FileNotFoundError: [WinError 2]
- centos下安装ruby,删除ruby
- Flask的session使用
- java writeint_Java DataOutputStream.writeInt(int v)类型
- bzoj1079 [SCOI2008]着色方案
- 重学statistics,Cha3 Descriptive Statistics: numerical measures
- EtherNET/IP协议基础知识(下)
- VR看房项目总结(1)
- vitrualbox虚拟机64位安装报错解决
- CSS实现元素固定宽高比
- LaTex 数学之上标与下标
- matlab矩阵的第一列,matlab提取矩阵第一列
- 免费领取丨精算与金融建模行业解决方案白皮书,不要错过!
- Jq点击其他任意地方隐藏关闭弹窗div
- 现代通信原理14.1:正交向量空间与正交信号空间
- trados 有道api_Trados能自动翻译吗?怎么操作,具体点。
- qsql 关联_怎样在Qt下连接读写sqlite数据库
- Windows下的进程隐藏
热门文章
- 数字电路:五分钟计时器_井字游戏:它是什么计时器?
- 2003 r2 远程管理html,在 System x 3850 M2上安装 Windows 2003 Server R2 x86 64
- ue 小知识点 开启垂直同步 vsync
- git 查看远程分支、本地分支、创建分支、把分支推到远程repository、删除本地分支...
- Android之——获取手机安装的应用程序
- 《大学“电路分析基础”课程实验合集.实验三》丨基尔霍夫定律的验证
- unity番外学习笔记-canvas在3d里的设置以及3d物体之间的碰撞
- 双11天猫自动亲亲抢红包工具
- 苹果手机便签App如何设置今天待办事宜?
- 如何改变vscode的背景颜色