我想使用以下脚本从大的fasta文件中提取特定的fasta序列,但输出为空。从大的fasta文件中提取特定的fasta序列

transcripts.txt文件包含我想从assembly.fasta到selected_transcripts.fasta导出的列表转录本ID(ID和序列)。 例如:

transcripts.txt: Transcript_00004|5601

Transcript_00005|5352

assembly.fasta:>Transcript_00004|5601

GATCTGGCGCTGAGCTGGGTGCTGATCGACCCGGCGTCCGGCCGCTCCGTGAACGCCTCGAGTCGGCGCCCGGTGTGCGTTGACCGGAGATCGCGATCTGGGGAGACCGTCGTGCGGTT

>Transcript_00004|5360

CGATCTGGCGCTGAGCTGGGTGCTGATCGACCCGGCGTCCGGCCGCTCCGTGAACGCCTCGAGTCGGCGCCCGGTGTGCGTTGACCGGAGATCGCGATCTGGGGAGACCGTCGTGCGGTT

的ID由>符号开头:>Transcripts_00004|5601。

我要读的assembly.fasta文件,如果在assembly.fasta成绩单ID是transcripts.txt相同的写的,我必须写这份成绩单ID及其selected_transcripts.fasta序列。所以,在上面的例子中,我只需要写第一个成绩单。

有什么建议吗? 谢谢。

from Bio import SeqIO

my_list = [line.split(',') for line in open("/home/universita/transcripts.txt")]

fin = open('/home/universita/assembly.fasta', 'r')

fout = open('/home/universita/selected_transcripts.fasta', 'w')

for record in SeqIO.parse(fin,'fasta'):

for item in my_list:

if item == record.id:

fout.write(">" + record.id + "\n")

fout.write(record.seq + "\n")

fin.close()

fout.close()

2016-05-13

Chiara E

+1

请参阅https://www.biostars.org/p/68718/ –

+0

您可以[编辑]您的问题,并包括一些'transcripts.txt'以及'assembly.fasta'的一部分,所以我们有一些数据可以使用? –

+0

你在每个冒号后分开你的成绩单行,但它是空格分开的。这是故意的吗? –

linux提取fasta文件的id,从大的fasta文件中提取特定的fasta序列相关推荐

  1. wireshark提取流量包中的文件_从Wireshark监听的数据中提取需要的数据

    最近,需要将wireshark监听的数据进行提取,分两步:首先,应该得出wireshark的数据包吧,在图形化界面中可以非常直观的将监听数据进行存储,但是这样需要手动操作非常麻烦,而且容易出错(随着处 ...

  2. java读取大txt文件_JAVA读取很大的TXT文件(上百G)

    当文件过于大的时候我们如果还用传统的方式读取很容易造成内存满我们应该拆开读取: 用NIO方式把大文件分成固定大小的小文件(小于2G,自己综合分析设置多大,每个文件太大容易浪费空间,太小浪费时间),然后 ...

  3. 文件夹加密超级大师会把文件上传到服务器吗,共享文件夹加密超级大师怎么加密文件夹?...

    共享文件夹加密超级大师是一款非常优秀的文件夹加密软件,它可以帮助我们加密一些重要的文件,从而达到防复制.防截屏.防删除.防另存为的效果,保证了文件的安全.那么,共享文件夹加密超级大师怎么加密文件夹呢? ...

  4. 利用python提取abaqus节点坐标的脚本_用于在Abaqus中提取结点力的Python程序

    用于在Abaqus中提取结点力的Python程序 #coding=utf-8 from abaqus import * from abaqusConstants import * from odbAc ...

  5. 怎么从pdf中提取图片?三招告诉你如何从pdf中提取图片

    众所周知,PDF的格式对于一些重要文件的保存,以及隐私文件的保护来说都是非常好用的.同时,如果要将PDF格式的文件转换成其它格式的文件也挺方便的.因此,PDF格式在日常办公中具有较高的使用率.那么我们 ...

  6. open cv roi提取_使用pytesseract open cv从扫描的pdf中提取文本

    open cv roi提取 The process of extracting information from a digital copy of invoice can be a tricky t ...

  7. 计算机中公式提取用什么函数,技巧:Excel快速从文本中提取单元格中的数字函数公式...

    有时,我们将一些文本导入Excel.这些文本包含中文,字母,数字,并且全部堆积在一个单元格中.但是,我们只需要数字.那么,如何快速从中文,字母和数字中提取数字呢?在这里,王小老师将为您分享一些实用的函 ...

  8. arcmap提取dem高程_如何使用ArcGIS从DEM数据中提取水系

    1. 概述 在比较偏远的地方,往往会缺少水文信息,我们可以通过ArcGIS对高程DEM数据进行水文分析,为地表水流建立模型,进而获取到该地的水文信息,DEM数据精度越高,获取到的水文数据精度也就越高, ...

  9. linux文件分割(将大的日志文件分割成小的)

    linux下文件分割可以通过split命令来实现,可以指定按行数分割和安大小分割两种模式.Linux下文件合并可以通过cat命令来实现,非常简单. 在Linux下用split进行文件分割: 模式一:指 ...

最新文章

  1. byte与char区别
  2. leetcode 342. Power of Four
  3. BZOJ1030: [JSOI2007]文本生成器
  4. 文献记录(part36)--A survey on heterogeneous network representation learning
  5. uml 继承_UML 完全解析和总结
  6. 在传统企业做互联网架构是什么感受?
  7. 20181114 Redis
  8. java ftp 上传文件 无效_java实现FTP文件上传出现的问题
  9. 设计模式 指令模式_指令设计模式
  10. 学生宿舍信息管理系统
  11. AMTEmu v0.9.2
  12. IoT协议LwM2M MQTT与CoAP
  13. kettle连接access问题总结
  14. 关于临时HY学长被安排拉二分题不想翻译找到DYM学长这件事
  15. Glide 源码解析之监听生命周期
  16. [Python中的除法、除法取整、除法取余] [运算符分别为:/、//、%]
  17. 基于springboot小型车队管理系统 毕业设计-附源码061709
  18. 能被2、3、4、5、6、7、8、9等数整除的数的特征
  19. 微软开始为厂商提供 SQL Server 2014 OTM
  20. 该怎么去学UI设计?UI设计学习路线分享

热门文章

  1. Nginx代理浏览器接口调用本地的后端接口
  2. 大家能不能在百忙之中 想想鸟姐的话
  3. 教你写递归——递归三部曲
  4. 【原创】2009.6.22犀浦记
  5. redhat升级linux内核,redhat内核升级方法
  6. Hermez官方文档翻译(二)开发者-开发指南
  7. 微信利用小号和大号的好友聊天(基于wxpy库)
  8. android 分享图片到朋友圈 大小限制,朋友圈传播图的尺寸是多少?朋友圈图片大小限制...
  9. 微信广告转化归因几个坑 gdt_vid和clickid
  10. python 找出其中不含有重复字符的最长子串的长度