1、需要将下面的fasta文件进行一个整理,将序列单行输出

方法一

f1 = open('test1.fa','r').readlines()#需要整理的文件
f2 = open('2.fasta','w')#整理之后的文件
for i in f1:if i.startswith('>'):f2.write('\n'+i)else:f2.write(i.strip("\n"))

结果如下,这样会有一个问题,输入的文件起始有一个空行

这时候怎么办呢?
我中间加了一次判断,如果第一次遇到>,则不进行换行

f1 = open('test1.fa','r').readlines()#需要整理的文件
f2 = open('2.fasta','w')#整理之后的文件
n = 0
for i in f1:if i.startswith('>'):n += 1if n == 1:f2.write(i)else:f2.write('\n'+i)else:f2.write(i.strip("\n"))
f2.close()


此时第一行的换行符就没有了。
方法二:该方法比较费内存,小文件的处理可以,太大了就不行了,主要思想就是建立一个字典,把id和序列存入字典中

f1 = open('test1.fa','r').readlines()#需要整理的文件
f2 = open('2.fasta','w')#整理之后的文件
a={}
for i in f1:if i.startswith('>'):id = i.strip("\n")fa=''else:fa = fa + i.strip("\n")a[id]=fa
for i in a:f2.write(i+'\n'+a[i]+'\n')
f2.close()

2、当文件处理下面的情况,如何处理呢?

第一列是我的ID,第二列是序列,处理成fasta文件

f1 = open('1.txt','r').readlines()#需要整理的文件
f2 = open('1.fasta','w')#整理之后的文件
for i in f1[1:]:#有表头,如果无表头则将1:去掉id = i.split('\t')[0]fa = i.strip('\n').split('\t')[1]f2.write('>'+id+'\n'+fa+'\n')
f2.close()


3、有些人会说,如果我的ID有重复,但是重复的,想把序列加和到一起,最后输出,该怎么办呢?

f1 = open('1.fa','r').readlines()#需要整理的文件
f2 = open('2.fa','w')#整理之后的文件
a={}
for i in f1:if i.startswith('>'):id = i.strip("\n")[1:]#去掉大于号else:fa = i.strip("\n")if id in a:a[id]=a[id]+faelse:a[id]=fa
for i in a:f2.write('>'+i+'\n'+a[i]+'\n')
f2.close()

思想,先建一个字典,把id作为key,而序列作为value,每一次增加字典内容时,判断id是不是已经在a的key中存在,如果不存在,这时候直接将序列作为value,但是如果存在了,这是该id对应的就是已经存在的value加上现在的序列。f1读取结束后,再遍历字典,就可以了
总结:
1、open()打开文件,r代表读取,而w则是写入,a是追加
2、使用readlines()读取的文件,不需要关闭,但其他的文件是必须要关闭了,close就是关闭文件的意思
3、split是分割,而strip则是掉左右两端的某字符,这里用的是\n其实就是换行符
4、for循环和if判断语句

python常见的文本处理-fasta文件格式处理相关推荐

  1. Python 常见文件格式 .py .pyc .pyw .pyo .pyd 之间的主要区别

    Python 常见文件格式 .py .pyc .pyw .pyo .pyd 之间的主要区别 Python 是一种面向对象.解释型计算机程序设计语言.Python 语法简洁.清晰,具有丰富和强大的类库. ...

  2. 使用python语言编写常见的文本分类算法

    自然语言处理中一个很常见的操作就是文本分类,比如一组新闻文本,通过分类模型,将新闻文本分为政治.体育.军事.娱乐.财经等等几大类.那么分类第一步就是文本向量化,前一篇博客讲了一些,本文可以说是前文的实 ...

  3. python能以文本和二进制方式处理文件_Python文件处理之文件写入方式与写缓存(三)...

    Python的open的写入方式有: write(str):将str写入文件 writelines(sequence of strings):写多行到文件,参数为可迭代对象 首先来看下writelin ...

  4. Python 常见的 170 道面试题全解析:2022 版

    Python 常见的 170 道面试题全解析:2019 版 语言特性 1.谈谈对 Python 和其他语言的区别 答:Python 是一门语法简洁优美,功能强大无比,应用领域非常广泛,具有强大完备的第 ...

  5. python常见错误-python常见的错误提示有什么

    python常见的错误有 1.NameError变量名错误 2.IndentationError代码缩进错误 3.AttributeError对象属性错误 4.TypeError类型错误 5.IOEr ...

  6. python常见错误-python中的错误有什么

    我们在写python代码时,有时候会遇到莫名的错误,而且查阅了很多资料也不明白是怎么回事,尤其是对python初学者而言,会很影响学习的细心,下面总结python中常见的错误,希望帮助到大家. pyt ...

  7. python简单发音-Python如何实现文本转语音

    准备 我测试使用的Python版本为2.7.10,如果你的版本是Python3.5的话,这里就不太适合了. 使用Speech API 原理 我们的想法是借助微软的语音接口,所以我们肯定是要进行调用 相 ...

  8. python自动化办公模块有哪些-python常见的命令行交互自动化模块有哪些

    用Python写的程序,保存为.py,添加什么命令才能使我一般都是在后面加一个输入语句. python可不可以采用非命令行方式 可以,预先写好代码 使用pythonw.exe执行py文件可以不打开黑框 ...

  9. python在线怎么发音-Python如何实现文本转语音

    准备 我测试使用的Python版本为2.7.10,如果你的版本是Python3.5的话,这里就不太适合了. 使用Speech API 原理 我们的想法是借助微软的语音接口,所以我们肯定是要进行调用 相 ...

最新文章

  1. 计算机视觉研究群体及专家主页汇总
  2. NF5270M3服务器主板安装系统,NF5270M3 – 主板相关
  3. 云炬Qtpy5开发与实战笔记 1开发第一个桌面应用Hello World
  4. ORA-28056:Writing audit records to Windows Even...
  5. java class类型参数_java – 如何从通用类型参数获取`.class`属性?
  6. stream of java_Java 8 新特性-Stream更优雅的处理集合入门
  7. juniper *** LT2P
  8. 数字图像处理 调色板图像
  9. httpclient
  10. java中的private访问控制
  11. Kafka性能压测完整版
  12. Socket UDP、TCP 简介
  13. 第一周:线性规划、整数规划、非线性规划、二次规划
  14. [Scrapy教学9]一定要懂的Scrapy框架结合Gmail寄送爬取资料附件秘诀
  15. DBA常用命令——数据库导入导出文件
  16. 如何在 R 中计算 Cramer V
  17. 【系统分析师之路】第十七章 多媒体基础章节习题集
  18. GJB 5000B二级-VV验证与确认
  19. 怎么做好互联网产品运营?
  20. jwt身份令牌数据处理 前后端分离式开发

热门文章

  1. 中台辨析:架构的演进趋势
  2. 【Linux】服务器常用的操作命令
  3. 系列文章|OKR与敏捷(二):实现全栈敏捷
  4. 项目管理必知的7个重点
  5. 超详细教你10分钟搭建一个高端的B2B2C模式的综合性商城|含来客推V3源码下载
  6. 实验四 32 位 ALU 设计实验
  7. jquery 点击计数器
  8. jQuery下拉框元素操作
  9. 工作中不能学的6种人
  10. html js脚本限制 正则,[js]用JAVASCRIPT正则表达式限制文本字节数的代码