用python从gbff文件中提取cds序列
首先,我们要了解一下什么是GBFF文件
GenBank纯文本文件格式(GenBank flatfile, 简称GBFF)
GBFF是GenBank数据库的基本信息单位
GBFF序列文件由单个的序列条目组成。
序列条目由字段组成,每个字段由关键字起始,后面为该 字段的具体说明。
字段分若干次子字段,以次关键字或特性表说明符开始。
每个序列条目以双斜杠“//*作结束标记
然后看一下每个序列条目所代表的意义
1、 LOCUS(代码)序列的功能、序列长度、类型、种属来源、录入日期
2、 DEFINITION(说明)所含的生物学意义的总结性描述
3、 ACCESSION(编号)具有唯一性和永久性
4、 VERSION(版本号)检索号、版本号
5、 KEYWORDS(关键词)描述序列,“ . ”表示没有任何描述内容
6、 SOURCE(数据来源)序列来源生物的简称,或分子类型
7、 REFERENCE (文献)与该数据有关的参考文献,按发表时间排名
8、 FEATURES(特性表)描述基因和基因的产物,以及与序列相关的生物学特性,其中包括
a. 特性关键词(Feature key) 简要说明功能组的关键词
b. 特性位置(Location) 指明在特性表中的什么地方找到相关特性
c. 限定词(Qualifiers) 相关特性的辅助信息
9、 ORIGIN(碱基排列顺序)类似于FASTA格式给出了所记录的序列
最后直接上代
用python从gbff文件中提取cds序列相关推荐
- 生物信息中的Python 05 | 从 Genbank 文件中提取 CDS 等其他特征序列
1 介绍 在基因结构分析或其他生物功能分析中会时常用到 CDS 序列,以及其他诸如 mRNA 序列,misc RNA序列等具有生物意义的序列片段.而NCBI 的基因库中已经包含有这些的信息,但是只有一 ...
- gnuradio上怎么使用python文件_使用Python从PDF文件中提取数据
前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了 ...
- 使用Python从PDF文件中提取数据
前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了 ...
- python在txt文件中提取段落_如何使用python从.txt文件中提取段落?
我需要从一个.txt文件中提取段落,其中每个段落都以字母摘要开头,如下所示.在 文摘:大规模多输入多输出天线系统.毫米波通信和超密集网络被广泛认为是 促进5G开发和部署的三大关键因素 系统.我们提出了 ...
- Python从视频文件中提取音频
利用python库moviepy或者ffmpeg处理 # 这是一个示例 Python 脚本. from moviepy.editor import * import tkinter as tk fro ...
- python调用simulink_使用Python从dbc文件中提取simulink建模数据定义
使用dbc文件建模完成CAN通讯是一种比较高效的开发模式,不过在建模的过程中dbc文件中描述的数据需要自己去定义.使用文本编辑工具打开dbc文件可以看到,实际上dbc文件是一个可以进行语义解析的文本. ...
- Python: 从pcap文件中提取每个TCP session的payload
如今,网络在我们生活中起到不可或缺的作用,同时也催生出很多与网络相关的问题.比如恶意软件检测.流量识别等.机器学习和深度学习的相关算法已经被广泛应用于这些问题上面了. 本人在进行Botnet dete ...
- Python从txt文件中提取特定数据
本段代码用于,想要从一段txt文件中只提取目标数据的情况. 代码: def get_data(txt_path: str = '', epoch: int = 100, target: str = ' ...
- python从html拿到数据,python - 使用BeautifulSoup和Python从HTML文件中提取数据 - 堆栈内存溢出...
我需要提取的数据可以在不同的标题下找到. 这是我到目前为止: from BeautifulSoup import BeautifulSoup ecj_data = open("data\ec ...
最新文章
- MQ日常维护操作手册
- linux基础知识必掌握知识[自己原来上学总结的难免有错误,多谢指点]
- 组播IP地址到底是谁的IP?
- linux网络收包过程
- 深度学习与神经网络概述
- 20155322 《Java程序设计》课堂实践项目 数据库-3-4
- 海量数据库解决方案2011040701
- rocketmq在Kubernetes(k8s)中的集群配置,2m-2s-async:多Master多Slave模式,异步复制
- 【薛定谔方程求解】基于MATLAB的薛定谔方程求解仿真
- sencha app watch php,Sencha Cmd使用指南
- python创建person类用printinfo方法_python学习(三)面向对象
- 谷歌Chrome浏览器的翻译按钮不见了
- 文读懂安防视频监控系统中H.265、SVAC、GB/T28181、ONVIF、PSIA的区别。
- 最小函数值(minval)
- 阿里云短信服务--SMS
- android opengl版本太低,安卓模拟器opengl_安卓模拟器无法安装“系统opengl版本过低”的通用解决方法_安卓模拟器通用版_通用安卓模拟器...
- wxPython安装终极方法
- 什么是沟通能力?如何提高沟通能力?
- 智能合约的编写增删改查
- maven:Unable to process Jar entry [module-info.class] from Jar [jar:file:/ ...(log4j12, asm...) 解决
热门文章
1 介绍 在基因结构分析或其他生物功能分析中会时常用到 CDS 序列,以及其他诸如 mRNA 序列,misc RNA序列等具有生物意义的序列片段.而NCBI 的基因库中已经包含有这些的信息,但是只有一 ...
前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了 ...
前言 数据是数据科学中任何分析的关键,大多数分析中最常用的数据集类型是存储在逗号分隔值(csv)表中的干净数据.然而,由于可移植文档格式(pdf)文件是最常用的文件格式之一,因此每个数据科学家都应该了 ...
我需要从一个.txt文件中提取段落,其中每个段落都以字母摘要开头,如下所示.在 文摘:大规模多输入多输出天线系统.毫米波通信和超密集网络被广泛认为是 促进5G开发和部署的三大关键因素 系统.我们提出了 ...
利用python库moviepy或者ffmpeg处理 # 这是一个示例 Python 脚本. from moviepy.editor import * import tkinter as tk fro ...
使用dbc文件建模完成CAN通讯是一种比较高效的开发模式,不过在建模的过程中dbc文件中描述的数据需要自己去定义.使用文本编辑工具打开dbc文件可以看到,实际上dbc文件是一个可以进行语义解析的文本. ...
如今,网络在我们生活中起到不可或缺的作用,同时也催生出很多与网络相关的问题.比如恶意软件检测.流量识别等.机器学习和深度学习的相关算法已经被广泛应用于这些问题上面了. 本人在进行Botnet dete ...
本段代码用于,想要从一段txt文件中只提取目标数据的情况. 代码: def get_data(txt_path: str = '', epoch: int = 100, target: str = ' ...
我需要提取的数据可以在不同的标题下找到. 这是我到目前为止: from BeautifulSoup import BeautifulSoup ecj_data = open("data\ec ...