GTF文件是用于保存基因结构信息的文件格式。它是基于通用特征格式(GFF)的制表符分隔文本格式,但包含一些特定的附加基因信息。
1.打开GENECODE网站 ,下载GTF文件

https://www.gencodegenes.org/human/release_29.html

image.png

image.png

2.传入Linux(以shell为例)

image.png

3.解压

gunzip gencode.v29.annotation.gtf.gz

image.png

image.png

4.less 查看

less -S gencode.v29.annotation.gtf

image.png

观察得第14列为基因类型,第18列为基因名,取。
重导向为gencode.v25.annotation.gtf.gene3type

awk '{if(!NF || /^#/){next}}1' gencode.v25.annotation.gtf|sed 's/"//g'| sed 's/;//g'|awk '{print $14,$18}' > gencode.v25.annotation.gtf.gene3type

5.less 一下新文件

image.png

1.存在以K开头 2.存在重复
故去K,去重复

uniq gencode.v25.annotation.gtf.gene3type |grep '^[^K]' |less -S

image.png


可在R打开使用
更方便的方法是直接在Linux下载

wget ftp://ftp.ebi.ac.uk/pub/databases/gencode/Gencode_human/release_29/gencode.v29.annotation.gtf.gz

image.png


参考来源:生信技能树

友情链接:

课程分享
生信技能树全球公益巡讲
(https://mp.weixin.qq.com/s/E9ykuIbc-2Ja9HOY0bn_6g)
B站公益74小时生信工程师教学视频合辑
(https://mp.weixin.qq.com/s/IyFK7l_WBAiUgqQi8O7Hxw)
招学徒:
(https://mp.weixin.qq.com/s/KgbilzXnFjbKKunuw7NVfw)

欢迎关注公众号:青岛生信菜鸟团

对于人和小鼠而言,NCBI, Ensembl等数据库都保存了对应的基因注释信息,不同数据库中的信息来源和可信度都不一样,gencode综合HAVANA和Ensembl 数据库中的信息,通过实验手段加以验证,从而构建一个高质量的注释信息数据库。网址如下

https://www.gencodegenes.org/

官网提供了GTF和GFF3两种格式的文件以供下载,示意如下

每种类型的文件提供了3种区域

CHR

ALL

PRI

对于基因组而言,包括了chromsome,unplaced_scaffold, alt_scaffold, patch等序列,这些序列上都存在对应的基因。CHR指的是染色体级别的信息,包括细胞核内的染色体和线粒体;ALL包括所有的序列,PRI只包含染色体和unplaced_scaffold序列上的信息。官方推荐,使用CHR级别的信息。

文件中采用level来表示注释信息的可信度,目前共包括3个level。

level1代表可靠的注释信息,有直接的实验证据支持的注释信息;level2代表的是经过人工校对的注释信息,取HAVANA和Ensembl注释信息中一致的注释信息;level3指的是软件注释的信息,通常是Ensemble中和HAVANA不一致的注释信息。

如果想要得到更高可信度的注释信息,可以根据level进行过滤,只选择1和2这两个层级的注释信息。

文件中共包含的基因和转录本的个数统计如下

1. human

2. mouse

在文件中,会给出基因或者转录本的类型信息,解释如下

protein_coding
蛋白编码基因

lincRNA
位于基因间区的长链非编码RNA

non_coding
文献中证实的非编码RNA

完整的基因类型信息详见以下链接

https://www.gencodegenes.org/gencode_biotypes.html
————————————————
版权声明:本文为CSDN博主「生信修炼手册」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_43569478/article/details/108079240

如何获得基因名与基因类型的对应关系——下载GTF文件 基因注释相关推荐

  1. R语者小case之——从GTF文件生成注释表格做基因ID转换

    基因的注释表格是经常需要用到的,可以从GTF文件中获得.用R可以简单地实现这个功能. 简易的GTF文件实际上可以认为是用制表符分隔为9列的TSV. 第一列是seqid, 通常是染色体编号: 第二列是s ...

  2. 怎么让热图显示基因名_在热图中标注出特定基因名称

    原标题:在热图中标注出特定基因名称 对于基因的差异表达谱,常用热图作为展示.但有时差异基因可能非常的多,热图中不可能将所有基因的名称标注出来.那么此时不妨选择一些比较重要的基因(比方说p值最显著的那些 ...

  3. 根据NCBI中的蛋白名在uniprot中查找对应蛋白登录号及基因名

    根据NCBI中的蛋白名在uniprot中查找对应蛋白登录号及基因名 想法来源 第一个客户 第二位客户 代码分享 反思 想法来源 首先,我要感谢我从事蛋白质组分析工作中遇到的形(xi)形(qi)色(gu ...

  4. R中不同类型的基因名间的转换

    举一个例子,已知基因ID,求其对应的ENSEMBL,步骤如下 library(org.Hs.eg.db) library(clusterProfiler) keytypes(org.Hs.eg.db) ...

  5. 2020-008 Excel与基因名的故事(续)

    Excel与基因名的故事(续) 8号的时候,刷知乎遇到一个问题.如何评价科学家重命名了多个人类基因,以避免被 Excel 自动纠正?没有别的方法吗? 虽然不知道知乎从何种途径观察到我在研究这个问题然后 ...

  6. 在线使用Python通过染色体id+位置查询基因名列表

    前话:使用pyensembl可对hg38进行本地查询,但发现若查询其他的数据库比如hg19,得重新下载对应的数据文件. 查看文献发现,UCSC提供了一个丰富的mysql数据库供我们在线查询各种生物信息 ...

  7. 基因名2-MAR等错误名字产生原因

    数据导入Microsoft Excel后,部分基因名会自动转换为日期或浮点. 源格式 导入Excel后的格式 MARC1 1-Mar MARCH1 1-Mar DEC1 1-Dec 231012E4 ...

  8. 基因去重表达矩阵有重复的基因名 探针名字

    每次都要检测数据 >dat[1:4,1:4] library(hgu133plus2.db) ids=toTable(hgu133plus2SYMBOL) #toTable这个函数:通过看hgu ...

  9. gene id对应基因名_前5名:用于计算机维修的Linux发行版,Blockly,Gene Kim等

    gene id对应基因名 欢迎来到Opensource.com每周前5名! 您是否想知道魔术是如何发生的? 当然这不是火箭科学,但我想您可能想知道我如何每周为您制作Weekly Top 5视频和文章. ...

最新文章

  1. spark调优(一)-开发调优,数据倾斜,shuffle调优
  2. PESCMS Ticket 客服工单系统 v1.2.5 发布
  3. linux 通知链,Linux内核通知链notifier
  4. [ROS] Chinese MOOC || Chapter-2.4 Metapackage
  5. matlab绘制以Hz为单位的bode图
  6. 【Go语言】集合与文件操作
  7. Linux服务器环境搭建《Redis、Nginx、mysql8安装》
  8. opencv 中从cv::line和resize()函数
  9. 我的十年创作之路(三)——书稿创作经验谈
  10. Win7 U盘安装Ubuntu16.04 双系统详细教程
  11. 网盘助手插件chrome插件
  12. 文章章节常用序号编排(数字序号顺序)
  13. CF 1715 D. 2+ doors 位运算 1900
  14. 软件安装和使用系列(一)CyberDuck的安装和使用
  15. [转] CodeMirror基本配置项
  16. 安卓日记——手把手教你做知乎日报
  17. mysql master status_mysql show master status为空值
  18. Alibaba的COBAR真是强大
  19. 简述RC低通滤波原理
  20. 计算机科学文科学士,计算机科学文科学士与理科硕士

热门文章

  1. DBeaver Enterprise 21.3 企业版使用方法
  2. Spring 设置跨源资源共享(CORS)
  3. 带有验证码的爆破(包含Burp suite工具爆破)
  4. 【Swin-T onnx】swin transformer 转 onnx Error解决
  5. 逆序数的求法-csdn博客
  6. NEXON TA1000/C-50-200/02/42G12MS100D6\-50-200℃
  7. it人士理财分析(成为有钱的油腻男)
  8. 微信wifidog认证服务器,【开源】wwas 重磅发布,配套apfree wifidog的认证上网服务后台...
  9. 车载软件架构——AUTOSAR的江湖夜雨十年灯
  10. String可不可变???