转录组入门(4):了解参考基因组及基因注释
在UCSC下载hg19参考基因组,我博客有详细说明,从gencode数据库下载基因注释文件,并且用IGV去查看你感兴趣的基因的结构,比如TP53,KRAS,EGFR等等。
作业,截图几个基因的IGV可视化结构!还可以下载ENSEMBL,NCBI的gtf,也导入IGV看看,截图基因结构。了解IGV常识

准备工作

参考基因组

测序得到的是几百bp的短read, 相当于把拼图打散了给你。如果没有参考基因组,从头(de novo)组装等于是重走人类基因组计划的老路,也就是打散了拼图,却不告诉你原来是什么样子,那么任务将会及其艰巨。
还好人类基因组已经组装好了,我们只需要把我们测得序列回贴(mapping)回去,毕竟人与人之间的差距只有不到1%差异, 允许mismatch就行。

因此第一步就是要去UCSC(http://genome.ucsc.edu/index.html)下载hg19参考基因组(文献要求)

UCSC网站
数据存放站点
hg19
基因组文件

不同文件的所包含的数据在该页面有介绍,其中

chromFa.tar.gz - The assembly sequence in one file per chromosome.Repeats from RepeatMasker and Tandem Repeats Finder (with period of 12 or less) are shown in lower case; non-repeating sequence is shown in upper case.

我将数据存放在Windows的F盘的Data文件夹下,用于后续操作

cd /mnt/f/Data
mkdir reference && cd reference
mkdir -p genome/hg19 && cd genome/hg19
nohup wget http://hgdownload.soe.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &
tar -zvf chromFa.tar.gz
cat *.fa > hg19.fa
rm chr*

下面的内容是Jimmy在【直播】我的基因组(五):测试数据及参考基因组的准备关于参考基因组的介绍

这个对新手来说,是一个很大的坑,hg19、GRCH37、 ensembl 75这3种基因组版本应该是大家见得比较多的了,国际通用的人类参考基因组,其实他们储存的是同样的fasta序列,只是分别对应着三种国际生物信息学数据库资源收集存储单位,即NCBI,UCSC及ENSEMBL各自发布的基因组信息而已。有一些参考基因组比较小众,存储的序列也不一样,比如BGI做的炎黄基因组,还有DNA双螺旋结构提出者沃森(Watson)的基因组,还有2016年发表在nature上面的号称最完善的韩国人做的基因组。前期我们先不考虑这些小众基因组,主要就下载hg19和hg38,都是UCSC提供的,虽然hg38相比hg19来说,做了很多改进,优点也不少,但因为目前为止很多注释信息都是针对于hg19的坐标系统来的,我们就都下载了,正好自己探究一下。也顺便下载一个小鼠的最新版参考基因组吧,反正比对也就是睡个觉的功夫,顺便分析一下结果,看看比对率是不是很低。

吐槽: Jimmy大神的博客排版真的是非常考验我们对知识的渴望,每当看到他的排版的时候,我必须得忍住不去点击浏览器右上角。为了求知,我忍了。

注释信息

然而参考基因组是一部无字天书,要想解读书中的内容,需要额外的注释信息协助。
因此第二步,就是去gencode数据库(http://www.gencodegenes.org/)下载基因组注释文件。

Gencode

看了下面这个图,我才明白Jimmy为什么会吐槽基因组各种版本对应关系了。

版本对应

又到了GTF还是GFF3的抉择时刻,简单介绍了一下他们的格式

GTF/GFF3

GTF(General Transfer Format)其实就是GFF2,以Tab分割,分为如下几列

  1. seqname - name of the chromosome or scaffold; chromosome names can be given with or without the 'chr' prefix. Important note: the seqname must be one used within Ensembl, i.e. a standard chromosome name or an Ensembl identifier such as a scaffold ID, without any additional content such as species or assembly. See the example GFF output below.
  2. source - name of the program that generated this feature, or the data source (database or project name)
  3. feature - feature type name, e.g. Gene, Variation, Similarity
  4. start - Start position of the feature, with sequence numbering starting at 1.
  5. end - End position of the feature, with sequence numbering starting at 1.
  6. score - A floating point value.
  7. strand - defined as + (forward) or - (reverse).
  8. frame - One of '0', '1' or '2'. '0' indicates that the first base of the feature is the first base of a codon, '1' that the second base is the first base of a codon, and so on..
  9. attribute - A semicolon-separated list of tag-value pairs, providing additional information about each feature.

而GFF3(General Feature Format)的格式如下

  1. seqid - name of the chromosome or scaffold; chromosome names can be given with or without the 'chr' prefix. Important note: the seq ID must be one used within Ensembl, i.e. a standard chromosome name or an Ensembl identifier such as a scaffold ID, without any additional content such as species or assembly. See the example GFF output below.
  2. source - name of the program that generated this feature, or the data source (database or project name)
  3. type - type of feature. Must be a term or accession from the SOFA sequence ontology
  4. start - Start position of the feature, with sequence numbering starting at 1.
  5. end - End position of the feature, with sequence numbering starting at 1.
  6. score - A floating point value.
  7. strand - defined as + (forward) or - (reverse).
  8. phase - One of '0', '1' or '2'. '0' indicates that the first base of the feature is the first base of a codon, '1' that the second base is the first base of a codon, and so on..
  9. attributes - A semicolon-separated list of tag-value pairs, providing additional information about each feature. Some of these tags are predefined, e.g. ID, Name, Alias, Parent - see the GFF documentation for more details.

看不出来有啥区别,不想纠结就全下载好了。

nohup wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v26lift37.annotation.gtf.gz &
nohuop wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v26lift37.annotation.gff3.gz &

我们对文字的理解能力远远小于图片,所以下一步需要下载基因组浏览器

IGV, Integrative Genomics Viewer

下载地址为: http://software.broadinstitute.org/software/igv/download
Windows下载如下版本, 会自带一个java运行环境

download

双击igv.bat, 就会出现运行界面。

双击666

通过genome -> Load Genome From Files加载之前得到基因组文件。

loading data

进一步,还需要加载gff基因注释文件,File -> Load From Files

gff

显示未排序出错,可以使用Tool -> Run igvtools,进行排序。

igvtools
sort

之后就可以重新加载排序后的gtf文件进行操作。生信宝典写过一篇文章介绍测序数据可视化(http://mp.weixin.qq.com/s/Q7pqycmQH58xU6hw_LECWA) 我也在看文档摸索中,先放上基因截图

gene演示

下面这张图是来自于几个月前Jimmy对高通量测序的理解,提供数据的截图

高通量测序的异同

转录组入门(4):了解参考基因组及基因注释相关推荐

  1. linux基因组文件,转录组入门(四):了解参考基因组及基因注释

    转录组入门(4):了解参考基因组及基因注释 任务列表 1.在UCSC下载hg19参考基因组: 2.从gencode数据库下载基因注释文件,并且用IGV去查看感兴趣的基因的结构,比如TP53,KRAS, ...

  2. NGS基础 - 参考基因组和基因注释文件

    参考基因组和基因注释文件获取 通常测序生成的reads要与参考基因组或参考转录组进行比对,或Pseudo-alignment.所以首先需要获取参考基因组和参考转录组信息. Ensembl(http:/ ...

  3. linux基因组文件,科学网-NGS基础 - 参考基因组和基因注释文件-陈同的博文

    NGS基础 - 参考基因组和基因注释文件 同步滚动:关 参考基因组和基因注释文件获取 通常测序生成的reads要与参考基因组或参考转录组进行比对,或Pseudo-alignment.所以首先需要获取参 ...

  4. RNA-seq(2):下载参考基因组及基因注释,及测序数据-学习笔记

    今天学习了如题的一些操作.但是并不算成功.本来打算做到quality control,结果大部分时间卡在了下载测序数据上. 参考网站: 下载参考基因组及基因注释) 1.安装ASPERA 1)wget ...

  5. linux转录组kegg注释,转录组入门(8):差异基因结果注释

    作业要求 我们统一选择p<0.05而且abs(log2FC)大于1的基因为显著差异表达基因集,对这个基因集用R包做KEGG/GO超几何分布检验分析. 然后把表达矩阵和分组信息分别作出cls和gc ...

  6. 文献RNA-seq复现第2期——sra数据转换、参考基因组及注释信息的准备

    前期学习了通过文章获取了RNA测序数据,具体参考往期文献RNA-seq复现第1期--文献中mRNA测序数据的获取.值得注意的是,下载测序数据通常是.sra格式文件(如下SRR3589956 - SRR ...

  7. 宏基因组实战4. 基因注释Prokka

    前情提要 如果您在学习本教程中存在困难,可能因为缺少背景知识,建议先阅读本系统前期文章 宏基因组分析理论教程 微生物组入门圣经+宏基因组分析实操课程 1背景知识-Shell入门与本地blast实战 2 ...

  8. cellranger 操作笔记-2:构建绵羊单细胞转录组参考基因组

    参考10X官方教程:Find the input files -Software -Single Cell Gene Expression -Official 10x Genomics Support ...

  9. Nature综述:2万字带你系统入门鸟枪法宏基因组实验和分析

    NBT:鸟枪法宏基因组-从取样到数据分析 Shotgun metagenomics, from sampling to analysis Nature Biotechnology [IF:31.864 ...

  10. 转录组入门(5): 序列比对

    欢迎来GitHub上fork,一起进步: https://github.com/xuzhougeng 比对软件很多,首先大家去收集一下,因为我们是带大家入门,请统一用hisat2,并且搞懂它的用法. ...

最新文章

  1. 6.1.2.6 盒子
  2. Spring5源码 - 10 Spring事件监听机制_应用篇
  3. TF之LiR:利用TF自定义一个线性分类器LiR对乳腺癌肿瘤数据集进行二分类预测(良/恶性)
  4. 本网站的幻灯片浏览很好看,不懂谁有这代码?
  5. 小余学调度:学习记录2021.8月
  6. leetcode 850. Rectangle Area II | 850. 矩形面积 II(递归分割未重叠矩形)
  7. php中的自定义函数与c语言有什么区别,php与c语言的不同点是什么?
  8. MediaPlayer 的prepareAsync called in state 8 错误
  9. Vuex原来可以这样上手
  10. java线程中的死锁_Java多线程中的死锁 - Break易站
  11. python 多线程Thread
  12. End-to-end目标检测算法的学习笔记
  13. iis 回收工作进程时出错的解决办法
  14. ftp用的是tcp还是udp_TCP与UDP的区别究竟在哪
  15. OwinStartupAttribute
  16. axure 原型图 基础知识介绍
  17. 平面设计素材| 文字排版 堆砌素材
  18. 基岩版服务器开启坐标显示,mc基岩版怎么看坐标 mc基岩版如何看坐标
  19. WebADI_WebADI常用代码bne_integrator_utils
  20. c语言 派生,继承和派生

热门文章

  1. 2021年应届生面试题(一文到底)
  2. Java开发工程师大厂面试常见问题总结(应届生版)
  3. linux下 OOB 炸弹的制作
  4. 如何在 R 中计算 Eta 平方
  5. 数据结构之顺序表(Java实现)
  6. React Native布局实践:开发京东客户端首页(四)——首页功能按钮及控件封装
  7. 医疗器械A类B类C类物料区分
  8. 单片机c语言编写音乐播放器,51单片机c语言编写电子琴+音乐播放器.doc.doc
  9. 关于oneway void
  10. configure: error: Your system does not support systemd