转录组入门(4):了解参考基因组及基因注释

任务列表

1.在UCSC下载hg19参考基因组;

2.从gencode数据库下载基因注释文件,并且用IGV去查看感兴趣的基因的结构,比如TP53,KRAS,EGFR等等。

3.截图几个基因的IGV可视化结构

4.下载ENSEMBL,NCBI的gtf,也导入IGV看看,截图基因结构

5.了解IGV常识

在UCSC下载hg19参考基因组

hg19、GRCH38、 ensembl75这3种基因组版本应该是大家见得比较多的了,国际通用的人类参考基因组,其实他们储存的是同样的fasta序列,只是分别对应着三种国际生物信息学数据库资源收集存储单位,即NCBI,UCSC及ENSEMBL各自发布的基因组信息而已。有一些参考基因组比较小众,存储的序列也不一样,比如BGI做的炎黄基因组,还有DNA双螺旋结构提出者沃森(Watson)的基因组,还有2016年发表在nature上面的号称最完善的韩国人做的基因组。前期我们先不考虑这些小众基因组,主要就下载hg19和hg38,都是UCSC提供的,虽然hg38相比hg19来说,做了很多改进,优点也不少,但因为目前为止很多注释信息都是针对于hg19的坐标系统来的,我们就都下载了,正好自己探究一下。也顺便下载一个小鼠的最新版参考基因组吧,反正比对也就是睡个觉的功夫,顺便分析一下结果,看看比对率是不是很低。

mkdir rna_seq/data/reference && cd rna_seq/data/reference

mkdir -p genome/hg19 && cd genome/hg19

# nohup wget http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &

# nohup 是永久执行,& 是指在后台运行。nohup COMMAND & 这样就能使命令永久的在后台执行

nohup axel http://hgdownload.cse.ucsc.edu/goldenPath/hg19/bigZips/chromFa.tar.gz &

tar zvfx chromFa.tar.gz

cat *.fa > hg19.fa

rm chr*.fa

从gencode数据库下载基因注释文件,并且用IGV去查看感兴趣的基因的结构

下载基因注释文件

官网:http://www.gencodegenes.org/releases/26lift37.html

wget ftp://ftp.sanger.ac.uk/pub/gencode/Gencode_human/release_26/GRCh37_mapping/gencode.v26lift37.annotation.gtf.gz

gzip -d gencode.v26lift37.annotation.gtf.gz

下载安装IGV、BEDtool

官网:http://software.broadinstitute.org/software/igv/download(下载 Binary Distribution 版本)

wget https://github.com/arq5x/bedtools2/releases/download/v2.26.0/bedtools-2.26.0.tar.gz

tar -zxvf bedtools-2.26.0.tar.gz

cd bedtools2

make

截图几个基因的IGV可视化结构

批量截图:TP53,KRAS,EGFR

grep -w 'gene' gencode.v26lift37.annotation.gtf | grep -w 'TP53' | cut -f 1,4,5 >> gene.bed

grep -w 'gene' gencode.v26lift37.annotation.gtf | grep -w 'KRAS' | cut -f 1,4,5 >> gene.bed

grep -w 'gene' gencode.v26lift37.annotation.gtf | grep -w 'EGFR' | cut -f 1,4,5 >> gene.bed

~/biosoft/bedtools2/bin/bedtools igv -i gene.bed > Bach_sanpshot.txt

grep是一个多用途的文本搜索工具,linux中使用非常频繁,并且使用很灵活,可以是变量,也可以是字符串。最基本的用法有以下两种:

1.搜索内容中无空格,可以直接执行grep命令,比如:grep pass a.txt,表示在a.txt文件中搜索pass所在的行

2.如果搜索内容中有空格,则需要使用单引号或者双引号把搜索内容引起来,比如:grep "hello all" a.txt或者grep 'hello all' a.txt,如果不加单双引号,则提示错误,无法识别,因为不加引号,直接grep hello all a.txt,表示在all和a.txt中搜索hello,这肯定是不对的

grep -w option file:精确搜索,可以说准确性搜索,比如:grep -w b* a.txt:此命令执行时,*不会默认为任何字符,只表示字面意思,就是一个*字符

管道命令操作符:”|”,它仅能处理经由前面一个指令传出的正确输出信息,也就是 standard output 的信息,对于 stdandard error 信息没有直接处理能力。然后,传递给下一个命令,作为标准的输入 standard input

cut 命令从文件的每一行剪切字节、字符和字段并将这些字节、字符和字段写至标准输出。如果不指定 File 参数,cut 命令将读取标准输入。必须指定 -b、-c 或 -f 标志之一。使用 -f 选项提取指定字段

下载ENSEMBL,NCBI的gtf

axel ftp://ftp.ensembl.org/pub/grch37/release-89/gtf/homo_sapiens/Homo_sapiens.GRCh37.87.gtf.gz

axel ftp://ftp.ensembl.org/pub/grch37/release-89/gtf/homo_sapiens/Homo_sapiens.GRCh37.87.chr.gtf.gz

axel ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/ANNOTATION_RELEASE.105/GFF/ref_GRCh37.p13_top_level.gff3.gz

axel ftp://ftp.ncbi.nlm.nih.gov/genomes/Homo_sapiens/ARCHIVE/ANNOTATION_RELEASE.105/GFF/ref_GRCh37.p13_scaffolds.gff3.gz

linux基因组文件,转录组入门(四):了解参考基因组及基因注释相关推荐

  1. linux基因组文件,科学网-NGS基础 - 参考基因组和基因注释文件-陈同的博文

    NGS基础 - 参考基因组和基因注释文件 同步滚动:关 参考基因组和基因注释文件获取 通常测序生成的reads要与参考基因组或参考转录组进行比对,或Pseudo-alignment.所以首先需要获取参 ...

  2. 玩转基因组浏览器之自定义IGV的参考基因组

    欢迎关注"生信修炼手册"! IGV软件内置了很多的参考基因组,全部放在亚马逊的云服务器上,完整的参考基因组列表见如下链接 http://software.broadinstitut ...

  3. linux转录组kegg注释,转录组入门(8):差异基因结果注释

    作业要求 我们统一选择p<0.05而且abs(log2FC)大于1的基因为显著差异表达基因集,对这个基因集用R包做KEGG/GO超几何分布检验分析. 然后把表达矩阵和分组信息分别作出cls和gc ...

  4. 如何判断基因组的重复区域_人类参考基因组GRCh37 VS GRCh38

    人类基因组包括22条常染色体(1-22),2条性染色体(X,Y)和线粒体DNA(mtDNA).高通量测序的reads比对至参考基因组是后续数据分析的基础.因此,参考基因组的质量是至关重要的.目前,广泛 ...

  5. 【Unix/Linux】文件系统介绍 入门

    文件系统是一个操作系统最重要的部分之一.下文以Linux为例介绍以下Unix操作系统的文件系统. Unix文件系统介绍 Unix中的文件类型 目录详述 重要的目录 主目录和工作目录.绝对路径名和相对路 ...

  6. Linux清理文件内容的四种方式

    原文:https://www.cnblogs.com/zqifa/p/linux-vim-4.html linux系统中清空文件内容的三种方法1.使用vi/vim命令打开文件后,输入"%d& ...

  7. NGS基础 - 参考基因组和基因注释文件

    参考基因组和基因注释文件获取 通常测序生成的reads要与参考基因组或参考转录组进行比对,或Pseudo-alignment.所以首先需要获取参考基因组和参考转录组信息. Ensembl(http:/ ...

  8. 关于人类参考基因组及注释文件,一篇就够了

    最近随着课题进展拿到二代测序数据,想要在学校通过VPN连接之前工作单位时的服务器传输数据进行生信分析,传输成功的可能性几乎为零,借着这个原由,也下了决心开始启用现在实验室给我分配的的服务器账号,意味着 ...

  9. 《 Linux的安装和入门 》

    < Linux的安装和入门一 > 一.安装前的准备工作 如果你有WIN98系统,想装Linux,就注意了,你硬盘里的有用数据就要先备份,以防不测,令硬盘数据全部丢失了,如果熟悉了也没那么可 ...

最新文章

  1. apache httpd server安装的一个问题
  2. SNMP 协议 OID的使用
  3. 关于java继承中父类方法可见性探讨
  4. 六款小巧的HTTP Server
  5. 各个行业纷纷瞅准了这块大蛋糕
  6. java 类型推理_java 11 局部变量类型推断
  7. eclipse导入工程报错解决
  8. 用户自定义属性表结构设计_属性类型定制及其妙用
  9. 把list清空和赋值null对内存释放的区别
  10. Exception in thread “main“ java.sql.SQLException: The server time zone value
  11. [转]mysql delete 使用别名 语法
  12. mac/linux终端光标的快捷键操作
  13. 设置程序在Windows开机后自动运行的方式
  14. NVIDIA ShadowPlay、Record、Highlights的区别
  15. MediaPipe基础(5)Pose(姿势)
  16. unity添加android res资源,Unity3d常用两种加载资源方案:Resources.Load和AssetBundle
  17. 种草拔草.......人生就是酱紫
  18. python py如何变成exe_python如何将py变成exe文件
  19. 眼球追踪技术给各大科技巨头带来的四大应用前景
  20. 北京航班延误_预测航班延误

热门文章

  1. 清茶一杯-手机、电子阅读器和生活
  2. gitbook结合github写书及发布到gitbook上
  3. 转:Provisioning profile XXXX can't be found
  4. 次世代贴图材质制作的提示和秘籍
  5. Prompt-Learning for Fine-Grained Entity Typing
  6. 拼多多数据分析一二三面面经(HR面后综排挂)
  7. 番茄钟怎么调_番茄时钟响铃提醒设置方法
  8. LIEF:修改安卓.so后报 dlopen failed:has invalid shdr offset/size
  9. python里2f是啥意思_Python 字符串前面加u,r,b,f的含义
  10. php画爱心,在WEB里绘制爱心