说明:此文章因为从同事那里获取了响应文件,因此并未实际操作完成,为了帮助有需要的网友学习,故此把未完成的草稿发出来,提供一些自己的思路。

主要参考文章:
基因组各种版本对应关系
测试数据及参考基因组的准备
RNA-seq(4):下载参考基因组及基因注释
人类基因组hg19、hg38构建bwa索引

在网上查了两天怎么下载参考基因组的方法,写了一天多的记录方法,回头才搞明白:UCSC网站已经提供了现成的参考基因组序列的打包文件,参考基因组对于生信老白果然也是个坑啊,调整一下记录给大家参考,省得以后的小白再入坑。

1. 下载参考基因组的原因

我们测序得到的是几百bp的短read(具体长短还有差异?需要进一步学习), 相当于把拼图打散了给你。如果没有参考基因组,从头(de novo)组装等于是重走人类基因组计划的老路,也就是打散了拼图,却不告诉你原来是什么样子,那么任务将会及其艰巨。目前人类基因组已经组装好了,我们只需要把我们测得序列回贴(mapping)回去,毕竟人与人之间的差距只有不到1%差异, 允许mismatch就行,因此首先要去下载现成的基因组,用来做参考。

2. 不同基因组版本

人类基因组是测序后保存的序列信息,储存的是fasta序列。目前国际通用的人类参考基因组版本有三种,分别对应着三个国际生物信息学数据库资源收集存储单位,即NCBIUCSCENSEMBL各自发布的基因组信息。一些比较小众的参考基因组存储的序列不一样,比如BGI做的炎黄基因组、沃森(Watson)的基因组、韩国人做的基因组等。ENSEMBL的版本特别复杂,很容易搞混,最新两版分别对应几个release;NCBI看起来很简单,就GRCh36,37,38,但据说水很深,很多版本的注释在更新,基因组序列一般不会更新,不了解具体情况;最简单的是UCSC的版本,常用的是hg19(2009年),最新的是hg38(2013年),自己选择的UCSC两个版本进行操作学习。不同单位发布的基因组各种版本对应关系为:

     NCBI  (UCSC): ENSEMBLGRCh36 (hg18): ENSEMBL release_52.GRCh37 (hg19): ENSEMBL release_59/61/64/68/69/75.GRCh38 (hg38): ENSEMBL release_76/77/78/80/81/82.

3. UCSC官网

官网进入下载页面的方法:UCSC>dowloads->Genome Data>Human
-Genome sequence files and select annotations (2bit, GTF, GC-content, etc): 基因组信息文件及各注释文件;
-Sequence data by chromosome:单个染色体序列信息;
-Annotations:注释文件。

因此对应的下载思路有两种:

-下载全基因组信息(chromFa.tar.gz)>解压缩(tar -zxvf)>重新写成单个全基因组序列(hg##.fa)
-下载单个染色体信息(ch*.fa.gz)>解压缩(tar -zxvf)>写成单个全基因组序列(hg##.fa)

This directory contains the Feb. 2009 GRCh37 assembly of the human genome,
in various formats and some related files. The UCSC release name is “hg19”.
This directory also includes versions of these files for a patch releases after
2009, “hg19.p13.plusMT”. The subdirectory “genes/” contains selected gene
transcript sets in GFF format.

Most users looking at this directory want to download the file latest/hg19.fa.gz
If you need a file for a genome aligner, like BWA, bowtie2 or hisat2 or similar,
please read the section “Analysis Set” below and look at the directory analysisSet/.

The main chromosome sequences of hg19.fa.gz are taken from and identical to the assembly
as released by NCBI, and called GRCh37 Genome Reference Consortium Human
Reference 37 (GCA_000001405.1).

An expanded version of hg19 is also available that includes new sequences
from GRC patch release GRCh37.p13 (GCA_000001405.14) plus the revised
Cambridge Reference Sequence (rCRS) mitochondrial sequence. See the section
“Patches” below.

GRCh37 was produced and is updated by the Genome Reference Consortium:
https://www.ncbi.nlm.nih.gov/grc

Hisat2官网上人类基因组索引的下载

 xiaomotong@DESKTOP-H0I11L9:~$ mkdir test && cd testxiaomotong@DESKTOP-H0I11L9:~/test$ wget ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/grch38.tar.gz
--2020-05-29 16:02:23--  ftp://ftp.ccb.jhu.edu/pub/infphilo/hisat2/data/grch38.tar.gz=> ‘grch38.tar.gz’
Resolving ftp.ccb.jhu.edu (ftp.ccb.jhu.edu)... 128.220.174.63
Connecting to ftp.ccb.jhu.edu (ftp.ccb.jhu.edu)|128.220.174.63|:21... connected.
Logging in as anonymous ... Logged in!
==> SYST ... done.    ==> PWD ... done.
==> TYPE I ... done.  ==> CWD (1) /pub/infphilo/hisat2/data ... done.
==> SIZE grch38.tar.gz ... 4210306865
==> PASV ... done.    ==> RETR grch38.tar.gz ... done.
Length: 4210306865 (3.9G) (unauthoritative)grch38.tar.gz                              17%[==============>                                                                       ] 716.95M  1.48MB/s    eta 23m 5s

RNA-seq流程学习笔记(5)-Linux系统下载UCSC人类基因组和基因注释文件(未完成)相关推荐

  1. Linux学习笔记之——Linux系统内部相关介绍

    Linux学习笔记之--Linux系统内部相关介绍 摘要:主要记录一些比较有用的能够帮助理解和使用Linux的知识.比如一些相关概念.没兴趣的看看就好.知道有这么个东西.注意事项.和一些常用目录的作用 ...

  2. 【黑马程序员新版Linux学习笔记】Linux系统实用操作命令——操作演示

    [黑马程序员新版Linux学习笔记]Linux 零基础快速入门: (一)Linux基本命令--操作演示 (二)Linux用户和权限 -- 操作演示 (三)Linux 小技巧快捷键 (四)Linux系统 ...

  3. 【学习笔记】Linux 系统编程入门

    Linux 系统编程入门 静态库与动态库 静态库命名规则 静态库的制作 静态库使用 动态库制作 动态库使用 加载动态库 静态库的优缺点 动态库的优缺点 Makefile 文件命名 工作原理 变量 模式 ...

  4. 嵌入式linux学习笔记---关于linux系统的时间设置的一些理解、linux系统设置时间的方法

    以下是一份batch 脚本可以用于给嵌入式设备设置同步时间 大概的执行过程就是 ① 从本地的电脑获得当前的时间 ② 给嵌入式设备设置时区 ③ 给嵌入式设备设置时间 ④ 进行时间同步,将时间写入到rtc ...

  5. RNA-seq流程学习笔记(15)-使用DESeq2进行差异基因分析

    参考文章: RNA-seq(7): DEseq2筛选差异表达基因并注释 转录组入门7-用DESeq2进行差异表达分析 Analyzing RNA-seq data with DESeq2 RNA-se ...

  6. 【Linux学习笔记】Linux服务器:配置与管理samba服务器

    Linux系列文章目录 一.[linux学习笔记]红帽Linux 7.8系统在虚拟机上的安装 二.[Linux学习笔记]Linux系统的基本操作 三.[Linux学习笔记]管理Linux操作系统:用户 ...

  7. Linux中常用的文件目录,Linux学习笔记2——Linux中常用文件目录操作命令

    ls 显示文件和目录列表 -l 列出文件的详细信息 -a 列出当前目录所有文件,包含隐藏文件 mkdir 创建目录 -p 父目录不存在情况下先生成父目录 cd 切换目录 touch 生成一个空文件 e ...

  8. RNA-seq流程学习笔记(7)-使用Hisat2进行序列比对

    参考文章: RNAseq(4)–Hisat2进行序列比对及Samtools格式转化 RNA-seq(5):序列比对:Hisat2 hisat2比对软件将reads比对到参考基因组 hisat2比对 R ...

  9. linux系统管理学习笔记之八---linux文件与目录的管理及权限

    linux系统管理学习笔记之八---linux文件与目录的管理及权限 2010-01-05 09:00:49 标签:权限 管理 文件目录 linx [推送到技术圈] 版权声明:原创作品,允许转载,转载 ...

  10. CHIP-seq流程学习笔记(7)-热图软件 deeptools

    参考文章: ChIP-seq操作记录 如何使用deeptools处理BAM数据 用deeptools绘制基因组位置的信息 高通量测序数据处理学习记录(四):DeepTools学习笔记 deepTool ...

最新文章

  1. 动软代码生成器教程——懒人有福了
  2. 【PHP7源码分析】PHP7到底有多快,基准测试与特性分析告诉你
  3. 关于MyEcplise中常见的问题和解决方案
  4. SQL Server2016 原生支持JSON
  5. 1.10 编程基础之简单排序_10 单词排序
  6. 剑指offer(C++)-JZ78:把二叉树打印成多行(数据结构-树)
  7. UiPath: Studio 快捷键
  8. 【目标跟踪】基于贝叶斯网络实现目标滤波跟踪附matlab代码
  9. eclipse中文版设置字体大小
  10. ddr3ddr4 lpddr4速率_LPDDR3内存就比DDR4差?是时候冷静一下了
  11. Unity编程软件介绍
  12. 最大网络流的多种解法(洛谷P3376 网络最大流 为例)
  13. 游戏英文词汇命名——备用
  14. Scala—— 18.映射Map
  15. 白巧脆皮奶香雪糕,一次成功
  16. Linux安装PHP:system libzip must be upgraded to version = 0.11
  17. 如何显示计算机语言栏,如何显示语言栏 显示语言栏简单步骤介绍
  18. 计算机技能培训 d,基于PC的医务人员CPR-D技能培训系统研发
  19. 汽车通信脉冲电子 100Base-T1 汽车|以太网共模扼流圈
  20. 58同城|TEG技术工程平台群-闪电面试专场内推(12月7日)

热门文章

  1. html5微场景制作,聊聊我用过的H5微场景制作工具
  2. java png图片转换成jpg_Java实现将png格式图片转换成jpg格式图片的方法【测试可用】...
  3. ios 请求头设置token_AFNetworking的请求头设置(token)
  4. 快递首富顺丰王卫的下一站:对抗阿里
  5. minimax算法和Alpha-Beta pruning实现英式跳棋
  6. Python 调用 kafka 构建完整实例分析与应用
  7. 2020 IJCAI 接受论文 list 分类排列(一)
  8. MD5摘要算法的几种破解方法!
  9. 苹果开发者账号注册-您在注册时提供的地址无效或者不完整
  10. 51单片机制作计算机1602显示,51单片机对LCD1602液晶显示器的控制