前期学习了通过文章获取了RNA测序数据,具体参考往期文献RNA-seq复现第1期——文献中mRNA测序数据的获取。值得注意的是,下载测序数据通常是.sra格式文件(如下SRR3589956 - SRR3589962),在做正式分析时用到的为.fastq格式文件,因此正式分析前需将.sra文件转换为.fastq格式文件。

前期疑问:

上一期学习利用prefetch函数(sratoolkit)下载sra数据时,代码提示"pleade run :vdb-config --interactive"。解决方法很简单,按照提示输入命令vdb-config --interactive进行软件配置即可。

输入命令之后界面弹出以下窗口,按提示X即可退出界面,软件即可正常使用

正文

今日内容:

1).sra格式文件转换为.fastq格式文件(fastq-dump 或 fasterq-dump);

2)参考基因组及注释索引文件获取或自建(hisat2-build);


1).sra格式文件转换为.fastq格式文件

运用主流.sra格式文件处理工具sratoolkit(fastq-dump实现sra数据向fastq转换,可通过fastq-dump -h了解函数相关参数及用法。

简单来说,常用的参数有两类:一类压缩命令--gzip ,一类结果输出命令--split-files & --split-3

--gzip参数使得输出gz格式文件(.fastq.gz),可大大节省存储空间,由于现在多数主流生信软件均支持.gz文件输入,不会给后续比对等分析造成影响。

--split参数现在主要分为2类:

  • --split-files: 将双端测序分为两份,以_1_2区分,但是对于一方有而一方没有的reads直接丢弃;

  • --split-3 : 将双端测序分为两份,以_1_2区分。但对于一方有而一方没有的reads会单独放在一个文件夹。

默认情况下fastq-dump不对reads进行拆分, 当测序方式为双端测序时,则需添加--split-3参数。

代码部分

ls ./output/ ##output路径下的sra文件序列

less ./output/SRR3589957 #查看文件详细信息

*SRR系列文件为.sra格式文件,内含有2个文件,可知该mRNA测序文件属于双端测序。

##转换单个sra文件时,fastq-dump --gzip --split-3 SRR3589957 ##转换多个序列时(SRR3589956~SRR3589962),可借助循环语句for id in SRR35899{56..62};do fastq-dump --gzip --split-3  ${id}done

最终得到如下的结果,

sra文件成功转换为fastq文件,且属于典型的双端测序数据~

2)参考基因组及注释索引文件获取或自建

由于现代测序技术多是通过将一段长序列打断成多个短序列完成测序(移步参考基因组与基因注释)。参考基因组,即用于序列比对的参考序列,它可以帮助我们快速定位这些被打断的序列原有位置。

此系列文章数据SRR3589956~SRR3589962为人类细胞RNA测序数据,因此需要人类参考基因组及基因注释信息(以hg19gencode.v41lift37.basic.annotation.gtf为例)。

方法 1:手动下载

a.在  UCSC 数据库下载 hg19 参考基因组;

文献RNA-seq复现第2期——sra数据转换、参考基因组及注释信息的准备相关推荐

  1. 一文掌握RNA seq,RNA seq课程大汇总

    RNA测序(RNA-seq)在过往十年里逐渐成为全转录组水平分析差异基因表达和研究mRNA差异剪接必不可少的工具.RNA-seq帮助大家对RNA生物学的理解会越来越全面:从转录本在何时何地转录到RNA ...

  2. 【悟空云课堂】第二十六期:通过错误消息导致的信息暴露(CWE-209:Generation of Error Message Containing Sensitive Information)

    关注公众号"中科天齐软件安全中心"(id:woocoom),一起涨知识! 该栏目为中科天齐全新规划的悟空云课堂,每周五下午18:00准时上线,旨在科普软件安全相关知识,助力企业有效 ...

  3. 基于偏微分方程与维纳滤波的混合去噪方法 参考网络文献并且给与复现

    提出一种小波变换与偏微分方程(PDE)结合的混合图像去噪方法,通过窗口改进的维纳滤波处理,运用偏微分综合模型进行二次 滤波,其中的偏微分综合模型由 2 个权重函数将 PM 方程.方向扩散方程和 LLT ...

  4. python 学术文献下载_PyHubWeekly | 第二十六期:一款开源免费的学术论文下载工具...

    专注Python.AI.大数据 @七步编程 前言 PyHubWeekly每周定期更新,精选GitHub上优质的Python项目/小工具. 我把PyHubWeekly托管到了Github,感兴趣的可以搜 ...

  5. linux 基因组数据下载,linux下用Aspera从NCBI上下载SRA格式宏基因组数据

    ascp  -i /your-path-to/.aspera/connect/etc/asperaweb_id_dsa.putty --mode recv --host ftp-private.ncb ...

  6. 第二期预告|中国工程院院刊:信息与电子工程领域青年学术前沿论坛

    为了促进信息领域学术交叉研究,构筑学术思想交流高地,在中国工程院信息与电子工程学部指导下,中国工程院院刊<Engineering>.<Frontiers of Information ...

  7. 用匠心创造可期未来!与广州流辰信息科技一起携手创佳绩!

    当今社会世界经济一体化趋势逐渐明朗化,竞争也愈发激烈,同时,这也是一个机遇与挑战并存的开放社会.在机遇面前,作为企业,要紧紧抓住机遇,顺势而为,创造辉煌佳绩:在挑战面前,企业也要坚守初心,坚定信心,不 ...

  8. 铁道部关于火车票电话订票、网络购票及预售期调整的最新通知(注释版)

    为什么80%的码农都做不了架构师?>>>    (订票就像打仗 战斗吧~ 转载自 http://shuaigelingfei.iteye.com/blog/1758368) 铁路部门 ...

  9. 【转】铁道部关于火车票电话订票、网络购票及预售期调整的最新通知(注释版)...

    为什么80%的码农都做不了架构师?>>>    (订票就像打仗 战斗吧~ 转载自 http://shuaigelingfei.iteye.com/blog/1758368) 铁路部门 ...

最新文章

  1. springMVC swagger2
  2. java 十二星座数据下载_十二星座
  3. 【Android 逆向】Android 进程注入工具开发 ( 远程进程注入动态库文件操作 | 注入动态库 加载 业务动态库 | 业务动态库启动 | pthread_create 线程开发 )
  4. Strut2的属性驱动,模型驱动的理解
  5. gh0st源码分析与远控的编写(四)
  6. Android 获取当前的时间。年月日,时分秒,星期几
  7. echarts 浏览器兼容性_谷歌浏览器不再使用quot;黑名单quot; / iPhone可能放弃lightning充电口//微软中国被列为被执行人/QQ 音乐上线...
  8. 重磅!尤雨溪公布 Vue 3.0 开发路线
  9. gem install 和 bundle 区别
  10. 漫步者蓝牙只有一边有声音_2019年上半年最具“诚意”的真无线劲挂蓝牙耳机新品...
  11. 哪些蔬菜基本不会使用农药?
  12. varnish与squid的比较
  13. matlab network_无所不能的 MATLAB
  14. 机器学习数据集划分留出法,留一法,交叉法,自助法
  15. python的socket
  16. 计算机技术员自我介绍,技术员的自我介绍范文
  17. 小彩蛋:springboot banner 在线生成
  18. 说下类加载器与类加载?加载的信息放在哪个区域?
  19. 超详细Office Online Server部署
  20. 如何通过python判断闰年?

热门文章

  1. ChatGPT常见错误解决和封号情形说明
  2. Java解析yaml文件
  3. 在win7中要修改计算机的虚拟内存,win7虚拟内存不能改怎么办|win7虚拟内存不能改的解决方法...
  4. 五一户外装备品牌排行榜,列举几款性能高的户外装备
  5. 深度学习之二手手机价格预测
  6. 前两天申元庆与黄启功在湖边聊天,带给了业内四大信号
  7. visual studio 必装插件,码c++等必备
  8. 货拉拉sql互联网大厂面试真题在线练习
  9. java入门学习(1)—— 接收键盘输入的值
  10. uniapp获取小程序appid