前言

今天学习的是Biostar 课程3,4

做生物信息需要频繁使用NCBI数据库,当数据增多的时候,可以使用ncbi自带的工具软件:blast+,Edirect,SRA toolkit。
blast+是NCBI最重要的功能,用来找同源基因序列。
Edirect包含一大堆工具,主要用来检索NCBI各个数据库的内容。
SRA toolkit主要用来处理NCBI SRA数据库的数据,包括数据下载以及格式转换等。

Biostar 课程3,4里介绍了Entrez Direct和SRA toolkit的安装和使用。

Biostar 课程3

Entrez Direct,简称EDirect,这个工具可以帮助查找、检索和处理Pubmed数据。

两个参考文档
EDirect官方文档
Entrez介绍 这是一个比较全的中文的关于Edirect安装和功能的介绍。

EDirect安装

我在按照Biostar程里面的指导安装时,遇到一个问题,核心工具xtract(把XML格式的数据转换成纯文本格式)没有安装好。我按照下面的提示,在EDirect文件夹里执行这些命令之后,就正常了。

EDirect学习

安装好之后练习了einfo,esearch,efetch等命令。总的来说,就是学会怎么在特定数据库中查找关键信息并下载需要的内容。

Biostar 课程4

SRA toolkit安装

这节课中是要下载SRA toolkit,没有意外的是,这个过程中又出现bug了。
我按照指示安装好了SRA toolkit 2.8.2版本,但是用prefetch下载文件时失败了,屏幕报错如下。看到这些报错信息时不要慌,重要的是要找出关键信息。

尝试1
我首先把第一句话从“prefetch 2.8.2 sys”到“X509”这些文字都作为关键词去搜索解决方法,结果并没有找到什么有用的信息。
尝试2
我看了一下sra的文档,文档里说,可以直接使用“fastq-dump”命令来下载并拆解文件,从而避免使用prefetch。我尝试之后,还是报了一样的错误。所以问题不在于prefetch命令。
尝试3
仔细分析报错中的关键词,我认为最重要的还是9984,这个错误代码可以帮助区分我遇到的这种问题和网络上的其他信息,因此我使用“fastqdump 9984”来搜索,立刻发现有两篇帖子中都说,把SRA-toolkit更新到最新版本,这个问题就可以解决了。我尝试之后,果然不再报错。

因此,遇到问题之后,需要冷静下来仔细辨别关键信息,再去搜索,这比完整的复制粘贴更有效率。

SRA toolkit使用

这个工具可以进行批量下载和格式转换。
流程:首先使用EDirect里的工具esearch和efetch来查询和获取所有需要下载的文件序号,再利用SRA toolkit中的prefetch进行批量下载,用fastq-dump来进行批量格式转换和文件分割。

生信学习—Biostar课程3、4安装使用Entrez Direct和SRA toolkit相关推荐

  1. 送书 | 知乎阅读300w+的生信学习指南(更新版)

    先送书 在上周的留言送书活动中,恭喜下面这位读者获得书籍"Oracle高性能系统架构实战大全",请及时与生信宝典编辑(shengxinbaodian)联系. 2020过去三分之一了 ...

  2. 知乎阅读三百万的生信学习指南

    作为本科学生物,硕博转行生物信息的人,经常会被人问起,为啥学习生物信息了呢?这背后通常会带着一些困惑,生物信息分析好不好学? 生信的作用越来越大,想学的人越来越多,不管是为了以后发展,还是为了解决眼下 ...

  3. 生信学习——R语言练习题-初级(附详细答案解读)

    题目目录 1. 打开 Rstudio 告诉我它的工作目录. 2. 新建6个向量,基于不同的数据类型.(重点是字符串,数值,逻辑值) 3. 告诉我在你打开的rstudio里面 getwd() 代码运行后 ...

  4. 生信学习——R语言学习总结

    写在前面--经过了四十天断断续续的学习,算是对R语言有了初步的了解.其实使用R语言,无非就是对数据进行处理分析,然后把结果可视化.但是数据的千变万化,还有数以万计的函数.数据格式,使得这个过程变得很复 ...

  5. 生信学习学的是什么?常识!

    生物信息学学的是什么?常识! 学习的是基本生物学概念的常识! 学习的是计算机基础的常识! 学习的是图形解读的常识! 学习的是统计的常识! 拦住生信学习脚步的不是技术有多难,而是有些常识你还不知道. 这 ...

  6. 计算机通路的基本概念,【生信学习笔记】KEGG分子通路数据库

    原标题:[生信学习笔记]KEGG分子通路数据库 首先什么是一个通路? 通路可以定义为a series of actions among molecules in a cell,细胞中的分子的一系列的行 ...

  7. 生信学习之通路富集一(GO分析)

    生信学习之通路富集一(GO分析): 富集分析的理论知识 富集分析(Enrichment Analysis)是一种广泛应用于生物信息学研究的统计方法,主要用于检验一个基因集合中某些功能或特征的富集程度. ...

  8. 【生信学习第一天】DEseq2 差异表达基因计算

    一.介绍 分析来自 RNA-seq 的计数数据的一项基本任务是检测差异表达的基因.计数数据以表格的形式呈现,其中报告了每个样本已分配给每个基因的序列片段的数量.其他检测类型也有类似的数据,包括比较 C ...

  9. web平台安装程序_Galaxy 生信平台(一):安装

    Galaxy Project(https://galaxyproject.org/)是在云计算背景下诞生的一个生物信息学可视化分析开源项目. 该项目由美国国家科学基金会(NSF).美国国家人类基因组研 ...

  10. 推荐我们在B站免费的生信入门基础课程|测序原理,GO/GSEA/WGCNA

    点击**阅读原文**直达! 经典升级 | 第 17 期高级转录组分析和R数据可视化火热报名中!!! Nature重磅综述 |关于RNA-seq,你想知道的都在这 RNA-seq最强综述名词解释& ...

最新文章

  1. 微软老毛病还没改:Win10版本多达七个 咋选?
  2. [luogu3676]小清新数据结构题
  3. Spring Boot 2.x(十五):Dubbo + Zookeeper + Dubbo Admin
  4. JavaWeb中的Session、SessionListener、在线人数统计
  5. C/C++编程笔记:C/C++ 的编译和链接
  6. leetcode题解72-编辑距离
  7. pytorch学习笔记(三十七):Adam
  8. docker php安装gd扩展_php安装redis扩展
  9. Zabbix 系统监控(三)VMware 虚拟平台监控、邮件告警、企业微信告警配置
  10. 3.Magento的布局(Layout),块(Block)和模板(Template)
  11. 前端地图之色斑图渲染(直接canvas叠加渲染)(三)——以leaflet为例
  12. Paul Graham:未来的互联网创业(上)
  13. matlab函数power,Matlab中Powergui介绍.pdf
  14. 硬盘格式转换:MBR转换到GPT怎么转?
  15. java蓝桥杯数字黑洞_蓝桥杯题目练习之数字黑洞
  16. ONF(Open Networking Foundation)
  17. 华大单片机HC32L130X
  18. 使用中文分词工具切分ArcGIS在线文档
  19. php 批量删除注释,PHP-php做一个程序高效去除注释的方法
  20. 音频识别(Audio Classification)学习笔记

热门文章

  1. js文本框设置必填项_显示隐藏js字段 设置必填非必填
  2. SAT写作例子之Frank Lloyd Wright
  3. LabVIEW编程运动控制PID入门
  4. RdViewer(远程控制电脑屏幕软件)官方中文版V3.3.1 | rd远程工具下载
  5. C语言:二进制转换十进制
  6. 写给 羊 哥的一篇博客
  7. 全球最大照片网站 Unsplash 开放图片检索数据集
  8. Tcp网络通信中各个状态的含义
  9. python实现白色背景转为透明背景
  10. linux下dft计算标准函数,FFT/DFT计算方法