第一步、找到目的文件下载:

1、登录NCBI网站(https://ftp.ncbi.nlm.nih.gov或者https://www.ncbi.nlm.nih.gov)

##FTP:文件传输协议FTP,它支持不同种类主机系统之间的文件传输

##WWW:万维网www是一个大规模的、联机式的信息储藏所/资料空间,是无数个网络站点和网页的集合

##HTTP:超文本传输协议

2、按目录(genomes/all/GCA/000/817/325/GCA_000817325.1_ASM81732v1)找到目的基因及其注释

将其网址复制到Linux下:

wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/817/325/GCA_000817325.1_ASM81732v1/GCA_000817325.1_ASM81732v1_genomic.gff.gz

##wget:wget支持HTTP,HTTPS和FTP协议

##可以使用参数-O来指定一个文件名:

##wget -O wordpress.zip http://www.minjieren.com/download.aspx?id=1080

##使用wget –limit -rate限速下载:

##wget --limit-rate=300k http://www.minjieren.com/wordpress-3.1-zh_CN.zip

##使用wget -b后台下载:

##wget -b http://www.minjieren.com/wordpress-3.1-zh_CN.zip

第二步、解压该文件查看:

1、ls查看当前目录下是否下载该文件:

##命令“ll”是“ls -l"的别名,"ll"和“ls -l”的功能是一样的。

-a 列出目录下的所有文件,包括以 . 开头的隐含文件。

-b 把文件名中不可输出的字符用反斜杠加字符编号(就象在C语言里一样)的形式列出。

ls -l是显示当前目录下文件详细信息,ls是显示当前目录下文件。
2、解压该文件:

gunzip GCA_000817325.1_ASM81732v1_genomic.gff.gz
##.gz文件,所以使用gunzip命令解压

##   .gz
  解压1:gunzip FileName.gz
  解压2:gzip -d FileName.gz
  压缩:gzip FileName

.tar.gz 和 .tgz
  解压:tar zxvf FileName.tar.gz
  压缩:tar zcvf FileName.tar.gz DirName

.zip
  解压:unzip FileName.zip
  压缩:zip FileName.zip DirName

.tar
  解包: tar xvf FileName.tar
  打包:tar cvf FileName.tar DirName           (详见“压缩详解”)

第三步、处理统计信息:

命令grep,文本搜索(正则匹配)

grep 完整语法结构

grep   [options]   [pattern]   file命令    参数         匹配模式      文件数据

grep常用的参数总结

参数选项 解释说明
-V 排除匹配结果
-n 显示匹配行与行号
-i 不区分大小写
-c 只统计匹配行数
-E 使用egrep命令
-o 只输出匹配内容
-w 只输出过滤的单词
-F 不适用正则表达式
-l 列出包含匹配项的文件名
-L 列出不包含匹配项的文件名

^              用于模式最左侧,如 “^yu” 即匹配以yu开头的单词
$              用于模式最右侧,如 “yu$” 即匹配以yu结尾的单词
^$             组合符,表示空行
.               匹配任意一个且只有一个字符,不能匹配空行
|               转义字符    
*              重匹配前一个字符连续出现0次或1次以上
.*             匹配任意字符
^.*           组合符,匹配任意多个字符开头的内容
.*$          组合符,匹配任意多个字符结尾的内容
[abc]       匹配 [] 内集合中的任意一个字符,a或b或c,也可以写成 [ac]
[^abc]     匹配除了 ^后面的任意一个字符,a或b或c,[]内 ^ 表示取反操作

1、less查看文件GCA_000817325.1_ASM81732v1_genomic.gff ,如图:

grep '^CP006471.1' GCA_000817325.1_ASM81732v1_genomic.gff |awk -v FS="\t" {if($5<10000){print $_}}'|sort|uniq|wc -l
##要捕捉的基因信息是从左第一个开始,所以使用^(从每行开头匹配)
##awk的用法:-v(定义或者修改内部变量)FS(字段分隔符)OFS(输出字段分隔符)让awk以制表符为分隔符读取第五列信息
##sort排序,uniq合并相同项,wc用于计算字数,-l计算行数,-w计算字数

结果为9行:

易错为10行,原因:未加^,读取了另外的一行(包含CP006471.1,但不在行首)

下载Synechococcus elongatus UTEX 2973(accession no.为GCA_000817325.1 )的基因组注释文件,统计其中染色体序列(CP006471.1)前10相关推荐

  1. 如何下载Homo_sapiens.GRCh38.100.gtf.gz和Homo_sapiens.GRCh37.87.gtf.gz参考基因组注释文件

    1.先去ENSEMBL官网:http://asia.ensembl.org/index.html,点击红框框 2.继续点击红框框 3.没有我们想要的版本了 4.改变网址: http://ftp.ens ...

  2. 如何下载人类的参考基因组和注释文件

    参考基因组概况 参考基因组下载的网站主要有3个NCBI,Ensembl,UCSC,一般参考基因组的.gz压缩文件文件大小为900M以上不超过950M,解压后大于等于3G. 基因组的主要版本对应关系 参 ...

  3. python urllib3离线安装_全球Python库下载前10名

    Python的简洁性,不仅仅在于其语法简单,还有各种python库函数的支持,为大家节省了大量的时间和精力,所以网上有人戏称python的编程者为调包侠.但是你知道全球最受欢迎的python库嘛?今天 ...

  4. FileZilla的下载与安装以及简单使用(Ubuntu和Windows之间互传文件需要下载——客户端)

    参考:FileZilla的下载与安装以及简单使用(有图解超简单) 作者:一只青木呀 发布时间: 2020-08-04 13:20:59 网址:https://blog.csdn.net/weixin_ ...

  5. deb下载路径、apt下载路径(deb路径、apt路径)、自定义打包deb文件、安装deb文件、解压deb文件

    只下载不安装deb apt-get --download-only install freesweep 默认下载路径:/var/cache/apt/archive 解压deb文件  dpkg -x f ...

  6. python需要下载哪些软件-80%的人都不知道,全球Python库下载前10名

    题图漫威宇宙英雄 Python的简洁性,不仅仅在于其语法简单,还有各种python库函数的支持,为大家节省了大量的时间和精力,所以网上有人戏称python的编程者为调包侠.但是你知道全球最受欢迎的py ...

  7. Scrapy抓站:大批量下载360指定专题下的照片并保存到sql和本地文件夹下

    目标网站:http://images.so.com/ (摄影专栏) Scrapy抓站:360照片 1. 新建项目 2. 新建Spider 3. 分析目标网站的种种 4. 构造请求 5. 定义提取信息的 ...

  8. img图片的预览和下载(iframe基本使用),图片转file格式,file文件转base64格式,base64的编码和解码

    目录 一.根据后端接口返回的URL下载和预览图片 1.调用下载图片函数实现下载图片 2.弹出另一个页面,实现预览图片. 3.不弹出另一个页面,实现下载/预览图片(iframe方式) 4.动态创建ifr ...

  9. 超链接标签(外部链接、内部链接、空链接、下载链接、网页元素链接、锚点链接)、注释

    超链接标签 在HTML中,<a>标签用于定义超链接,作用是从一个页面链接到另一个页面 1.链接的语法格式 <a href="跳转目标" target=" ...

最新文章

  1. Android -- 贝塞尔使圆渐变为桃心
  2. Linux下JNI实现
  3. 生产者消费者模式 php 【转】
  4. WEB应用之网页数据分析工具
  5. step3 . day6数据结构之非线性表 满二叉树和不完全二叉树
  6. Mayor's posters POJ - 2528 (离散化+线段树)
  7. qq空间说说服务器维护,如何解决QQ空间说说发表不了
  8. 阿里确认研发车载小程序 这些功能太方便了!
  9. markdown文档中利用Mathpix Snip软件插入公式
  10. Linux学习总结(九)—— CentOS常用软件安装:中文输入法、Chrome
  11. 孙鑫VC学习笔记:第十一讲 (二) 图形的保存与重绘方法一
  12. Office 365中的密码过期策略
  13. 企业微信接口下载微盘文件
  14. 服务器虚拟化有什么好处
  15. cba比赛比分预测_昨日预测CBA一红一黑,今日继续给大家带来CBA全部比赛4场
  16. syntactic 与semantic 的区别
  17. TensorFlow神经网络的激活函数
  18. springboot注解实现自动插入创建时间和更新时间到数据库
  19. python数据库实体_python---使用get方法访问‘数据库’实体
  20. 怎样记账简单明白,实用记账技巧

热门文章

  1. 究竟什么是可重入锁?
  2. Linux一句话将文件夹的用户用户组设置为wps:wps
  3. hangfire 介绍(一)
  4. org.w3c.dom。 XML解析 练习
  5. 为什么正常单据记账没有数据_正常单据记账怎么没有记录U8存货核算?正常 – 手机爱问...
  6. 期货基本面分析:,马来西亚10月1-10日棕榈油出口量较上月同期下降17.3%,但对中国出口创一年新高
  7. 【解决问题】FlutterBlue在安卓手机上无法连接蓝牙设备,扫描缓慢
  8. 安卓自动滑屏脚本_自动滑屏软件下载-自动滑屏 安卓版v3.1.0-PC6安卓网
  9. Page Cache 与 Kafka 那些事儿
  10. Android车辆运动轨迹大数据采集最佳实践