下载Synechococcus elongatus UTEX 2973(accession no.为GCA_000817325.1 )的基因组注释文件,统计其中染色体序列(CP006471.1)前10
第一步、找到目的文件下载:
1、登录NCBI网站(https://ftp.ncbi.nlm.nih.gov或者https://www.ncbi.nlm.nih.gov)
##FTP:文件传输协议FTP,它支持不同种类主机系统之间的文件传输
##WWW:万维网www是一个大规模的、联机式的信息储藏所/资料空间,是无数个网络站点和网页的集合
##HTTP:超文本传输协议
2、按目录(genomes/all/GCA/000/817/325/GCA_000817325.1_ASM81732v1)找到目的基因及其注释
将其网址复制到Linux下:
wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/817/325/GCA_000817325.1_ASM81732v1/GCA_000817325.1_ASM81732v1_genomic.gff.gz
##wget:wget支持HTTP,HTTPS和FTP协议
##可以使用参数-O来指定一个文件名:
##wget -O wordpress.zip http://www.minjieren.com/download.aspx?id=1080
##使用wget –limit -rate限速下载:
##wget --limit-rate=300k http://www.minjieren.com/wordpress-3.1-zh_CN.zip
##使用wget -b后台下载:
##wget -b http://www.minjieren.com/wordpress-3.1-zh_CN.zip
第二步、解压该文件查看:
1、ls查看当前目录下是否下载该文件:
##命令“ll”是“ls -l"的别名,"ll"和“ls -l”的功能是一样的。
-a 列出目录下的所有文件,包括以 . 开头的隐含文件。
-b 把文件名中不可输出的字符用反斜杠加字符编号(就象在C语言里一样)的形式列出。
ls -l是显示当前目录下文件详细信息,ls是显示当前目录下文件。
2、解压该文件:
gunzip GCA_000817325.1_ASM81732v1_genomic.gff.gz
##.gz文件,所以使用gunzip命令解压
## .gz
解压1:gunzip FileName.gz
解压2:gzip -d FileName.gz
压缩:gzip FileName
.tar.gz 和 .tgz
解压:tar zxvf FileName.tar.gz
压缩:tar zcvf FileName.tar.gz DirName
.zip
解压:unzip FileName.zip
压缩:zip FileName.zip DirName
.tar
解包: tar xvf FileName.tar
打包:tar cvf FileName.tar DirName (详见“压缩详解”)
第三步、处理统计信息:
命令grep,文本搜索(正则匹配)
grep 完整语法结构
grep [options] [pattern] file命令 参数 匹配模式 文件数据
grep常用的参数总结
参数选项 | 解释说明 |
---|---|
-V | 排除匹配结果 |
-n | 显示匹配行与行号 |
-i | 不区分大小写 |
-c | 只统计匹配行数 |
-E | 使用egrep命令 |
-o | 只输出匹配内容 |
-w | 只输出过滤的单词 |
-F | 不适用正则表达式 |
-l | 列出包含匹配项的文件名 |
-L | 列出不包含匹配项的文件名 |
^ 用于模式最左侧,如 “^yu” 即匹配以yu开头的单词
$ 用于模式最右侧,如 “yu$” 即匹配以yu结尾的单词
^$ 组合符,表示空行
. 匹配任意一个且只有一个字符,不能匹配空行
| 转义字符
* 重匹配前一个字符连续出现0次或1次以上
.* 匹配任意字符
^.* 组合符,匹配任意多个字符开头的内容
.*$ 组合符,匹配任意多个字符结尾的内容
[abc] 匹配 [] 内集合中的任意一个字符,a或b或c,也可以写成 [ac]
[^abc] 匹配除了 ^后面的任意一个字符,a或b或c,[]内 ^ 表示取反操作
1、less查看文件GCA_000817325.1_ASM81732v1_genomic.gff ,如图:
grep '^CP006471.1' GCA_000817325.1_ASM81732v1_genomic.gff |awk -v FS="\t" {if($5<10000){print $_}}'|sort|uniq|wc -l
##要捕捉的基因信息是从左第一个开始,所以使用^(从每行开头匹配)
##awk的用法:-v(定义或者修改内部变量)FS(字段分隔符)OFS(输出字段分隔符)让awk以制表符为分隔符读取第五列信息
##sort排序,uniq合并相同项,wc用于计算字数,-l计算行数,-w计算字数
结果为9行:
易错为10行,原因:未加^,读取了另外的一行(包含CP006471.1,但不在行首)
下载Synechococcus elongatus UTEX 2973(accession no.为GCA_000817325.1 )的基因组注释文件,统计其中染色体序列(CP006471.1)前10相关推荐
- 如何下载Homo_sapiens.GRCh38.100.gtf.gz和Homo_sapiens.GRCh37.87.gtf.gz参考基因组注释文件
1.先去ENSEMBL官网:http://asia.ensembl.org/index.html,点击红框框 2.继续点击红框框 3.没有我们想要的版本了 4.改变网址: http://ftp.ens ...
- 如何下载人类的参考基因组和注释文件
参考基因组概况 参考基因组下载的网站主要有3个NCBI,Ensembl,UCSC,一般参考基因组的.gz压缩文件文件大小为900M以上不超过950M,解压后大于等于3G. 基因组的主要版本对应关系 参 ...
- python urllib3离线安装_全球Python库下载前10名
Python的简洁性,不仅仅在于其语法简单,还有各种python库函数的支持,为大家节省了大量的时间和精力,所以网上有人戏称python的编程者为调包侠.但是你知道全球最受欢迎的python库嘛?今天 ...
- FileZilla的下载与安装以及简单使用(Ubuntu和Windows之间互传文件需要下载——客户端)
参考:FileZilla的下载与安装以及简单使用(有图解超简单) 作者:一只青木呀 发布时间: 2020-08-04 13:20:59 网址:https://blog.csdn.net/weixin_ ...
- deb下载路径、apt下载路径(deb路径、apt路径)、自定义打包deb文件、安装deb文件、解压deb文件
只下载不安装deb apt-get --download-only install freesweep 默认下载路径:/var/cache/apt/archive 解压deb文件 dpkg -x f ...
- python需要下载哪些软件-80%的人都不知道,全球Python库下载前10名
题图漫威宇宙英雄 Python的简洁性,不仅仅在于其语法简单,还有各种python库函数的支持,为大家节省了大量的时间和精力,所以网上有人戏称python的编程者为调包侠.但是你知道全球最受欢迎的py ...
- Scrapy抓站:大批量下载360指定专题下的照片并保存到sql和本地文件夹下
目标网站:http://images.so.com/ (摄影专栏) Scrapy抓站:360照片 1. 新建项目 2. 新建Spider 3. 分析目标网站的种种 4. 构造请求 5. 定义提取信息的 ...
- img图片的预览和下载(iframe基本使用),图片转file格式,file文件转base64格式,base64的编码和解码
目录 一.根据后端接口返回的URL下载和预览图片 1.调用下载图片函数实现下载图片 2.弹出另一个页面,实现预览图片. 3.不弹出另一个页面,实现下载/预览图片(iframe方式) 4.动态创建ifr ...
- 超链接标签(外部链接、内部链接、空链接、下载链接、网页元素链接、锚点链接)、注释
超链接标签 在HTML中,<a>标签用于定义超链接,作用是从一个页面链接到另一个页面 1.链接的语法格式 <a href="跳转目标" target=" ...
最新文章
- Android -- 贝塞尔使圆渐变为桃心
- Linux下JNI实现
- 生产者消费者模式 php 【转】
- WEB应用之网页数据分析工具
- step3 . day6数据结构之非线性表 满二叉树和不完全二叉树
- Mayor's posters POJ - 2528 (离散化+线段树)
- qq空间说说服务器维护,如何解决QQ空间说说发表不了
- 阿里确认研发车载小程序 这些功能太方便了!
- markdown文档中利用Mathpix Snip软件插入公式
- Linux学习总结(九)—— CentOS常用软件安装:中文输入法、Chrome
- 孙鑫VC学习笔记:第十一讲 (二) 图形的保存与重绘方法一
- Office 365中的密码过期策略
- 企业微信接口下载微盘文件
- 服务器虚拟化有什么好处
- cba比赛比分预测_昨日预测CBA一红一黑,今日继续给大家带来CBA全部比赛4场
- syntactic 与semantic 的区别
- TensorFlow神经网络的激活函数
- springboot注解实现自动插入创建时间和更新时间到数据库
- python数据库实体_python---使用get方法访问‘数据库’实体
- 怎样记账简单明白,实用记账技巧
热门文章
- 究竟什么是可重入锁?
- Linux一句话将文件夹的用户用户组设置为wps:wps
- hangfire 介绍(一)
- org.w3c.dom。 XML解析 练习
- 为什么正常单据记账没有数据_正常单据记账怎么没有记录U8存货核算?正常 – 手机爱问...
- 期货基本面分析:,马来西亚10月1-10日棕榈油出口量较上月同期下降17.3%,但对中国出口创一年新高
- 【解决问题】FlutterBlue在安卓手机上无法连接蓝牙设备,扫描缓慢
- 安卓自动滑屏脚本_自动滑屏软件下载-自动滑屏 安卓版v3.1.0-PC6安卓网
- Page Cache 与 Kafka 那些事儿
- Android车辆运动轨迹大数据采集最佳实践