生物信息常用30个Linux命令(二)
学习生物信息,Linux是必须掌握的内容,其实常用的Linux命令也就30个左右,而且这些命令都是单词的简写,记忆起来并不困难。从这次内容开始,我们将详细介绍这30个左右的命令。
11、cat
cat: concatenate 连接
cat的一个作用是查看文件,一般是比较小的文件,行数小于一个屏幕,最多不要超过两个屏幕,否则会刷屏;
cat另一个作用是合并多个文件,一般配合重定向合并为一个新文件或者将一个文件内容追加到另一个文件结尾。
$ cat a1.index.sh
bwa index -p Homo_sapiens_assembly38 -a bwtsw Homo_sapiens_assembly38.fasta
合并文件
cat a1.txt a2.txt >all.txt
12、less / more
less和more都是文件查看工具,但是less功能更多一些,在windows系统下打开一个10G的文件比较困难,但是在Linux下非常方便,less可以打开非常大的文件,压缩格式也可以直接打开。
-m 显示类似于more命令的百分比
-N 显示行号
-S 格式化显示
$ less -S nt.tar.gz
13、head / tail
这两个命令比较简单,只是取一个文件的头部和尾部多少行,默认10行,可以加-n进行设置,利用管道可以取文件中间行。
#取文件第21~40行
$ head -40 a.txt | tail -n 20
14、g(un)zip/ b(un)zip2
gzip和bzip2是文件压缩工具,默认直接对源文件进行处理,压缩比率在2/3左右,都可以进行设置。
加上un,为unpack的意思,表示解压缩。
$ gzip a.txt
$ gunzip a.txt.gz
15、tar
tar:Tape archive (磁带档案)
tar是一个比较复杂的命令,tar主要用于打包,由于tar能调用gzip或者bzip2进行压缩,而打包和压缩经常如windows系统一样合并为一个过程,新手经常将二者混淆,
-c 建立打包档案,可搭配 -v 来察看过程中被打包的档名(filename)
-t 察看打包档案的内容含有哪些档名,重点在察看『档名』就是了;
-x 解打包或解压缩的功能,可以搭配 -C (大写) 在特定目录解开
辅选项:
-j 透过 bzip2 的支持进行压缩/解压缩:此时档名最好为 *.tar.bz2
-z 透过 gzip 的支持进行压缩/解压缩:此时档名最好为 *.tar.gz
-v 在压缩/解压缩的过程中,将正在处理的文件名显示出来!
-f filename -f 后面要立刻接要被处理的档名!
对于初学者,记住c是creat,创建,x是解包,z对应gzip,j对应bzip2即可,所以常用的命令如下:
$ tar -jcvf filename.tar.bz2 A B C #打包压缩为bz2结尾文件
$ tar -jxvf filename.tar.bz2 # 解压缩.tar.bz2结尾文件
$ tar -zcvf filename.tar.gz A B C #打包压缩为gz结尾文件
$ tar -zxvf filename.tar.gz # 解压缩.tar.gz 结尾文件
16、wc
wc = Word Count
统计一个文件中,行数,单词数,字符数
-l filename 报告行数
-c filename 报告字节数
-m filename 报告字符数
-w filename 报告单词数
17、sort
排序,默认按第一列排序,可以通过-k进行设置;默认排序规则为按ASCII码排序,可以通过-n进行修改;-r取相反方向;
-n 依照数值的大小排序。
-o 将排序后的结果存入指定的文件。
-r 以相反的顺序来排序。
-t 指定排序时所用的栏位分隔字符。
-k 选择以哪个区间进行排序。
18、grep
文本搜索工具,类似于正则表达式搜索,可以在一个大的文件中快速搜索到满足一定规则的内容。
#案例一:统计fasta文件中序列的条数;
grep -c “>” gene.ffn
#案例二:输出满足条件的序列;
grep -A 2 “3 gi 29732 34486” lastz.axt
#案例三:筛选出不满足条件的内容;
ps -fx | grep -v “S”
19、sed
sed = Stream Editor
流处理器,sed有非常强大的功能.
#案例一:输出固定的行
sed -n ‘1307p’ seq.fna #输出文件第1307行;
sed -n ‘100,200’ seq.fna #输出文件第100到200行;
#案例二:替换操作
sed -e ‘s/gi/GI/’ seq.fna #将文件中gi全部替换为大写GI;
sed -i ‘s/gi/GI/g’ seq.fna #在原文件上进行替换,并且进行全部替换;
sed -i.bak ‘s#GI#gi#’ seq.fna #在原文件上进行替换,并进行备份;
sed -e ‘s/gi/GI/2;s/ref/REF/2’ seq.fna #只将第二次出现的gi和ref进行替换;
sed -f sed.list cds.list #根据文件中的模式进行替换,可同时进行多条件替换;
sed -n ‘s/gi/GI/p’ seq.fna #打印发生替换的行;
#案例三:删除空白行;
sed -e ‘/^\s*$/d’ seq.fna #删除文件中的空白行;
#案例四:行寻址
sed -n ‘/ref/p’ seq.fna #输出文件中包含ref关键字的行;
sed ‘100,2000s/GI/gi/g’ seq.fa #则只替换100行到2000行的内容;
sed ‘100,2000!s/GI/gi/g’ seq.fa #加感叹号取反,在这个范围之外的执行操作;
#案例五:删除操作
sed -e ‘/>/d’ seq.fna #删除包含ref的行;
sed -e ‘s/:.*//g’ seq.fna #删除冒号之后的所有内容;
#案例六:对应替换,类似于tr的功能
sed -e ‘y/ATCG/atcg/’ seq.fna #修改大小写
sed -e ‘/>/!y/ATCG/atcg/’ seq.fna #DNA序列反向互补配对,并修改大小写
20、awk
awk也是非常强大的文本处理工具,awk本身也是一门编程语言;
#案例1:输出一个列表任意行;
awk ‘{print $1}’ blast_m8.out #输出blast m8 格式结果的第一行;
awk -F “:” ‘{print 1 , 1, 1,NF}’ passwd.list #通过-F修改默认分隔符为冒号,输出第一行与最后一行;
#案例2:格式转换
awk ‘{print"@" $1"\n"$10"\n""+\n"$11""}’ all.sam #将短序列比对上的reads输出出来,生成fastq文件;
#案例3:过滤blast结果
awk ’{if ($3>=80 && $4>=100) print $0}’ blast_m8.out #过滤blast比对结果,将identity 大于80,并且比对长度大于100bp的结果输出;
#案例4:比较
awk ‘$8>$10’ input.txt #输出第8列大于第10列的行。
#案例5:匹配输出
awk ‘$0~ /wang/{print $0}’ passwd.list #利用正则表达式,将秘密表中姓wang的账户都输出出来;
#案例6:格式化输出
awk ‘BEGIN{print “The Program Begin\n”}{if ($3>=80 && $4>=100) print $0}END{print " The Program End\n"}’ input.txt #利用BEGIN和END关键字生成报告;
#案例7:修改字段和记录分隔符
awk ‘BEGIN{OFS="\t"}{print $2,$4,$5}’ input.txt #在BEGIN中设定字段分隔符和记录分隔符;
#案例8:awk编程计算
awk ‘{x+=$3}END{print x/NR}’ input.txt #计算第三列的平均值,最后在END将其输出出来。
#案例9:awk编程比较大小
awk ‘BEGIN { max=100 ;print “max=” max} {max=($1 >max ?$1:max); print $1,"Now max is "max}’ input.txt #取得文件最后一个域的最大值。
#案例10:awk编程求和
awk ‘{print $0,$3+$4}’ input.txt #计算第3列和第4列的和。
#案例11:输出固定行内容
awk ‘NR>=20&&NR<=80’ input.txt #输出第20到第80行内容。
#案例12:合并文件
awk ‘BEGIN{while((getline<“file1”)>0)l[$1]=$0}$1 in l{print $0"\t"l[$1]}’ file2 #将两个文件按列合并起来,类似jion命令的功能。
#案例13:去重复
awk ‘!($0 in a) {a[$0];print}’ input.txt # 打印不重复的行,类似uniq的功能;
awk ‘!($2 in l){print;l[$2]=1}’ input.txt #计算第二列内容非冗余的次数,类似于uniq的功能;
#案例14:统计字符
awk ‘{for(i=1;i!=NF;++i)c[$i]++}END{for (x in c) print x,c[x]}’ input.txt 计算每个字符出现的次数,类似wc的功能。
#案例15:替换
awk ‘{sub(/test/, “no”, $0);print}’ input.txt 进行替换,类似sed的功能,
#案例16:fastq转换为fasta
awk ‘{getline seq;getline plus;getline qual;sub("@",">",$0);print $0 "\n"seq}’ test.fastq;
--------------end---------------------
更多精彩内容欢迎订阅我们的微信公众号!
生物信息常用30个Linux命令(二)相关推荐
- 电脑用linux命令大全,电脑操作时常用的一些Linux命令
电脑操作时常用的一些Linux命令 1.修改密码:passwd用户名 2.下载jdk-6u25-linux-i586.bin 3.运行(cd进入某一目录后,/usr/jdk-6u25-linux-i5 ...
- 我常用的那些linux命令
我常用的那些linux命令 用linux也有些年头了,说来也忏愧,说是有些年头了,其实也还是个不长进的主.记得第一次接触linux是boss跟我说的怎么操作,什么编辑模式,按i,a,o进入编辑模式.在 ...
- 生信入门必须掌握的 30 个 Linux 命令
学习生物信息,Linux 是必须掌握的内容,其实常用的 Linux 命令也就 30 个左右,而且这些命令都是单词的简写,记忆起来并不困难.这里列出了常用的 30 个命令. 1. cd Change d ...
- 最常用 150 个Linux命令汇总(建议收藏)
点击上方[视学算法]→右上角[...]→[设为星标⭐] 来源:banana 童 www.cnblogs.com/bananaaa/p/7774467.html linux 命令是对 Linux 系统进 ...
- 【树莓派】最常用的树莓派 Linux 命令及说明
对于 Linux 新手来说,使用 Raspbian 系统会遇到比较棘手的问题,其中之一就是对各种 Linux 命令的学习.下面整理了一份常用的 Linux 命令及说明,供初学者对照了解. 命令在哪里输 ...
- Hacker基础之Linux篇——基础Linux命令二
我们继续学习Linux命令 mv mv命令是move的缩写,可以用来移动文件或者将文件改名(move (rename) files). 是Linux系统下常用的命令,经常用来备份文件或者目录. mv命 ...
- 项目部署、配置、查错常用到的Linux命令
一.常用命令 ls 显示文件或目录 -l 列出文件详细信息l(list) -a 列出当前目录下所有文件及目录,包括隐藏的a(all) ll 会列出该文件下的所有文件信息,包括隐藏的文件的文件详细信息, ...
- 本人常用的基础 linux命令
一 基本的文件操作及系统操作 新建目录 mkdir –目录名 将工作目录改变到Dir cd 目录 改变当前目录到主目录 cd 退至上一级目录 ...
- [置顶] 总结工作中常用到的linux命令
常用解压命令 tar.bz2 命令: tar -jxvf *.tar.bz2 tar.z 命令: tar -zxvf *.tar.z tar.gz 命令: tar -Zxvf *.tar ...
最新文章
- OA项目12:系统管理之用户管理
- 2010考研全程学习规划简案【推荐】
- jmeter找不到java.dll_Windows下Jmeter安装出现Not able to find Java executable or version问题解决方案...
- docker mysql 操作_[Docker] Docker 快速搭建本地MySQL开发环境
- 与Zell关闭星期五
- 计算机辅助设计与图像学学报 改后发表,几种常见图像二值化方法的结果对比与分析...
- BigDecimal 基本使用 比较大小和加减乘除
- Dokcer从理论到实践----------Docker原理
- 1032. 字符流(每日一难phase2--days28)
- 模糊C均值聚类 C++代码
- iOS:iOS开发非常全的三方库、插件等等
- 《互联网信息资源检索与利用》读书笔记
- IAR(For STM32) 安装,配置,工程创建,下载,调试
- OSPF邻居关系建立故障排除
- 这次一定 | “学废” 正则表达式
- 《图像处理、分析与机器视觉 第四版》 摄像机 相机概述——学习笔记
- matlab下对齿轮图片的参数提取
- Linux搭建邮箱服务器
- 2021年氯碱电解工艺作业考试题库及氯碱电解工艺操作证考试
- A4格式pdf转B5打印解决
热门文章
- 【目标检测】55、YOLOv8 | YOLOv5 团队 Ultralytics 再次出手,又实现了 SOTA
- 考研408 王道计算机考研 (初试/复试) 网课笔记总结
- python 创建对象时自动调用的函数_Python自动测试(6)——类和对象,python,自动化,六类...
- PHP最全防止sql注入方法
- springboot获取当前服务ip_springboot免费的IP定位服务
- 含分布式电源的配电网日前两阶段优化调度模型(Matlab代码实现)
- Hi3519V101裸板uboot、内核(kernel)、文件系统(rootfs)移植全过程(基于hiTool工具烧写已验证)
- windows使用psftp上传文件到linux服务器
- 北约智库:指控能力的机遇与限制在哪里?
- 工程图字体宋体仿宋_曾在中国辉煌一时的“仿宋体”,为什么现今很少有人用了?...