欢迎关注微信公众号生信宝典:http://mp.weixin.qq.com/s/8wD14FXt7fLDo1BjJyT0ew
Linux学习系列文章是生信宝典最开始主推的一块,力图从一个新额视角帮助初学者快速入门Linux系统,熟悉Linux下的文件和目录,文件操作, 文件内容操作。而且教程摒弃了完美操作,列举出常见错误和解决方式,管道、标准输入输出解惑Linux下多种信息输出方式。

在文件排序和FASTA文件操作中简述了awksed的使用,作为一个引子。本篇则详细列举关于awk常用的操作和一些偏门的操作。

awk基本参数解释

awk擅长于对文件按行操作,每次读取一行,然后进行相应的操作。

awk读取单个文件时的基本语法格式是awk 'BEGIN{OFS=FS="\t"}{print $0, $1;}' filename

读取多个文件时的语法是awk 'BEGIN{OFS=FS="\t"}ARGIND==1{print $0, $1;}ARGIND==2{}' file1 file2

awk后面的命令部分是用引号括起来的,可以单引号,可以双引号,但注意不能与内部命令中用到的引号相同,否则会导致最相邻的引号视为一组,引发解释错误。

OFS: 文件输出时的列分隔符 (output field separtor)

FS: 文件输入时的列分隔符 (field separtor)

BEGIN: 设置初始参数,初始化变量

END: 读完文件后做最终的处理

其它{}:循环读取文件的每一行

$0表示一行内容;$1, $2, … $NF表示第一列,第二列到最后一列。

NF (number of fields)文件多少列;NR (number of rows) 文件读了多少行: FNR 当前文件读了多少行,常用于多文件操作时。

a[$1]=1: 索引操作,类似于python中的字典,在ID map统计中有很多应用。

常见操作

  • 针对特定列的计算,比如wig文件的标准化
ct@ehbio:~/sxbd$ cat ehbio.wig
variableStep chrom=chr2
300701  12.5
300702  12.5
300703  12.5
300704  12.5
300705  12.5
ct@ehbio:~/sxbd$ awk 'BEGIN{OFS=FS="\t"}{$2=$2*10^6/(2.5*10^6); print $0}' wig
tep chrom=chr2  0
300701  4.4
300702  4.8
300703  4
300704  4.8
300705  4.8
  • 计算某列内容出现的次数。
ct@ehbio:~/sxbd$ cat count
ID  Type
Pou5f1  Pluripotency
Nanog   Pluripotency
Sox2    Neuron
Tet1    Epigenetic
Tet3    Epigenetic
Myc Oncogene
ct@ehbio:~/sxbd$ awk 'BEGIN{OFS=FS="\t"}{if(FNR>1) a[$2]+=1;}END{print "Type\tCount"; for(i in a) print i,a[i];}' count
Type    Count
Neuron  1
Epigenetic  2
Oncogene    1
Pluripotency    2# 这个也可以用下面方式代替,但不直接
ct@ehbio:~/sxbd$ tail -n +2 count | cut -f 2 | sort | uniq -c | sed -e 's/^  *//' -e 's/  */\t/'
2   Epigenetic
1   Neuron
1   Oncogene
2   Pluripotency
  • 之前也提到过的列操作,从GTF文件中提取启动子区域
sed 's/"/\t/g' GRCh38.gtf | awk 'BEGIN{OFS=FS="\t"}{if($3=="gene") {ensn=$10; symbol=$16; if($7=="+") {start=$4-1; up=start-1000; if(up<0) up=0; dw=start+500; print $1,up, dw, ensn, symbol, $7;} else if($7=="-") {start=$5-1; up=start+1000; dw=start-500; if(dw<0) dw=0; print $1,dw,up,ensn,symbol,$7}}}' | sort -k1,1 -k2,2n >GRCh38.promoter.bed
  • 数据矩阵的格式化输出
ct@ehbio:~/sxbd$ cat numertic.matrix
ID  A   B   C
a   1.002   1.234   1.999
b   2.333   4.232   0.889
ct@ehbio:~/sxbd$ awk '{if(FNR==1) print $0; else {printf "%s%s",$1,FS; for (i=2; i<=NF; i++) printf "%.1f %s", $i, (i==NF?RS:FS)}}' numertic.matrix
ID  A   B   C
a 1.0  1.2  2.0
b 2.3  4.2  0.9 
  • 判断FASTQ文件中,输出质量值的长度是与序列长度不一致的序列ID
zcat Test_2.fq.gz | awk '{if(FNR%4==1) ID=$0; else if(FNR%4==2) seq_len=length($0); else if(FNR%4==0) {quality_len=length($0); if(seq_len!=quality_len) print ID; }}' 
  • 筛选差异基因
ct@ehbio:~/sxbd$ cat de_gene
ID  log2fc  padj
A   1   0.001
B   -1  0.001
C   1   0.001
D   2   0.0001
E   -0.51   0.051
F   0.1 0.1
G   1   0.1ct@ehbio:~/sxbd$ awk '$3<0.05 || NR==1' de_gene
ID  log2fc  padj
A   1   0.001
B   -1  0.001
C   1   0.001
D   2   0.0001ct@ehbio:~/sxbd$ awk 'BEGIN{OFS=FS="\t"}{if(FNR==1) print $0; else {abs_log2fc=($2<0?$2*(-1):$2);if(abs_log2fc>=1 && $3<0.05) print $0;}}' de_gene
ID  log2fc  padj
A   1   0.001
B   -1  0.001
C   1   0.001
D   2   0.0001
  • 筛选差异基因存储到不同的文件
ct@ehbio:~/sxbd$ awk 'BEGIN{OFS=FS="\t"; up="up"; dw="dw";}{if(FNR==1) {print $0 >up; print $0 >dw;} else if ($3<0.05) {if ($2>=1) print $0 >up; else if($2<=-1) print $0 >dw;}}' de_gene
ct@ehbio:~/sxbd$ head up dw
==> up <==
ID  log2fc  padj
A   1   0.001
C   1   0.001
D   2   0.0001==> dw <==
ID  log2fc  padj
B   -1  0.001
  • ID map,常用于转换序列的ID、提取信息、合并信息等
ct@ehbio:~/sxbd$ cat id_map
ENSM    Symbol  Entrez
ENSG00000280516 TMEM42  693149
ENSG00000281886 TGM4    7047
ENSG00000280873 DGKD    8527
ENSG00000281244 ADAMTS13    11093
ENSG00000280701 RP11-272D20.2
ENSG00000280674 ZDHHC3  51304
ENSG00000281623 Y_RNA
ENSG00000280479 CACFD1  11094
ENSG00000281165 SLC2A6  11182
ENSG00000281879 ABO 28
ENSG00000282873 BCL7A   605
ENSG00000280651 AC156455.1  100506691
ct@ehbio:~/sxbd$ vim ensm
ct@ehbio:~/sxbd$ cat ensm
ENSG00000281244
ENSG00000281165
ENSG00000282873
ct@ehbio:~/sxbd$ awk 'BEGIN{OFS=FS="\t"}ARGIND==1{if(FNR>1) ensm2entrez[$1]=$3;}ARGIND==2{print ensm2entrez[$1];}' id_map ensm
11093
11182
605# 替代解决方案,注意 -w的使用,避免部分匹配。最稳妥的方式还是使用awk。ct@ehbio:~/sxbd$ grep -w -f ensm id_map | cut -f 3
11093
11182
605
  • 转换大小写, toupper, tolower
ct@ehbio:~/sxbd$ cat symbol
Tgm4
Dgkd
Aboct@ehbio:~/sxbd$ awk 'BEGIN{OFS=FS="\t"}ARGIND==1{if(FNR>1) ensm2entrez[$2]=$3;}ARGIND==2{print ensm2entrez[toupper($1)];}' id_map symbol
7047
8527
28
  • awk数值操作
# log2对数
awk 'BEGIN{OFS="\t";FS="\t"}{print log($0)/log(2)}' file# 取整,四舍五入
awk 'BEGIN{OFS="\t";FS="\t"}{print int($1+0.5);}' file
  • awk定义函数
awk 'function abs(x){return ((x < 0.0) ? -x : x)}BEGIN{OFS="\t";FS="\t"}{pos[1]=$1;pos[2]=$2;pos[3]=$3;pos[4]=$4; len=asort(pos);for(i=len;i>1;i--) print abs(pos[i]-pos[i-1]);}' file
  • 字符串匹配
ct@ehbio:~/sxbd$ cat ens.bed
1   100 105
2   100 105
3   100 105
Mt  100 105
X   100 105
ct@ehbio:~/sxbd$ awk 'BEGIN{OFS=FS="\t"}{if($1~/^[0-9XY]/) $1="chr"$1; else if($1~/M.*/) gsub(/M.*/, "chrM", $1); print $0}' ens.bed
chr1    100 105
chr2    100 105
chr3    100 105
chrM    100 105
chrX    100 105
  • 字符串分割
ct@ehbio:~/sxbd$ cat trinity_id
Trinity_C1_g1_i1
Trinity_C1_g1_i2
Trinity_C1_g1_i3
Trinity_C2_g1_i1
Trinity_C3_g1_i1
Trinity_C3_g3_i2
ct@ehbio:~/sxbd$ awk 'BEGIN{OFS=FS="\t"}{count=split($1, geneL, "_"); gene=geneL[1]; for(i=2;i<count;i++) gene=gene"_"geneL[i]; print gene,$1;}' trinity_id
Trinity_C1_g1   Trinity_C1_g1_i1
Trinity_C1_g1   Trinity_C1_g1_i2
Trinity_C1_g1   Trinity_C1_g1_i3
Trinity_C2_g1   Trinity_C2_g1_i1
Trinity_C3_g1   Trinity_C3_g1_i1
Trinity_C3_g3   Trinity_C3_g3_i2
  • awk脚本
cat <<END >grade.awk
f ( avg >= 90 ) grade="A";
else if ( avg >= 80) grade ="B";
else if (avg >= 70) grade ="C";
else grade="D";
ENDawk -f grade.awk grade
  • awk给每行增加行号,使其变为唯一
awk 'BEGIN{OFS="\t";FS="\t"}NR!=1{$4=$4"_"NR;print $0}' file

糅合操作

  • awk中执行系统命令 (注意引号的使用)
# 系统命令组成字符串,交给system函数运行
awk 'BEGIN{OFS=FS="\t"}{system("mv "$1".fq "$2".fq");}' input_mat
  • awk 引用系统变量
ct@ehbio:~/sxbd$ echo 1 | awk -v ehbio="shengxinbaodian" -v ehbio2="SXBD" '{print ehbio, ehbio2;}'
shengxinbaodian SXBD

学会了基本命令,生信分析中还有一大块是使用已经安装好的工具,针对软件安装中遇到的问题,推出了系列文章:环境变量和可执行属性彻底释义环境变量的概念;列举出Linux下软件安装的各种方法,并针对Docker和Conda分别发文介绍。

生信宝典

  • Linux学习 - 常用和不太常用的实用awk命令

生信宝典,生物信息学习系列教程,转录组,宏基因组,外显子组,R作图,Python学习,Cytoscape视频教程

http://mp.weixin.qq.com/s/d1KCETQZ88yaOLGwAtpWYg

生信宝典,最好的生物信息培训课程,培训课程资料

www.ehbio.com/Training

Linux学习 - awk使用相关推荐

  1. LINUX学习—AWK(LINUX三剑客)

    awk是一个报告生成器,拥有强大的文本格式化能力: 也是一种文本处理工具,但其主要功能是从处理文件中按照输入的信息格式后显示的工具 awk是一种编程语言,支持条件判断.数组.循环等功能.用于在linu ...

  2. linux学习-awk工具

    awk是基于列的文本处理工具,它的工作方式是按行读取文本并视为一条记录,每条记录以字段分割成若干字段,然后输出个字段的值,事实上,awk是一种编程语言.awk认为文件都是结构化的,也就是说由单词和各种 ...

  3. Linux学习——awk

    习题 awk打印奇/偶数行 /* sed实现 */ seq 10|sed -n "1~2p" seq 10|sed -n "2~2p" /* awk实现 */ ...

  4. linux之awk命令学习笔记

    Linux之awk命令学习笔记 前言 AWK 是一种处理文本文件的语言,是一个强大的文本分析工具. 之所以叫 AWK 是因为其取了三位创始人 Alfred Aho,Peter Weinberger, ...

  5. Linux学习 - 常用和不太常用的实用awk命令

    欢迎关注生信宝典:http://mp.weixin.qq.com/s/8wD14FXt7fLDo1BjJyT0ew Linux学习系列文章是生信宝典最开始主推的一块,力图从一个新额视角帮助初学者快速入 ...

  6. java 执行 awk_3.1 biostar lesson3 linux学习日记;java版本;awk

    又学一招,来自组织的微信群 如果.bashrc 无法保存,解决方案 删掉.swp 删掉.bashrc.bak 就OK conda 查看当前环境下,都安装了哪些软件 conda list 发现有一篇很好 ...

  7. 在Linux里awk与sed的区别,linux awk和sed讲解

    sed 工具简介 在了解了一些正规表示法的基础应用之后,再来呢?呵呵-两个东西可以玩一玩的,那就是 sed 跟 awk 了! 这两个家伙可是相当的有用的啊!举例来说,鸟哥写的 logfile.sh 分 ...

  8. 生信宝典Linux学习系列文章整理

    欢迎关注天下博客:http://blog.genesino.com/2017/10/sxbd-linux-summary/ 生信宝典推出的Linux从入门到常用命令.软件安装方法.数据处理方法都在这了 ...

  9. Linux学习笔记12——配置ftp、squid、Tomcat、Samba、MySQL主从

    Linux学习笔记12 Linux学习笔记12 配置FTP服务 配置pure-ftpd 开机启动 上传下载文件 配置vsftpd CentOS 70安装配置Vsftp服务器 搭好vsftp之后出现55 ...

最新文章

  1. Neighbor-Vote:使用邻近距离投票优化单目3D目标检测(ACM MM2021)
  2. 【c语言】蓝桥杯基础练习 01字串
  3. cisco vPC技术
  4. SqlServerCe 数据库操作示例
  5. [Codeforces Round #165 (Div. 2)]D. Greenhouse Effect
  6. 史上最全的女人坐月子注意事項
  7. ssh源码编译安装mysql_总结源码编译安装mysql
  8. 怎么在电脑上任意截屏_草地上打滚、墙上任意涂鸦,幼儿园让孩子“想怎么玩就怎么玩”...
  9. 最大质因子序列(信息学奥赛一本通-T1410)
  10. Tair是一个高性能,分布式,可扩展,高可靠的key/value结构存储系统(转)
  11. 一键抠除路人甲,昇腾CANN带你识破神秘的“AI消除术”
  12. 【jQuery 遍历】 - map() 方法
  13. 人脸识别 特征值脸_你的脸值多少钱?
  14. 2016传智web前端_2016年的10个Web预测
  15. Regex.Replace( )
  16. 计算机图形学--全局光照(3D 空间:LPV,VXGI;屏幕空间:SSAO)
  17. Synplify FPGA 逻辑综合
  18. 全球经典的50个免费wordpress主题
  19. 同花顺显示无法与服务器建立联系,【图】同花顺不能登入的试试这个服务器(已失效)_同花顺_股票软件技术交流论坛_理想论坛 - 股票论坛...
  20. Experimental Educational Round: VolBIT Formulas Blitz-R. Game

热门文章

  1. 计算机网络——第二次实验——思科模拟器组网实验
  2. 【离散数学】二元关系的性质
  3. “宇宙总统”计票(洛谷P1781题题解,Java语言描述)
  4. zookeeper伪集群部署
  5. 简单谈谈setTimeout与setInterval
  6. 面试题:各大公司Java后端开发面试题总结 已看1 背1 有用 链接有必要看看
  7. 多线程编程学习笔记——使用并发集合(三)
  8. UVa11549计算器谜题[floyd判圈]
  9. Android学习系列(15)--App列表之游标ListView(索引ListView)
  10. 让beanshell和bashshell一起工作