Hadoop学习（二）—

笔者是一个痴迷于挖掘数据中的价值的学习人，希望在平日的工作学习中，挖掘数据的价值，找寻数据的秘密，笔者认为，数据的价值不仅仅只体现在企业中，个人也可以体会到数据的魅力，用技术力量探索行为密码，让大数据助跑每一个人，欢迎直筒们关注我的公众号，大家一起讨论数据中的那些有趣的事情。

我的公众号为：livandata

linux的学习过程中，会遇到一些脚本的编写问题，linux自身提供了脚本编写的语言——shell语言，由于其便捷性被大量使用，而且，很多公司在初步涉足大数据时，日志等文件的传递是通过shell脚本的方式完成的，可见shell语言在linux学习过程中的重要性。

1.shell命令学习：

可以直接使用echo $HOME 区分大小写

定义变量时单引号‘’与双引号“”是有区别的，单引号会将引号中的值作为字符串输出，双引号会将引号中的变量赋值，然后输出。

第一个为键盘左上角的按钮，读飘。

举例为：

类似于java中的input，命令会等在这里等用户输入内容。

用来接收交互式的输入。

if中空格要保留。

举例为：

上图为定义函数的方法。

举例为：

上图中案例会报错，因为第二行中的fsum 3 2；未定义。

在脚本中执行python命令可以用以下方法：

如何批量安装一个脚本，在一个服务器上安装好，然后一次执行，就能安装到新的服务器上。

#将 /etc/passwd 的内容列出并且列印行号，同时，请将第 2~5 行删除！注意一下，原本应该是要下达 sed -e 才对，没有 -e 也行！

nl /etc/passwd | sed '2,5d'

#要删除第 3 到最后一行

nl /etc/passwd | sed '3,$d'

#在第二行后(亦即是加在第三行)加上itcast

nl /etc/passwd | sed '2a itcast'

#如果是在第二行前面

nl /etc/passwd | sed '2i itcast'

#仅列出 /etc/passwd 文件内的第 5-7 行

nl /etc/passwd | sed -n '5,7p'

#获取当前eth0网卡的IP地址

ifconfig eth0 | grep 'inet addr' |sed 's/^.*addr://g' | sed 's/Bcast.*$//g'

ifconfig eth0 | grep 'inet addr' |cut -d : -f2 | cut -d ' ' -f1

#练习：

cat /etc/passwd > passwd.bak

#在第2行后面插入itcast字符

sed -i '3a itcast' passwd.bak

#删除文件中的第2行到第5行

sed -i '2,5d' passwd.bak

#使用\来进行转义或使用#

sed -i 's/\/bin\/bash/\/itcast/g'passwd.bak

sed -i 's#/bin/bash#/itcast#g'passwd.bak

#删除一个文件已#开头的行和空行

sed -i -e '/^#/d' -e '/^$/d'abc.txt

2、下面为文本的命令行处理。

可以用编程，此时只需要用到他的文本编辑。

Cut会提取文本，然后进行分割。

cat /etc/passwd | awk -F ':''{print $0}'

awk -F ':' '{print $2}'/etc/passwd

awk -F ':' '1>0 {print $1}2>1 {print $2}' /etc/passwd

awk 'BEGIN {print "this fileis /etc/passwd"} {print $0}' /etc/passwd

awk -F ':' 'BEGIN {print"this file is /etc/passwd"} {print $1}' /etc/passwd

awk '{FS=":"} {print$1}' /etc/passwd

awk 'BEGIN {FS=":"}{print $1}' /etc/passwd

awk 'END {print "end offile"} {print $1}' /etc/passwd

ifconfig eth0 | grep 'inet addr' |awk -F ":" '{print $2}' | awk '{print $1}'

awk详解：

简介

awk是一个强大的文本分析工具，相对于grep的查找，sed的编辑，awk在其对数据分析并生成报告时，显得尤为强大。简单来说awk就是把文件逐行的读入，以空格为默认分隔符将每行切片，切开的部分再进行各种分析处理。

awk有3个不同版本: awk、nawk和gawk，未作特别说明，一般指gawk，gawk 是 AWK 的 GNU 版本。

awk其名称得自于它的创始人 Alfred Aho 、PeterWeinberger 和 Brian Kernighan 姓氏的首个字母。实际上 AWK 的确拥有自己的语言： AWK 程序设计语言，三位创建者已将它正式定义为“样式扫描和处理语言”。它允许您创建简短的程序，这些程序读取输入文件、为数据排序、处理数据、对输入执行计算以及生成报表，还有无数其他的功能。

使用方法:

awk '{pattern + action}'{filenames}

尽管操作可能会很复杂，但语法总是这样，其中pattern 表示 AWK 在数据中查找的内容，而action 是在找到匹配内容时所执行的一系列命令。花括号（{}）不需要在程序中始终出现，但它们用于根据特定的模式对一系列指令进行分组。 pattern就是要表示的正则表达式，用斜杠括起来。

awk语言的最基本功能是在文件或者字符串中基于指定规则浏览和抽取信息，awk抽取信息后，才能进行其他文本操作。完整的awk脚本通常用来格式化文本文件中的信息。

通常，awk是以文件的一行为处理单位的。awk每接收文件的一行，然后执行相应的命令，来处理文本。

调用awk

有三种方式调用awk：

1.命令行方式

awk [-F field-separator] 'commands' input-file(s)

其中，commands 是真正awk命令，[-F域分隔符]是可选的。 input-file(s) 是待处理的文件。

在awk中，文件的每一行中，由域分隔符分开的每一项称为一个域。通常，在不指名-F域分隔符的情况下，默认的域分隔符是空格。

2.shell脚本方式

将所有的awk命令插入一个文件，并使awk程序可执行，然后awk命令解释器作为脚本的首行，一遍通过键入脚本名称来调用。

相当于shell脚本首行的：#!/bin/sh

可以换成：#!/bin/awk

3.将所有的awk命令插入一个单独文件，然后调用：

awk -f awk-script-fileinput-file(s)

其中，-f选项加载awk-script-file中的awk脚本，input-file(s)跟上面的是一样的。

本章重点介绍命令行方式。

入门实例

假设last -n 5的输出如下

[root@www ~]# last -n 5 <==仅取出前五行

root pts/1 192.168.1.100 Tue Feb 1011:21 still logged in

root pts/1 192.168.1.100 Tue Feb 10 00:46 -02:28 (01:41)

root pts/1 192.168.1.100 Mon Feb 9 11:41 - 18:30 (06:48)

dmtsai pts/1 192.168.1.100 Mon Feb 9 11:41 - 11:41 (00:00)

root tty1 Fri Sep 5 14:09 - 14:10 (00:01)

如果只是显示最近登录的5个帐号

#last -n 5 | awk '{print $1}'

root

dmtsai

root

awk工作流程是这样的：读入有'\n'换行符分割的一条记录，然后将记录按指定的域分隔符划分域，填充域，$0则表示所有域,$1表示第一个域,$n表示第n个域。默认域分隔符是"空白键"或 "[tab]键",所以$1表示登录用户，$3表示登录用户ip,以此类推。

如果只是显示/etc/passwd的账户

#cat /etc/passwd |awk -F ':' '{print $1}'

root

daemon

bin

sys

这种是awk+action的示例，每行都会执行action{print $1}。

-F指定域分隔符为':'。

如果只是显示/etc/passwd的账户和账户对应的shell,而账户与shell之间以tab键分割

#cat /etc/passwd |awk -F ':' '{print $1"\t"$7}'

root /bin/bash

daemon /bin/sh

bin /bin/sh

sys /bin/sh

如果只是显示/etc/passwd的账户和账户对应的shell,而账户与shell之间以逗号分割,而且在所有行添加列名name,shell,在最后一行添加"blue,/bin/nosh"。

cat /etc/passwd |awk -F ':' 'BEGIN {print "name,shell"} {print $1","$7} END {print "blue,/bin/nosh"}'

name,shell

root,/bin/bash

daemon,/bin/sh

bin,/bin/sh

sys,/bin/sh

....

blue,/bin/nosh

awk工作流程是这样的：先执行BEGING，然后读取文件，读入有/n换行符分割的一条记录，然后将记录按指定的域分隔符划分域，填充域，$0则表示所有域,$1表示第一个域,$n表示第n个域,随后开始执行模式所对应的动作action。接着开始读入第二条记录······直到所有的记录都读完，最后执行END操作。

搜索/etc/passwd有root关键字的所有行

#awk -F: '/root/' /etc/passwd

root:x:0:0:root:/root:/bin/bash

这种是pattern的使用示例，匹配了pattern(这里是root)的行才会执行action(没有指定action，默认输出每行的内容)。

搜索支持正则，例如找root开头的: awk -F: '/^root/' /etc/passwd

搜索/etc/passwd有root关键字的所有行，并显示对应的shell

# awk -F: '/root/{print $7}'/etc/passwd

/bin/bash

这里指定了action{print $7}

awk内置变量

awk有许多内置变量用来设置环境信息，这些变量可以被改变，下面给出了最常用的一些变量。

ARGC 命令行参数个数

ARGV 命令行参数排列

ENVIRON 支持队列中系统环境变量的使用

FILENAME awk浏览的文件名

FNR 浏览文件的记录数

FS 设置输入域分隔符，等价于命令行 -F选项

NF 浏览记录的域的个数

NR 已读的记录数

OFS 输出域分隔符

ORS 输出记录分隔符

RS 控制记录分隔符

此外,$0变量是指整条记录。$1表示当前行的第一个域,$2表示当前行的第二个域,......以此类推。

统计/etc/passwd:文件名，每行的行号，每行的列数，对应的完整行内容:

#awk -F ':' '{print "filename:" FILENAME ",linenumber:" NR",columns:" NF ",linecontent:"$0}' /etc/passwd

filename:/etc/passwd,linenumber:1,columns:7,linecontent:root:x:0:0:root:/root:/bin/bash

filename:/etc/passwd,linenumber:2,columns:7,linecontent:daemon:x:1:1:daemon:/usr/sbin:/bin/sh

filename:/etc/passwd,linenumber:3,columns:7,linecontent:bin:x:2:2:bin:/bin:/bin/sh

filename:/etc/passwd,linenumber:4,columns:7,linecontent:sys:x:3:3:sys:/dev:/bin/sh

使用printf替代print,可以让代码更加简洁，易读

awk -F ':' '{printf("filename:%s,linenumber:%s,columns:%s,linecontent:%s\n",FILENAME,NR,NF,$0)}'/etc/passwd

print和printf

awk中同时提供了print和printf两种打印输出的函数。

其中print函数的参数可以是变量、数值或者字符串。字符串必须用双引号引用，参数用逗号分隔。如果没有逗号，参数就串联在一起而无法区分。这里，逗号的作用与输出文件的分隔符的作用是一样的，只是后者是空格而已。

printf函数，其用法和c语言中printf基本相似,可以格式化字符串,输出复杂时，printf更加好用，代码更易懂。

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

awk编程

变量和赋值

除了awk的内置变量，awk还可以自定义变量。

下面统计/etc/passwd的账户人数

awk '{count++;print $0;} END{print"user count is ", count}' /etc/passwd

root:x:0:0:root:/root:/bin/bash

......

user count is 40

count是自定义变量。之前的action{}里都是只有一个print,其实print只是一个语句，而action{}可以有多个语句，以;号隔开。

这里没有初始化count，虽然默认是0，但是妥当的做法还是初始化为0:

awk 'BEGIN {count=0;print"[start]user count is ", count} {count=count+1;print $0;} END{print"[end]user count is ", count}' /etc/passwd

[start]user count is 0

root:x:0:0:root:/root:/bin/bash

...

[end]user count is 40

统计某个文件夹下的文件占用的字节数

ls -l |awk 'BEGIN {size=0;}{size=size+$5;} END{print "[end]size is ", size}'

[end]size is 8657198

如果以M为单位显示:

ls -l |awk 'BEGIN {size=0;}{size=size+$5;} END{print "[end]size is ",size/1024/1024,"M"}'

[end]size is 8.25889 M

注意，统计不包括文件夹的子目录。

条件语句：

awk中的条件语句是从C语言中借鉴来的，见如下声明方式：

if (expression) {

statement;

... ...

}

if (expression) {

statement;

} else {

statement2;

}

if (expression) {

statement1;

} else if (expression1) {

statement2;

} else {

statement3;

}

统计某个文件夹下的文件占用的字节数,过滤4096大小的文件(一般都是文件夹):

ls -l |awk 'BEGIN {size=0;print"[start]size is ", size} {if($5!=4096){size=size+$5;}} END{print"[end]size is ", size/1024/1024,"M"}'

[end]size is 8.22339 M

循环语句：

awk中的循环语句同样借鉴于C语言，支持while、do/while、for、break、continue，这些关键字的语义和C语言中的语义完全相同。

数组

因为awk中数组的下标可以是数字和字母，数组的下标通常被称为关键字(key)。值和关键字都存储在内部的一张针对key/value应用hash的表格里。由于hash不是顺序存储，因此在显示数组内容时会发现，它们并不是按照你预料的顺序显示出来的。数组和变量一样，都是在使用时自动创建的，awk也同样会自动判断其存储的是数字还是字符串。一般而言，awk中的数组用来从记录中收集信息，可以用于计算总和、统计单词以及跟踪模板被匹配的次数等等。

显示/etc/passwd的账户

awk -F ':' 'BEGIN {count=0;}{name[count] = $1;count++;}; END{for (i = 0; i < NR; i++) print i, name[i]}'/etc/passwd

0 root

1 daemon

2 bin

3 sys

4 sync

5 games

......

这里使用for循环遍历数组

awk编程的内容极多，这里只罗列简单常用的用法，更多请参考

http://www.gnu.org/software/gawk/manual/gawk.html

3、crontab定时器：

前一天学习了at命令是针对仅运行一次的任务，循环运行的例行性计划任务，linux系统则是由cron (crond)这个系统服务来控制的。Linux系统上面原本就有非常多的计划性工作，因此这个系统服务是默认启动的。另外,由于使用者自己也可以设置计划任务，所以， Linux系统也提供了使用者控制计划任务的命令:crontab命令。

crond简介：

crond是linux下用来周期性的执行某种任务或等待处理某些事件的一个守护进程，与windows下的计划任务类似，当安装完成操作系统后，默认会安装此服务工具，并且会自动启动crond进程，crond进程每分钟会定期检查是否有要执行的任务，如果有要执行的任务，则自动执行该任务。

Linux下的任务调度分为两类，系统任务调度和用户任务调度。

系统任务调度：系统周期性所要执行的工作，比如写缓存数据到硬盘、日志清理等。在/etc目录下有一个crontab文件，这个就是系统任务调度的配置文件。

/etc/crontab文件包括下面几行：

[root@localhost ~]# cat /etc/crontab

SHELL=/bin/bash

PATH=/sbin:/bin:/usr/sbin:/usr/bin

MAILTO=""HOME=/

# run-parts

51 * * * * root run-parts /etc/cron.hourly

24 7 * * * root run-parts /etc/cron.daily

22 4 * * 0 root run-parts /etc/cron.weekly

42 4 1 * * root run-parts /etc/cron.monthly

[root@localhost ~]#

前四行是用来配置crond任务运行的环境变量，第一行SHELL变量指定了系统要使用哪个shell，这里是bash，第二行PATH变量指定了系统执行命令的路径，第三行MAILTO变量指定了crond的任务执行信息将通过电子邮件发送给root用户，如果MAILTO变量的值为空，则表示不发送任务执行信息给用户，第四行的HOME变量指定了在执行命令或者脚本时使用的主目录。第六至九行表示的含义将在下个小节详细讲述。这里不在多说。

用户任务调度：用户定期要执行的工作，比如用户数据备份、定时邮件提醒等。用户可以使用 crontab 工具来定制自己的计划任务。所有用户定义的crontab文件都被保存在/var/spool/cron目录中。其文件名与用户名一致。

使用者权限文件：

文件： /etc/cron.deny

说明：该文件中所列用户不允许使用crontab命令

文件： /etc/cron.allow

说明：该文件中所列用户允许使用crontab命令

文件： /var/spool/cron/

说明：所有用户crontab文件存放的目录,以用户名命名

crontab文件的含义：

用户所建立的crontab文件中，每一行都代表一项任务，每行的每个字段代表一项设置，它的格式共分为六个字段，前五段是时间设定段，第六段是要执行的命令段，格式如下：

minute hour day month week command

其中：

minute：表示分钟，可以是从0到59之间的任何整数。

hour：表示小时，可以是从0到23之间的任何整数。

day：表示日期，可以是从1到31之间的任何整数。

month：表示月份，可以是从1到12之间的任何整数。

week：表示星期几，可以是从0到7之间的任何整数，这里的0或7代表星期日。

command：要执行的命令，可以是系统命令，也可以是自己编写的脚本文件。

在以上各个字段中，还可以使用以下特殊字符：

星号（*）：代表所有可能的值，例如month字段如果是星号，则表示在满足其它字段的制约条件后每月都执行该命令操作。

逗号（,）：可以用逗号隔开的值指定一个列表范围，例如，“1,2,5,7,8,9”

中杠（-）：可以用整数之间的中杠表示一个整数范围，例如“2-6”表示“2,3,4,5,6”

正斜线（/）：可以用正斜线指定时间的间隔频率，例如“0-23/2”表示每两小时执行一次。同时正斜线可以和星号一起使用，例如*/10，如果用在minute字段，表示每十分钟执行一次。

crond服务

安装crontab：

yum install crontabs

服务操作说明：

/sbin/service crond start //启动服务

/sbin/service crond stop //关闭服务

/sbin/service crond restart //重启服务

/sbin/service crond reload //重新载入配置

查看crontab服务状态：

service crond status

手动启动crontab服务：

service crond start

查看crontab服务是否已设置为开机启动，执行命令：

ntsysv

加入开机自动启动：

chkconfig –level 35 crond on

crontab命令详解：

1．命令格式：

crontab [-u user] file

crontab [-u user] [ -e | -l | -r ]

2．命令功能：

通过crontab命令，我们可以在固定的间隔时间执行指定的系统指令或 shell script脚本。时间间隔的单位可以是分钟、小时、日、月、周及以上的任意组合。这个命令非常设合周期性的日志分析或数据备份等工作。

3．命令参数：

-u user：用来设定某个用户的crontab服务，例如，“-u ixdba”表示设定ixdba用户的crontab服务，此参数一般有root用户来运行。

file：file是命令文件的名字,表示将file做为crontab的任务列表文件并载入crontab。如果在命令行中没有指定这个文件，crontab命令将接受标准输入（键盘）上键入的命令，并将它们载入crontab。

-e：编辑某个用户的crontab文件内容。如果不指定用户，则表示编辑当前用户的crontab文件。

-l：显示某个用户的crontab文件内容，如果不指定用户，则表示显示当前用户的crontab文件内容。

-r：从/var/spool/cron目录中删除某个用户的crontab文件，如果不指定用户，则默认删除当前用户的crontab文件。

-i：在删除用户的crontab文件时给确认提示。

4．常用方法：

1). 创建一个新的crontab文件

在考虑向cron进程提交一个crontab文件之前，首先要做的一件事情就是设置环境变量EDITOR。cron进程根据它来确定使用哪个编辑器编辑crontab文件。9 9 %的UNIX和LINUX用户都使用vi，如果你也是这样，那么你就编辑$ HOME目录下的. profile文件，在其中加入这样一行：

EDITOR=vi; export EDITOR

然后保存并退出。不妨创建一个名为<user> cron的文件，其中<user>是用户名，例如， davecron。在该文件中加入如下的内容。

# (put your own initials here)echo the date to the console every

# 15minutes between 6pm and 6am

0,15,30,45 18-06 * * * /bin/echo 'date' > /dev/console

保存并退出。确信前面5个域用空格分隔。

在上面的例子中，系统将每隔1 5分钟向控制台输出一次当前时间。如果系统崩溃或挂起，从最后所显示的时间就可以一眼看出系统是什么时间停止工作的。在有些系统中，用tty1来表示控制台，可以根据实际情况对上面的例子进行相应的修改。为了提交你刚刚创建的crontab文件，可以把这个新创建的文件作为cron命令的参数：

$ crontab davecron

现在该文件已经提交给cron进程，它将每隔1 5分钟运行一次。

同时，新创建文件的一个副本已经被放在/var/spool/cron目录中，文件名就是用户名(即dave)。

2). 列出crontab文件

为了列出crontab文件，可以用：

$ crontab -l

0,15,30,45,18-06 * * * /bin/echo `date` > dev/tty1

你将会看到和上面类似的内容。可以使用这种方法在$ H O M E目录中对crontab文件做一备份：

$ crontab -l > $HOME/mycron

这样，一旦不小心误删了crontab文件，可以用上一节所讲述的方法迅速恢复。

3). 编辑crontab文件

如果希望添加、删除或编辑crontab文件中的条目，而E D I TO R环境变量又设置为v i，那么就可以用v i来编辑crontab文件，相应的命令为：

$ crontab -e

可以像使用v i编辑其他任何文件那样修改crontab文件并退出。如果修改了某些条目或添加了新的条目，那么在保存该文件时， c r o n会对其进行必要的完整性检查。如果其中的某个域出现了超出允许范围的值，它会提示你。

我们在编辑crontab文件时，没准会加入新的条目。例如，加入下面的一条：

# DT:delete core files,at 3.30am on 1,7,14,21,26,26 days of each month

30 3 1,7,14,21,26 * * /bin/find -name "core' -exec rm {} \;

现在保存并退出。最好在crontab文件的每一个条目之上加入一条注释，这样就可以知道它的功能、运行时间，更为重要的是，知道这是哪位用户的作业。

现在让我们使用前面讲过的crontab -l命令列出它的全部信息：

$ crontab -l

# (crondave installed on Tue May 4 13:07:43 1999)

# DT:ech the date to the console every 30 minites

0,15,30,45 18-06 * * * /bin/echo `date` > /dev/tty1

# DT:delete core files,at 3.30am on 1,7,14,21,26,26 days of each month

30 3 1,7,14,21,26 * * /bin/find -name "core' -exec rm {} \;

4). 删除crontab文件

要删除crontab文件，可以用：

$ crontab -r

5). 恢复丢失的crontab文件

如果不小心误删了crontab文件，假设你在自己的$ H O M E目录下还有一个备份，那么可以将其拷贝到/var/spool/cron/<username>，其中<username>是用户名。如果由于权限问题无法完成拷贝，可以用：

$ crontab <filename>

其中，<filename>是你在$ H O M E目录中副本的文件名。

我建议你在自己的$ H O M E目录中保存一个该文件的副本。我就有过类似的经历，有数次误删了crontab文件（因为r键紧挨在e键的右边）。这就是为什么有些系统文档建议不要直接编辑crontab文件，而是编辑该文件的一个副本，然后重新提交新的文件。

有些crontab的变体有些怪异，所以在使用crontab命令时要格外小心。如果遗漏了任何选项，crontab可能会打开一个空文件，或者看起来像是个空文件。这时敲delete键退出，不要按<Ctrl-D>，否则你将丢失crontab文件。

5．使用实例

实例1：每1分钟执行一次command

命令：

* * * * * command

实例2：每小时的第3和第15分钟执行

命令：

3,15 * * * * command

实例3：在上午8点到11点的第3和第15分钟执行

命令：

3,15 8-11 * * * command

实例4：每隔两天的上午8点到11点的第3和第15分钟执行

命令：

3,15 8-11 */2 * * command

实例5：每个星期一的上午8点到11点的第3和第15分钟执行

命令：

3,15 8-11 * * 1 command

实例6：每晚的21:30重启smb

命令：

30 21 * * * /etc/init.d/smb restart

实例7：每月1、10、22日的4 : 45重启smb

命令：

45 4 1,10,22 * * /etc/init.d/smb restart

实例8：每周六、周日的1 : 10重启smb

命令：

10 1 * * 6,0 /etc/init.d/smb restart

实例9：每天18 : 00至23 : 00之间每隔30分钟重启smb

命令：

0,30 18-23 * * * /etc/init.d/smb restart

实例10：每星期六的晚上11 : 00 pm重启smb

命令：

0 23 * * 6 /etc/init.d/smb restart

实例11：每一小时重启smb

命令：

* */1 * * * /etc/init.d/smb restart

实例12：晚上11点到早上7点之间，每隔一小时重启smb

命令：

* 23-7/1 * * * /etc/init.d/smb restart

实例13：每月的4号与每周一到周三的11点重启smb

命令：

0 11 4 * mon-wed /etc/init.d/smb restart

实例14：一月一号的4点重启smb

命令：

0 4 1 jan * /etc/init.d/smb restart

实例15：每小时执行/etc/cron.hourly目录内的脚本

命令：

01 * * * * root run-parts /etc/cron.hourly

说明：

run-parts这个参数了，如果去掉这个参数的话，后面就可以写要运行的某个脚本名，而不是目录名了

使用注意事项：

1. 注意环境变量问题

有时我们创建了一个crontab，但是这个任务却无法自动执行，而手动执行这个任务却没有问题，这种情况一般是由于在crontab文件中没有配置环境变量引起的。

在crontab文件中定义多个调度任务时，需要特别注意的一个问题就是环境变量的设置，因为我们手动执行某个任务时，是在当前shell环境下进行的，程序当然能找到环境变量，而系统自动执行任务调度时，是不会加载任何环境变量的，因此，就需要在crontab文件中指定任务运行所需的所有环境变量，这样，系统执行任务调度时就没有问题了。

不要假定cron知道所需要的特殊环境，它其实并不知道。所以你要保证在shelll脚本中提供所有必要的路径和环境变量，除了一些自动设置的全局变量。所以注意如下3点：

1）脚本中涉及文件路径时写全局路径；

2）脚本执行要用到java或其他环境变量时，通过source命令引入环境变量，如：

cat start_cbp.sh

#!/bin/sh

source /etc/profile

export RUN_CONF=/home/d139/conf/platform/cbp/cbp_jboss.conf

/usr/local/jboss-4.0.5/bin/run.sh -c mev &

3）当手动执行脚本OK，但是crontab死活不执行时。这时必须大胆怀疑是环境变量惹的祸，并可以尝试在crontab中直接引入环境变量解决问题。如：

0 * * * * . /etc/profile;/bin/sh /var/www/java/audit_no_count/bin/restart_audit.sh

2. 注意清理系统用户的邮件日志

每条任务调度执行完毕，系统都会将任务输出信息通过电子邮件的形式发送给当前系统用户，这样日积月累，日志信息会非常大，可能会影响系统的正常运行，因此，将每条任务进行重定向处理非常重要。

例如，可以在crontab文件中设置如下形式，忽略日志输出：

0 */3 * * * /usr/local/apache2/apachectl restart >/dev/null 2>&1

“/dev/null 2>&1”表示先将标准输出重定向到/dev/null，然后将标准错误重定向到标准输出，由于标准输出已经重定向到了/dev/null，因此标准错误也会重定向到/dev/null，这样日志输出问题就解决了。

3. 系统级任务调度与用户级任务调度

系统级任务调度主要完成系统的一些维护操作，用户级任务调度主要完成用户自定义的一些任务，可以将用户级任务调度放到系统级任务调度来完成（不建议这么做），但是反过来却不行，root用户的任务调度操作可以通过“crontab –uroot –e”来设置，也可以将调度任务直接写入/etc/crontab文件，需要注意的是，如果要定义一个定时重启系统的任务，就必须将任务放到/etc/crontab文件，即使在root用户下创建一个定时重启系统的任务也是无效的。

4. 其他注意事项

新创建的cron job，不会马上执行，至少要过2分钟才执行。如果重启cron则马上执行。

当crontab突然失效时，可以尝试/etc/init.d/crond restart解决问题。或者查看日志看某个job有没有执行/报错tail -f /var/log/cron。

千万别乱运行crontab -r。它从Crontab目录（/var/spool/cron）中删除用户的Crontab文件。删除了该用户的所有crontab都没了。

在crontab中%是有特殊含义的，表示换行的意思。如果要用的话必须进行转义\%，如经常用的date ‘+%Y%m%d’在crontab里是不会执行的，应该换成date ‘+\%Y\%m\%d

基本格式 :

*　　*　　*　　*　　*　　command

分　时　日　月　周　命令

第1列表示分钟1～59 每分钟用*或者 */1表示

第2列表示小时0～23（0表示0点）

第3列表示日期1～31

第4列表示月份1～12

第5列标识号星期0～6（0表示星期天）

第6列要运行的命令

crontab文件的一些例子：

30 21 * * */usr/local/etc/rc.d/lighttpd restart

上面的例子表示每晚的21:30重启apache。

45 4 1,10,22 * */usr/local/etc/rc.d/lighttpd restart

上面的例子表示每月1、10、22日的4 : 45重启apache。

10 1 * * 6,0/usr/local/etc/rc.d/lighttpd restart

上面的例子表示每周六、周日的1 : 10重启apache。

0,30 18-23 * * */usr/local/etc/rc.d/lighttpd restart

上面的例子表示在每天18 : 00至23 : 00之间每隔30分钟重启apache。

0 23 * * 6/usr/local/etc/rc.d/lighttpd restart

上面的例子表示每星期六的11 : 00 pm重启apache。

* */1 * * */usr/local/etc/rc.d/lighttpd restart

每一小时重启apache

* 23-7/1 * * */usr/local/etc/rc.d/lighttpd restart

晚上11点到早上7点之间，每隔一小时重启apache

0 11 4 * mon-wed/usr/local/etc/rc.d/lighttpd restart

每月的4号与每周一到周三的11点重启apache

0 4 1 jan */usr/local/etc/rc.d/lighttpd restart

一月一号的4点重启apache

名称 : crontab

使用权限 : 所有使用者

使用方式 :

crontab file [-u user]-用指定的文件替代目前的crontab。

crontab-[-u user]-用标准输入替代目前的crontab.

crontab-1[user]-列出用户目前的crontab.

crontab-e[user]-编辑用户目前的crontab.

crontab-d[user]-删除用户目前的crontab.

crontab-c dir- 指定crontab的目录。

crontab文件的格式：M H D m d cmd.

M: 分钟（0-59）。

H：小时（0-23）。

D：天（1-31）。

m: 月（1-12）。

d: 一星期内的天（0~6，0为星期天）。

cmd要运行的程序，程序被送入sh执行，这个shell只有USER,HOME,SHELL这三个环境变量

说明 :

crontab 是用来让使用者在固定时间或固定间隔执行程序之用，换句话说，也就是类似使用者的时程表。-u user 是指设定指定

user 的时程表，这个前提是你必须要有其权限(比如说是 root)才能够指定他人的时程表。如果不使用 -u user 的话，就是表示设

定自己的时程表。

参数 :

crontab -e : 执行文字编辑器来设定时程表，内定的文字编辑器是 VI，如果你想用别的文字编辑器，则请先设定 VISUAL 环境变数

来指定使用那个文字编辑器(比如说 setenv VISUAL joe)

crontab -r : 删除目前的时程表

crontab -l : 列出目前的时程表

crontab file [-u user]-用指定的文件替代目前的crontab。

时程表的格式如下 :

f1 f2 f3 f4 f5 program

其中 f1 是表示分钟，f2 表示小时，f3 表示一个月份中的第几日，f4 表示月份，f5 表示一个星期中的第几天。program 表示要执

行的程序。

当 f1 为 * 时表示每分钟都要执行 program，f2 为 * 时表示每小时都要执行程序，其馀类推

当 f1 为 a-b 时表示从第 a 分钟到第 b 分钟这段时间内要执行，f2 为 a-b 时表示从第 a 到第 b 小时都要执行，其馀类推

当 f1 为 */n 时表示每 n 分钟个时间间隔执行一次，f2 为 */n 表示每 n 小时个时间间隔执行一次，其馀类推

当 f1 为 a, b, c,... 时表示第 a, b, c,... 分钟要执行，f2 为 a, b, c,... 时表示第 a, b, c...个小时要执行，其馀类推

使用者也可以将所有的设定先存放在档案 file 中，用 crontab file 的方式来设定时程表。

例子 :

#每天早上7点执行一次 /bin/ls :

0 7 * * * /bin/ls

在 12 月内, 每天的早上 6 点到 12 点中，每隔3个小时执行一次 /usr/bin/backup :

0 6-12/3 * 12 * /usr/bin/backup

周一到周五每天下午 5:00 寄一封信给 alex@domain.name :

0 17 * * 1-5 mail -s"hi" alex@domain.name < /tmp/maildata

每月每天的午夜 0 点 20 分, 2 点 20 分, 4 点 20 分....执行 echo "haha"

20 0-23/2 * * * echo"haha"

注意 :

当程序在你所指定的时间执行后，系统会寄一封信给你，显示该程序执行的内容，若是你不希望收到这样的信，请在每一行空一格之

后加上 > /dev/null2>&1 即可

例子2 :

#每天早上6点10分

10 6 * * * date

#每两个小时

0 */2 * * * date

#晚上11点到早上8点之间每两个小时，早上8点

0 23-7/2，8 * * * date

#每个月的4号和每个礼拜的礼拜一到礼拜三的早上11点

0 11 4 * mon-wed date

#1月份日早上4点

0 4 1 jan * date

范例

$crontab -l 列出用户目前的crontab.

4、IPtables练习：

#查看帮助

iptables -h

man iptables

列出iptables规则

iptables -L -n

列出iptables规则并显示规则编号

iptables -L -n --line-numbers

列出iptables nat表规则（默认是filter表）

iptables -L -n -t nat

清除默认规则（注意默认是filter表，如果对nat表操作要加-t nat）

#清楚所有规则

iptables -F

#重启iptables发现规则依然存在，因为没有保存

service iptables restart

#保存配置

service iptables save

#禁止ssh登陆（若果服务器在机房，一定要小心）

iptables -A INPUT -p tcp --dport22 -j DROP

#删除规则

iptables -D INPUT -p tcp --dport22 -j DROP

-A, --append chain 追加到规则的最后一条

-D, --delete chain [rulenum] Delete rule rulenum (1 = first) from chain

-I, --insert chain [rulenum] Insert in chain as rulenum (default 1=first) 添加到规则的第一条

-p, --proto proto protocol:by number or name, eg. 'tcp',常用协议有tcp、udp、icmp、all

-j, --jump target 常见的行为有ACCEPT、DROP和REJECT三种，但一般不用REJECT，会带来安全隐患

注意：INPUT和DROP这样的关键字需要大写

#禁止192.168.33.0网段从eth0网卡接入

iptables -A INPUT -p tcp -i eth0-s 192.168.33.0 -j DROP

iptables -A INPUT -p tcp --dport22 -i eth0 -s 192.168.33.61 -j ACCEPT

#禁止ip地址非192.168.10.10的所有类型数据接入

iptables -A INPUT ! -s192.168.10.10 -j DROP

#禁止ip地址非192.168.10.10的ping请求

iptables -I INPUT -p icmp--icmp-type 8 -s 192.168.50.100 -j DROP

#扩展匹配：1.隐式扩展 2.显示扩展

#隐式扩展

-ptcp

--sportPORT 源端口

--dportPORT 目标端口

#显示扩展：使用额外的匹配规则

-mEXTENSTION --SUB-OPT

-ptcp --dport 22 与 -p tcp -m tcp --dport 22功能相同

state：状态扩展，接口ip_contrack追踪会话状态

NEW：新的连接请求

ESTABLISHED：已建立的连接请求

INVALID：非法连接

RELATED：相关联的连接

#匹配端口范围

iptables -I INPUT -p tcp --dport22:80 -j DROP

#匹配多个端口

iptables -I INPUT -p tcp -mmultiport --dport 22,80,3306 -j ACCEPT

#不允许源端口为80的数据流出

iptables -I OUTPUT -p tcp --sport80 -j DROP

%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%

5、Sed练习：

1. Sed简介

sed 是一种在线编辑器，它一次处理一行内容。处理时，把当前处理的行存储在临时缓冲区中，称为“模式空间”（pattern space），接着用sed命令处理缓冲区中的内容，处理完成后，把缓冲区的内容送往屏幕。接着处理下一行，这样不断重复，直到文件末尾。文件内容并没有改变，除非你使用重定向存储输出。Sed主要用来自动编辑一个或多个文件；简化对文件的反复操作；编写转换程序等。以下介绍的是Gnu版本的Sed 3.02。

2. 定址

可以通过定址来定位你所希望编辑的行，该地址用数字构成，用逗号分隔的两个行数表示以这两行为起止的行的范围（包括行数表示的那两行）。如1，3表示1，2，3行，美元符号($)表示最后一行。范围可以通过数据，正则表达式或者二者结合的方式确定。

3. Sed命令

调用sed命令有两种形式：

sed [options] 'command' file(s)

sed [options] -f scriptfilefile(s)

a\:在当前行后面加入一行文本。

b lable:分支到脚本中带有标记的地方，如果分支不存在则分支到脚本的末尾。

c\:用新的文本改变本行的文本。

d:从模板块（Pattern space）位置删除行。

D:删除模板块的第一行。

i\在当前行上面插入文本。

h拷贝模板块的内容到内存中的缓冲区。

H追加模板块的内容到内存中的缓冲区

g获得内存缓冲区的内容，并替代当前模板块中的文本。

G获得内存缓冲区的内容，并追加到当前模板块文本的后面。

l列表不能打印字符的清单。

n读取下一个输入行，用下一个命令处理新的行而不是用第一个命令。

N追加下一个输入行到模板块后面并在二者间嵌入一个新行，改变当前行号码。

p打印模板块的行。

P（大写）打印模板块的第一行。

q退出Sed。

r file从file中读行。

t label :if分支，从最后一行开始，条件一旦满足或者T，t命令，将导致分支到带有标号的命令处，或者到脚本的末尾。

T label错误分支，从最后一行开始，一旦发生错误或者T，t命令，将导致分支到带有标号的命令处，或者到脚本的末尾。

w file写并追加模板块到file末尾。

W file写并追加模板块的第一行到file末尾。

! 表示后面的命令对所有没有被选定的行发生作用。

s/re/string 用string替换正则表达式re。

= 打印当前行号码。

# 把注释扩展到下一个换行符以前。

以下的是替换标记

g表示行内全面替换。

p表示打印行。

w表示把行写入一个文件。

x表示互换模板块中的文本和缓冲区中的文本。

y表示把一个字符翻译为另外的字符（但是不用于正则表达式）

4. 选项

-e command, --expression=command

允许多台编辑。

-h, --help

打印帮助，并显示bug列表的地址。

-n, --quiet, --silent

取消默认输出。

-f, --filer=script-file

引导sed脚本文件名。

-V, --version

打印版本和版权信息。

5. 元字符集^

锚定行的开始如：/^sed/匹配所有以sed开头的行。

$锚定行的结束如：/sed$/匹配所有以sed结尾的行。

.匹配一个非换行符的字符如：/s.d/匹配s后接一个任意字符，然后是d。

*匹配零或多个字符如：/*sed/匹配所有模板是一个或多个空格后紧跟sed的行。

[]匹配一个指定范围内的字符，如/[Ss]ed/匹配sed和Sed。

[^]匹配一个不在指定范围内的字符，如：/[^A-RT-Z]ed/匹配不包含A-R和T-Z的一个字母开头，紧跟ed的行。

$..$保存匹配的字符，如s/$love$able/\1rs，loveable被替换成lovers。

&保存搜索字符用来替换其他字符，如s/love/**&**/，love这成**love**。

\<锚定单词的开始，如:/\<love/匹配包含以love开头的单词的行。

\>锚定单词的结束，如/love\>/匹配包含以love结尾的单词的行。

x\{m\}重复字符x，m次，如：/o\{5\}/匹配包含5个o的行。

x\{m,\}重复字符x,至少m次，如：/o\{5,\}/匹配至少有5个o的行。

x\{m,n\}重复字符x，至少m次，不多于n次，如：/o\{5,10\}/匹配5--10个o的行。

6. 实例

删除：d命令

$ sed '2d' example-----删除example文件的第二行。

$ sed '2,$d' example-----删除example文件的第二行到末尾所有行。

$ sed '$d' example-----删除example文件的最后一行。

$ sed '/test/'d example-----删除example文件所有包含test的行。

替换：s命令

$ sed 's/test/mytest/g'example-----在整行范围内把test替换为mytest。如果没有g标记，则只有每行第一个匹配的test被替换成mytest。

$ sed -n 's/^test/mytest/p'example-----(-n)选项和p标志一起使用表示只打印那些发生替换的行。也就是说，如果某一行开头的test被替换成mytest，就打印它。

$ sed's/^192.168.0.1/&localhost/' example-----&符号表示替换换字符串中被找到的部份。所有以192.168.0.1开头的行都会被替换成它自已加 localhost，变成192.168.0.1localhost。

$ sed -n 's/$love$able/\1rs/p'example-----love被标记为1，所有loveable会被替换成lovers，而且替换的行会被打印出来。

$ sed 's#10#100#g' example-----不论什么字符，紧跟着s命令的都被认为是新的分隔符，所以，“#”在这里是分隔符，代替了默认的“/”分隔符。表示把所有10替换成100。

选定行的范围：逗号

$ sed -n '/test/,/check/p' example-----所有在模板test和check所确定的范围内的行都被打印。

$ sed -n '5,/^test/p' example-----打印从第五行开始到第一个包含以test开始的行之间的所有行。

$ sed '/test/,/check/s/$/sedtest/' example-----对于模板test和west之间的行，每行的末尾用字符串sed test替换。

多点编辑：e命令

$ sed -e '1,5d' -e 's/test/check/'example-----(-e)选项允许在同一行里执行多条命令。如例子所示，第一条命令删除1至5行，第二条命令用check替换test。命令的执行顺序对结果有影响。如果两个命令都是替换命令，那么第一个替换命令将影响第二个替换命令的结果。

$ sed --expression='s/test/check/'--expression='/love/d' example-----一个比-e更好的命令是--expression。它能给sed表达式赋值。

从文件读入：r命令

$ sed '/test/r file'example-----file里的内容被读进来，显示在与test匹配的行后面，如果匹配多行，则file的内容将显示在所有匹配行的下面。

写入文件：w命令

$ sed -n '/test/w file'example-----在example中所有包含test的行都被写入file里。

追加命令：a命令

$ sed '/^test/a\\--->this is aexample' example '----->this is aexample'被追加到以test开头的行后面，sed要求命令a后面有一个反斜杠。

插入：i命令

$ sed '/test/i\\

new line

-------------------------' example

如果test被匹配，则把反斜杠后面的文本插入到匹配行的前面。

下一个：n命令

$ sed '/test/{ n; s/aa/bb/; }'example-----如果test被匹配，则移动到匹配行的下一行，替换这一行的aa，变为bb，并打印该行，然后继续。

变形：y命令

$ sed '1,10y/abcde/ABCDE/'example-----把1--10行内所有abcde转变为大写，注意，正则表达式元字符不能使用这个命令。

退出：q命令

$ sed '10q' example-----打印完第10行后，退出sed。

保持和获取：h命令和G命令

$ sed -e '/test/h' -e '$Gexample-----在sed处理文件的时候，每一行都被保存在一个叫模式空间的临时缓冲区中，除非行被删除或者输出被取消，否则所有被处理的行都将打印在屏幕上。接着模式空间被清空，并存入新的一行等待处理。在这个例子里，匹配test的行被找到后，将存入模式空间，h命令将其复制并存入一个称为保持缓存区的特殊缓冲区内。第二条语句的意思是，当到达最后一行后，G命令取出保持缓冲区的行，然后把它放回模式空间中，且追加到现在已经存在于模式空间中的行的末尾。在这个例子中就是追加到最后一行。简单来说，任何包含test的行都被复制并追加到该文件的末尾。

保持和互换：h命令和x命令

$ sed -e '/test/h' -e '/check/x'example -----互换模式空间和保持缓冲区的内容。也就是把包含test与check的行互换。

7. 脚本

Sed脚本是一个sed的命令清单，启动Sed时以-f选项引导脚本文件名。Sed对于脚本中输入的命令非常挑剔，在命令的末尾不能有任何空白或文本，如果在一行中有多个命令，要用分号分隔。以#开头的行为注释行，且不能跨行。

6、Sort命令：

sort

sort 命令对 File 参数指定的文件中的行排序，并将结果写到标准输出。如果 File 参数指定多个文件，那么 sort 命令将这些文件连接起来，并当作一个文件进行排序。

sort语法

[root@www ~]# sort [-fbMnrtuk][file or stdin]

选项与参数：

-f ：忽略大小写的差异，例如 A 与 a 视为编码相同；

-b ：忽略最前面的空格符部分；

-M ：以月份的名字来排序，例如 JAN, DEC 等等的排序方法；

-n ：使用『纯数字』进行排序(默认是以文字型态来排序的)；

-r ：反向排序；

-u ：就是 uniq，相同的数据中，仅出现一行代表；

-t ：分隔符，默认是用 [tab] 键来分隔；

-k ：以那个区间(field) 来进行排序的意思

对/etc/passwd 的账号进行排序

[root@www ~]# cat /etc/passwd |sort

adm:x:3:4:adm:/var/adm:/sbin/nologin

apache:x:48:48:Apache:/var/www:/sbin/nologin

bin:x:1:1:bin:/bin:/sbin/nologin

daemon:x:2:2:daemon:/sbin:/sbin/nologin

sort 是默认以第一个数据来排序，而且默认是以字符串形式来排序,所以由字母 a 开始升序排序。

/etc/passwd 内容是以 : 来分隔的，我想以第三栏来排序，该如何

[root@www ~]# cat /etc/passwd |sort -t ':' -k 3

root:x:0:0:root:/root:/bin/bash

uucp:x:10:14:uucp:/var/spool/uucp:/sbin/nologin

operator:x:11:0:operator:/root:/sbin/nologin

bin:x:1:1:bin:/bin:/sbin/nologin

games:x:12:100:games:/usr/games:/sbin/nologin

默认是以字符串来排序的，如果想要使用数字排序：

cat /etc/passwd | sort -t ':' -k3n

root:x:0:0:root:/root:/bin/bash

daemon:x:1:1:daemon:/usr/sbin:/bin/sh

bin:x:2:2:bin:/bin:/bin/sh

默认是升序排序，如果要倒序排序，如下

cat /etc/passwd | sort -t ':' -k3nr

nobody:x:65534:65534:nobody:/nonexistent:/bin/sh

ntp:x:106:113::/home/ntp:/bin/false

messagebus:x:105:109::/var/run/dbus:/bin/false

sshd:x:104:65534::/var/run/sshd:/usr/sbin/nologin

如果要对/etc/passwd,先以第六个域的第2个字符到第4个字符进行正向排序，再基于第一个域进行反向排序。

cat /etc/passwd | sort -t':' -k 6.2,6.4 -k 1r

sync:x:4:65534:sync:/bin:/bin/sync

proxy:x:13:13:proxy:/bin:/bin/sh

bin:x:2:2:bin:/bin:/bin/sh

sys:x:3:3:sys:/dev:/bin/sh

查看/etc/passwd有多少个shell:对/etc/passwd的第七个域进行排序，然后去重:

cat /etc/passwd | sort -t':' -k 7 -u

root:x:0:0:root:/root:/bin/bash

syslog:x:101:102::/home/syslog:/bin/false

daemon:x:1:1:daemon:/usr/sbin:/bin/sh

sync:x:4:65534:sync:/bin:/bin/sync

sshd:x:104:65534::/var/run/sshd:/usr/sbin/nologin

uniq

uniq命令可以去除排序过的文件中的重复行，因此uniq经常和sort合用。也就是说，为了使uniq起作用，所有的重复行必须是相邻的。

uniq语法

[root@www ~]# uniq [-icu]

选项与参数：

-i ：忽略大小写字符的不同；

-c ：进行计数

-u ：只显示唯一的行

testfile的内容如下

cat testfile

hello

world

friend

hello

world

hello

直接删除未经排序的文件，将会发现没有任何行被删除

#uniq testfile

hello

world

friend

hello

world

hello

排序文件，默认是去重

#cat testfile | sort |uniq

friend

hello

world

排序之后删除了重复行，同时在行首位置输出该行重复的次数

#sort testfile | uniq -c

1 friend

3 hello

2 world

仅显示存在重复的行，并在行首显示该行重复的次数

#sort testfile | uniq -dc

3 hello

2 world

仅显示不重复的行

sort testfile | uniq -u

friend

cut

cut命令可以从一个文本文件或者文本流中提取文本列。

cut语法

[root@www ~]# cut -d'分隔字符' -f fields <==用于有特定分隔字符

[root@www ~]# cut -c 字符区间 <==用于排列整齐的信息

选项与参数：

-d ：后面接分隔字符。与 -f 一起使用；

-f ：依据 -d 的分隔字符将一段信息分割成为数段，用 -f 取出第几段的意思；

-c ：以字符(characters) 的单位取出固定字符区间；

PATH 变量如下

[root@www ~]# echo $PATH

/bin:/usr/bin:/sbin:/usr/sbin:/usr/local/bin:/usr/X11R6/bin:/usr/games

# 1 | 2 | 3 | 4 | 5 | 6 | 7

将 PATH 变量取出，我要找出第五个路径。

#echo $PATH | cut -d ':' -f 5

/usr/local/bin

将 PATH 变量取出，我要找出第三和第五个路径。

#echo $PATH | cut -d ':' -f 3,5

/sbin:/usr/local/bin

将 PATH 变量取出，我要找出第三到最后一个路径。

echo $PATH | cut -d ':' -f 3-

/sbin:/usr/sbin:/usr/local/bin:/usr/X11R6/bin:/usr/games

将 PATH 变量取出，我要找出第一到第三个路径。

#echo $PATH | cut -d ':' -f 1-3

/bin:/usr/bin:/sbin:

将 PATH 变量取出，我要找出第一到第三，还有第五个路径。

echo $PATH | cut -d ':' -f 1-3,5

/bin:/usr/bin:/sbin:/usr/local/bin

实用例子:只显示/etc/passwd的用户和shell

#cat /etc/passwd | cut -d ':' -f1,7

root:/bin/bash

daemon:/bin/sh

bin:/bin/sh

统计文件里面有多少单词，多少行，多少字符。

wc语法

[root@www ~]# wc [-lwm]

选项与参数：

-l ：仅列出行；

-w ：仅列出多少字(英文单字)；

-m ：多少字符；

默认使用wc统计/etc/passwd

#wc /etc/passwd

40 45 1719 /etc/passwd

40是行数，45是单词数，1719是字节数

wc的命令比较简单使用，每个参数使用如下：

#wc -l /etc/passwd #统计行数，在对记录数时，很常用

40 /etc/passwd #表示系统有40个账户

#wc -w /etc/passwd #统计单词出现次数

45 /etc/passwd

#wc -m /etc/passwd #统计文件的字符数

参考：http://vbird.dic.ksu.edu.tw/linux_basic/0320bash_6.php#pipe_2

http://www.cnblogs.com/stephen-liu74/archive/2011/11/10/2240461.html

7、大型网站架构介绍：

当请求很多时需要用到多台服务器，即多台tomcat，此时请求需要确定访问哪台服务器，就需要用到NGINX服务器（静态服务器），来进行请求的转发，通过一定的规则来确定具体请求哪个服务器。

Nginx即实现负载均衡的功能。

部分请求不需要进行动态访问，只需要进行静态访问，此时可以将静态资源放在单独的服务器上（也可以直接放在Nginx上），然后通过Nginx实现动静分离。

Nginx不能是单点服务器，需要做高可用的设备，即多台Nginx，然后再前面加一个keepalived，相互之间可以沟通，主Keepalived会绑定网卡，如果主死了，辅助就会抢过IP，然后作为主服务器。

每个keeplived是一一对应一个Nginx，所有的keeplived共享一个IP地址，用户的访问不会有变化。

动态服务器会逐渐的进行扩展，会将action与service分离，并不断的扩展，此时需要dubbo来对服务层进行负载均衡分布，action访问时只需要访问dubbo即可，由dubbo来访问下面的服务器。

当服务器增加时进行分布的是数据库，多个数据库可以分别存储。

此时牵扯到分库分表的过程。淘宝发明了mycat，用来进行分库分表。

主要是用到hash算法，将一张表放到多个库中，实现分库，通过hash规则进行存取。

但是如果增加库时要使用一致性hash，来保证取模时值不变。

也可以建用附属的库，即为每个数据库建一个单独的数据库，即实现读写分离。每一个数据库是一个单独的mysql，然后将这些mysql配置在mycat中，才能够使用。

也可用缓存数据库，redis等。

如上图增加redis服务器，用来缓存部分请求。

另外，如果请求的视频或者图片，会非常占用空间，此时需要在前段增加服务器，即增加CDN服务器，安装了很多网站静态资源，用户访问时可以直接在CDN中进行获取。CDN服务器是分地区访问的，有专门的公司会建立CDN服务器，我们按流量给钱，将静态资源给到他们，由他们管理。

总图为：

Hadoop学习（二）——shell命令相关推荐

大数据_07 【hadoop HDFS的shell命令操作】
大数据_07 [hadoop HDFS的shell命令操作] 01 基本语法 02 常用普通命令实操 03 HDFS常用高级命令 04 HDFS适用场景 05 HDFS不适用场景 06 hdfs的安全 ...
hadoop的fs shell命令
目录官网fs shell命令地址官网HDFS权限管理用户指南 FS Shell是什么 cat chgrp chmod chown copyFromLocal copyToLocal cp du d ...
小白linux bash 学习二 shell Script
之前说了一些脚本和变量,其实都是为了现在讲shell Script也就是shell脚本做铺垫.按照我自己的理解来讲.其实shell 脚本就是一些基础的语法和命令的总和, 所以要学shell 脚本,那么 ...
Linux学习：shell命令（查找和索引）
一.find:查找文件 (1)按文件名称查找参数:-name find 路径 -name "文件名" (2)按类型查找参数:-type find 路径 -type 文件类型注 ...
Linux学习：shell命令
(1)data 获得系统时间 date +"%Y-%m-%d" -- 格式化获得当前日期 (2)umask 文件权限掩码,创建一个文件时,从文件中拿掉的权限 umask -S 更直 ...
Linux学习：shell 命令（软件安装和卸载）
(1)apt-get(ubuntu) 安装 tree 命令:sudo apt-get install tree 卸载 tree 命令:sudo apt-get remove tree 更新软件列表:s ...
Linux学习：shell 命令（用户管理）
(1)创建用户:useradd 语法:sudo useradd -s /bin/bash -g itcast -d /home/itcast -m itcast 参数: -s :指定 shell -g ...
Linux学习：shell 命令（压缩包管理）
1.zip 压缩命令(生成:.zip 文件) (1)压缩: zip -r name.zip 原材料例如:zip -r Calc.zip Calc/ (2)解压: unzip name.zip 例如: ...
Linux学习：shell命令（文件权限、用户、用户组）
一.文件权限.用户.用户组 d rwx rwx r-x 2 itcast itcast 4096 1 月 14 17:33 bb 下面一一来讲解这几位: (1)第 1 位:文件类型(共 7 种)(注意 ...
Linux学习：shell命令（文件和目录相关）
(1)通配符: ∗*∗ 代表任意多个字符 ? 代表任意一个字符 (2)ls:(list)显示目录下的文件信息语法:ls[option][path | file] option为如下时: -1: 显示 ...

Hadoop学习（二）——shell命令

Hadoop学习（二）——shell命令相关推荐

最新文章

热门文章