一、AWK
1.1 简介
- AWK是Linux中重要的文本处理工具
- Linux三剑客只一
- 处理的对象可以是一个具体的文件,也可以是一个命令的执行结果
- AWK按行读取文件,将每一行视为一条记录
案例一:获取系统中每个用户的uid
方法一:cat /etc/passwd | awk -F ":" '{print $3}'
方法二:awk -F ":" '{print $3}' /etc/passwd
案例二:显示root用户的家目录
方法一:head -n1 /etc/passwd | awk -F ":" '{print %6}'
方法二:grep "^root\>" /etc/passwd | awk -F ":" '{print $6}'
1.2 awk的基本格式
awk [选项] '模式{动作}' 文件
- 选项:
- -F "分隔符" : 用什么字符将这行内容分成一段一段的
- 模式:在处理一行之前先要判断的条件
- 如果条件满足,就处理这行,否则,直接开始读取下一行
- 如果不设置条件,则处理文件中的每一行
- 动作:模式中的条件在满足的情况下,对这行内容执行的操作
awk用来表示每一段的方法
- $1:第一个字段
- $2:第二个字段
- $3:第三个字段
- $NF:表示每行的最后一个字段
- $0:表示一整行
案例
1、获取每行的最后一个字段
awk -F "/" '{print $NF}‘ /etc/passwd’
2、显示系统中的全部用户名awk -F ":" '{print $1}' /etc/passwd
3、显示系统中的前三个用户
awk -F ":" 'NR<=3{print $1}' /etc/passwd
- NR【Number of Record】:awk的内置变量,表示正在读取的是第几条记录
- 当读取第一行内容的时候,NR的值是1;当读取第二行的时候,NR的值是2,依次类推
- 每读取一行内容,NR的值自动加1
1.3 概念
- 记录:文件中的一行就是一条记录
- awk在工作的时候,每次会读取一条记录
- 每读取一条,NR值加1
- 字段:一行被分隔的多个部分,一个部分就是一个字段
- 分隔符:指定用什么来将这个记录分成一段一段的
案例
1、仅显示/etc/passwd中的第三行内容
awk -F ":" 'NR==3 {print $0}' /etc/passwd
2、输出系统中每个用户的姓名以及对应的shell类型awk -F ":" '{print $1,"shell is ",$NF}' /etc/passwd
注意:输出多个字段的情况下,多个字段中间用逗号分隔
1.4 变量
- FS:表示字段分隔符(默认是任何空格)
- NF:表示字段数(当前这个记录中字段的个数)
- NR:表示记录数,在执行过程中对应于当前的行号
- OFS:表示输出域分隔符
- ORS:表示输出记录分隔符(默认值是一个换行符)
- RS:表示记录分隔符(默认是一个换行符)
案例:
1、输出3-5行的用户姓名、和shell类型
方法一:awk -F ":" 'NR>=3&&NR<=5{print $1,$NF}' /etc/passwd
方法二:head -n5 /etc/passwd | tail -n3 | awk -F ":" '{print $1,$NF}'
2、获取ens33的IP地址方法一:ip addr show ens33 | grep "inet\>" | awk -F " " '{print $2}' | awk -F "/" '{print $1}'
方法二:ip addr show ens33 | awk -F " " 'NR==3{print $2}' | awk -F "/" '{print $1}'
方法三:ip addr show ens33 | awk -F "[/ ]+" 'NR==3{print $3}'
3、统计/tmp/a.txt 中每行有多少个单词awk -F " " '{print "第",NR,"行有",NF,"单词"}' /tmp/a.txt
1.5 awk结合正则表达式
1)在awk中进行搜索操作
- 格式:awk -F ":" '/过滤的内容/{print xxx}'
案例:显示tom用户的uid
awk -F ":" '/tom '{print $3}' /etc/passwd
2)awk和^的结合使用
案例:/etc/passwd匹配以root为开头的行,打印整条记录
awk -F ":" '/^root\>/{print $0}' /etc/passwd
3)awk和$的结合使用
案例:/etc/passwd匹配以bash为结尾的行,打印整条记录
awk -F ":" '/bash$/{print $0}' passwd
4)awk和.的结合使用
案例:/etc/passwd匹配以r和t之间有两个字符的行,打印整条记录
awk -F ":" '/r..t/{print $0}' /etc/passwd
5)awk和.*的结合使用
案例:/etc/passwd匹配以r和t之间有任意字符的行,打印整条记录
awk -F ":" '/r.*t/{print $0}' /etc/passwd
6)指定多个分隔符
- 指定单个分割符:-F "xxx"
- 指定多个分隔符:-F [xxx],分隔符中如果有空格和其他符号同时作为分隔符,那么[ ]中空格必须在最后
- 指定多个连续的符号作为分隔符,可以用+
awk -F "[/-]+" '{print $1}' 1.txt
1.6 awk练习
1)在passwd文件中,找用户名是以a为开头的行
awk -F ":" '$1~/^a/{print $0}' /etc/passwd
2)倒数第二列$(NF-1)这一列查找匹配以tom结尾的行
awk -F ":" '$(NF-1)~/tom$/{print NR,$0}' /etc/passwd
3)$3这一列查找匹配以a或b或s开头的行
方法一:awk -F ":" '$3~/^(a|b|s)/{print $0}' /etc/passwd
方法二:awk -F ":" '$3~/^[abs]/{print $0}' /etc/passwd
4)取ens33网卡ip地址
方法一:纯grep方法
ip addr show ens33 | grep -oP '(?<=inet\s)\d+(\.\d+){3}'
方法二:grep结合awk
ip addr show ens33 | grep "inet\>" | awk -F " " '{print $2}' | awk -F "/" '{print $1}'
方法三:纯awk
ip addr show ens33 | awk -F "[/ ]+" 'NR==3{print $3}'ip addr show ens33 | awk -F "[/ ]+" '/inet\>/{print $3}'
ip addr show ens33 | awk -F "[/ ]+" '$NF~/ens33$/{print $3}'
5)找出/etc/passwd的第六个字段(以:为分隔符)以/sbin开头的行
awk -F ":" '$6~/^\/sbin/{print $0}' /etc/passwd
6)找出/etc/passwd的第六个字段(以:为分隔符)不是以/sbin开头的行
awk -F ":" '$6!~/^\/sbin/{print $0}' /etc/passwd
1.7 awk的表达式
序号 | 符号 | 含义 | 举例 |
1 | < | 小于【处理数字】 | NR<7 |
2 | > | 大于【处理数字】 | NR>5 |
3 | == | 等于【处理数字】 | NR==3 |
4 | != | 不等【处理数字】 | NR!=6 |
5 | >= | 大于等于【处理数字】 | NR>=3 |
6 | <= | 小于等于【处理数字】 | NR<=4 |
7 | ~ | 用于进行正则表达式匹配【处理字符串】 | $3~/^abc/ |
8 | !~ | 用于进行正则表达式不匹配【处理字符串】 | $3!~/^abc/ |
1.8 awk模块
awk的模块包含两个
BEGIN:
END:
BEGIN模块
- 用于定义一个动作,用{ }表示要执行的动作
- 这个动作要在读取文件之前执行
- 这里的动作大多要用于定义变量,包括内置变量,自定义变量
END模块
- 用于定义一个动作,用{ }表示要执行的动作
- 这个动作是awk将文件中的内容读取完成之后,而且处理完成以后,END模块才会执行
- 这里的动作通常用于输出一个结果
格式:
- awk 'BEGIN{}END{}' fileName
- 工作过程
- step 1:执行BEGIN中的操作,通常是定义变量:内置变量、自定义变量
- step 2:BEGIN中的操作执行完成以后,读取一行fileName文件中的内容,然后执行一次中间的动作;然后重复读取fileName中的每行内容,并重复执行中间的动作
- step 3:fileName中的内容全部读取完成后,执行END中的操作,通常是用于输出
案例:
1、输出每个用户的用户名、id、shell
方法一:awk -F ":" '{print $1,$3,$NF}' /etc/passwd
方法二:awk 'BEGIN{FS=":"}{print $1,$3,$NF}' /etc/passwd
2、统计 /etc/passwd 中有多少行awk 'BEGIN{num=0}{num+=1}END{print num}' /etc/passwd
3、统计a.txt中有多少个单词方法一:awk 'BEGIN{sum=0}{sum+=NF}END{print sum}' a.txt
方法二:cat 1.txt | tr ' ' '\n' >2.txt
awk '{num+=1}END{print num}' 2.txttr ' ' '\n' 作用每个空格字符替换为换行符
4、统计系统中有多少用户的shell类型是/bin/bashawk 'BEGIN{FS=":"; sum=0}$NF~/\/bin\/bash$/{sum+=1}END{print sum}' /etc/passwd
5、输出前三个用户的用户名、id、shell
awk 'BEGIN{FS=":"}NR<=3{print $1,$3,$NF}' /etc/passwd
注意:通常每种都有默认值
- FS默认值就是空格
- OFS默认值就是空格
- ORS默认是换行符
- RS默认是换行符
案例:
1、在读取文件前输出一个提示信息
awk 'BEGIN{print "start to awk process..."}{print $0}' /etc/passwd
2、在读取文件前和后分别输出一个提示信息
awk 'BEGIN{print "start to awk process..."}{print $0}END{print "over....."}' /etc/passwd
3、统计文件中的空白行的行数方法一:grep "^$" a.txt | wc -l
方法二:awk 'BEGIN{num=0}/^$/{num+=1}END{print num}' a.txt
方法三:awk '/^$/{num+=1}END{print num}' a.txt
4、统计文件中以#开头的行的行数awk 'BEGIN{num=0}/^#/{num+=1}END{print num}' a.txt
awk '/^#/{num+=1}END{print num}' a.txt
5、统计系统中uid大于大于499的用户个数awk 'BEGIN{num=0}$3>499{num+=1}END{print num}' /etc/passwd
6、计算1~100的累加和
seq 100 | awk 'BEGIN{sum=0}{sum+=$0}END{print sum}'
7、将用户信息格式中的密码占位符和描述信息去除掉awk 'BEGIN{FS=":";OFS=":"}{print $1,$3,$4,$6,$7}' /etc/passwd
1.9 awk 数组
变量:一个变量只能存储一个值
- name=tom
- age=20
数组:一组相同数据类型的集合
- userList = ['tom','jerry','bajie','wukong']
- 三个概念
- 数组名
- 数组的索引
- 数组的索引对应的值
定义数组:
- 数组名[索引]=值
案例:
- 数组名:userList
定义数组元素和值:
- userList[1]=tom
- userList[2]=jerry
- userList[3=bok
- userList[4]=bajie
- userInfo["name"]="tom"
- userInfo["age"]=33
- userInfo["addr"]="hebei"
获取数组中的值
- userList[2]
- userInfo["name"]
数组的索引
- 数字、数字索引的变号是从0开始
- 字母
- 字符串
案例
[root@ansible tmp]# awk
'BEGIN{stu[0]="tom";stu[1]="jerry";stu[2]="jack";print stu[1]}'
jerry
[root@ansible tmp]# awk
'BEGIN{stu[0]="tom";stu[1]="jerry";stu[2]="jack";print stu[2]}'
jack
[root@ansible tmp]# awk
'BEGIN{stu["name"]="tom";stu["age"]="20";stu["tel"]="1308888123";print stu["age"]}'
20
[root@ansible tmp]# awk
'BEGIN{stu["name"]="tom";stu["age"]="20";stu["tel"]="1301111";print stu["tel"]}'
1301111
1.10 数组的循环遍历
- 格式:for(变量 in 数组名)
- 变量中存储的是数组的索引
[root@test ~]# awk
'BEGIN{userList[0]="tom";userList[1]="jerry";userList[2]="jack"}
END{for(var in userList) print "第",var1+1,"个用户是",userList[var]}' mypwd
第 1 个用户是 tom
第 2 个用户是 jerry
第 3 个用户是 jack
[root@test ~]# awk
'BEGIN{info["name"]="tom";info["age"]="25";info["addr"]="beijing"}
END(for var in info) print var,"is",info[var]}' mypwd
age is 25
addr is beijing
name is tom
[root@test ~]# awk
'BEGIN{info["www.baidu.com"]=5;info["ftp.baidu.com"]=11;info["mail.baidu.com"]=
9;info[cdn.baidu.com"]=23}END(for(var in info) print var,"is",info[var]}' mypwd
ftp.baidu.com is 11
cdn.baidu.com is 23
www.baidu.com is 5
mail.baidu.com is 9
案例:分析httpd的日志文件,对各个域名的访问次数进行排序
http://www.baidu.com/index.html
http://mail.baidu.com/index.html
http://ftp.baidu.com/index.html
http://ftp.baidu.com/index.html
http://www.baidu.com/index.html
http://ftp.baidu.com/index.html
http://mail.baidu.com/index.html
http://mail.baidu.com/index.html
http://www.baidu.com/index.html
http://ftp.baidu.com/index.html
http://www.baidu.com/index.html
http://www.baidu.com/index.html
http://ftp.baidu.com/index.html
http://ftp.baidu.com/index.html
获取每个域名的出去次数
[root@ansible ~]# awk -F "/+" '{list[$2]++}END{for(site in list)print site,
list[site]}' web.log
ftp.baidu.com 6
www.baidu.com 5
mail.baidu.com 3
基于域名的出现次数进行排序
方法一:
[root@ansible ~]# awk -F "/+" '{list[$2]++}END{for(site in list)print
site,list[site]}' web.log | sort -n -k2 -r
ftp.baidu.com 6
www.baidu.com 5
mail.baidu.com 3
方法二:
[root@ensible ~]# awk -F "/+" '{print $2}' web.log | sort | uniq -c | sort -k1 -n
3 mail.baidu.com
5 www.baidu.com
6 ftp.baidu.com
案例:分析/var/log/secure日志,显示用户从哪些IP登录系统,并对ip出现次数进行排序
[root@test log]# awk -F "(from|port)" /Accepted password/{ip[$2]+=1}END{
for(var in ip)print var,ip[var]}' log1.txt | sort -t " " -k2 -r -n
192.168.31.100 36
192.168.1.123 24
192.168.1.5 2
192.168.1.100 2
192.168.1.8 1
案例:统计每天产生多少条日志信息
awk '{day[$1,$2]++}END{for(var in day)print var,day[var]}' log1.txt
案例:统计9月13日的每小时产生多少条日志
awk -F "[: ]+" '$2==13(date[$3]++}END{for(var in date)print var,date[var]}' log1.txt
案例:统计9月13日的12点到14点期间,一共产生多少条日志
awk -F "[: ]+" '$2==13&&$3>=12&&$3<=14{sum+=1}END{print sum}' log1.txt
案例:统计9月13日的12点到14点期间,用户登录过多少次
awk -F "[: ]+" '/Accepted password/&&$2==13&&$3>=12&&$3<=14{sum++}END{print sum}' log1.txt
案例:统计9月13日的12点到14点期间,用户通过哪些IP登录过,分别显示登录过多少次
awk -F "[: ]+" '$0~/Accepted password/&&$2==13&&$3>=12&&$3<=14{ip[$3]++}END{for
(var in ip)print var,ip[var]}' log1.txt
192.168.1.123 2
192.168.1.100 5
192.168.1.8 3
sort命令
- 作用:排序
- 选项
- -n:基于数字进行排序
- -r:逆序排序
- -k#:根据那个字段进行排序