首页 > 系统相关 >Linux初学(十二)AWK进阶

Linux初学(十二)AWK进阶

时间:2024-04-06 12:31:36浏览次数:34  
标签:baidu 进阶 passwd etc awk Linux print AWK com

一、AWK

1.1 简介

  • AWK是Linux中重要的文本处理工具
  • Linux三剑客只一
  • 处理的对象可以是一个具体的文件,也可以是一个命令的执行结果
  • AWK按行读取文件,将每一行视为一条记录

案例一:获取系统中每个用户的uid

方法一:cat /etc/passwd | awk -F ":" '{print $3}'

方法二:awk -F ":" '{print $3}' /etc/passwd

案例二:显示root用户的家目录

方法一:head -n1 /etc/passwd | awk -F ":" '{print %6}'

方法二:grep "^root\>" /etc/passwd | awk -F ":" '{print $6}'

1.2 awk的基本格式

awk [选项] '模式{动作}' 文件

  • 选项:
    • -F "分隔符" : 用什么字符将这行内容分成一段一段的
  • 模式:在处理一行之前先要判断的条件
    • 如果条件满足,就处理这行,否则,直接开始读取下一行
    • 如果不设置条件,则处理文件中的每一行
  • 动作:模式中的条件在满足的情况下,对这行内容执行的操作

awk用来表示每一段的方法

  • $1:第一个字段
  • $2:第二个字段
  • $3:第三个字段
  • $NF:表示每行的最后一个字段
  • $0:表示一整行

案例

1、获取每行的最后一个字段

awk -F "/" '{print $NF}‘ /etc/passwd’


2、显示系统中的全部用户名

awk -F ":" '{print $1}' /etc/passwd


3、显示系统中的前三个用户
awk -F  ":" 'NR<=3{print $1}' /etc/passwd

  • NR【Number of Record】:awk的内置变量,表示正在读取的是第几条记录
    • 当读取第一行内容的时候,NR的值是1;当读取第二行的时候,NR的值是2,依次类推
    • 每读取一行内容,NR的值自动加1

1.3 概念

  • 记录:文件中的一行就是一条记录
    • awk在工作的时候,每次会读取一条记录
    • 每读取一条,NR值加1
  • 字段:一行被分隔的多个部分,一个部分就是一个字段
  • 分隔符:指定用什么来将这个记录分成一段一段的

案例

1、仅显示/etc/passwd中的第三行内容

awk -F ":" 'NR==3 {print $0}' /etc/passwd


2、输出系统中每个用户的姓名以及对应的shell类型

awk -F ":" '{print $1,"shell is ",$NF}' /etc/passwd

注意:输出多个字段的情况下,多个字段中间用逗号分隔

1.4 变量

  • FS:表示字段分隔符(默认是任何空格)
  • NF:表示字段数(当前这个记录中字段的个数)
  • NR:表示记录数,在执行过程中对应于当前的行号
  • OFS:表示输出域分隔符
  • ORS:表示输出记录分隔符(默认值是一个换行符)
  • RS:表示记录分隔符(默认是一个换行符)

案例:

1、输出3-5行的用户姓名、和shell类型

方法一:awk -F ":" 'NR>=3&&NR<=5{print $1,$NF}' /etc/passwd

方法二:head -n5 /etc/passwd | tail -n3 | awk -F ":" '{print $1,$NF}'

2、获取ens33的IP地址

方法一:ip addr show ens33 | grep "inet\>" | awk -F " " '{print $2}' | awk -F "/" '{print $1}'

方法二:ip addr show ens33 | awk -F " " 'NR==3{print $2}' | awk -F "/" '{print $1}'

方法三:ip addr show ens33 | awk -F "[/ ]+" 'NR==3{print $3}'

3、统计/tmp/a.txt 中每行有多少个单词

awk -F " " '{print "第",NR,"行有",NF,"单词"}' /tmp/a.txt

1.5 awk结合正则表达式

1)在awk中进行搜索操作

  • 格式:awk -F ":" '/过滤的内容/{print xxx}'

案例:显示tom用户的uid

awk -F ":" '/tom '{print $3}' /etc/passwd

2)awk和^的结合使用

案例:/etc/passwd匹配以root为开头的行,打印整条记录

awk -F ":" '/^root\>/{print $0}' /etc/passwd

3)awk和$的结合使用

案例:/etc/passwd匹配以bash为结尾的行,打印整条记录

awk -F ":" '/bash$/{print $0}' passwd

4)awk和.的结合使用

案例:/etc/passwd匹配以r和t之间有两个字符的行,打印整条记录

awk -F ":" '/r..t/{print $0}' /etc/passwd

5)awk和.*的结合使用

案例:/etc/passwd匹配以r和t之间有任意字符的行,打印整条记录

awk -F ":" '/r.*t/{print $0}' /etc/passwd

6)指定多个分隔符

  • 指定单个分割符:-F "xxx"
  • 指定多个分隔符:-F [xxx],分隔符中如果有空格和其他符号同时作为分隔符,那么[ ]中空格必须在最后
  • 指定多个连续的符号作为分隔符,可以用+

awk -F "[/-]+" '{print $1}'  1.txt

1.6 awk练习

1)在passwd文件中,找用户名是以a为开头的行

awk -F ":" '$1~/^a/{print $0}'  /etc/passwd

2)倒数第二列$(NF-1)这一列查找匹配以tom结尾的行

awk -F ":" '$(NF-1)~/tom$/{print NR,$0}' /etc/passwd

3)$3这一列查找匹配以a或b或s开头的行

方法一:awk -F ":" '$3~/^(a|b|s)/{print $0}'  /etc/passwd

方法二:awk -F ":" '$3~/^[abs]/{print $0}'  /etc/passwd

4)取ens33网卡ip地址

方法一:纯grep方法

ip addr show ens33 | grep -oP '(?<=inet\s)\d+(\.\d+){3}'

方法二:grep结合awk
ip addr show ens33 | grep "inet\>" | awk -F " " '{print $2}' | awk -F "/" '{print $1}'

方法三:纯awk
ip addr show ens33 | awk -F "[/ ]+" 'NR==3{print $3}'

ip addr show ens33 | awk -F "[/ ]+"  '/inet\>/{print $3}'

ip addr show ens33 | awk -F "[/ ]+"  '$NF~/ens33$/{print $3}'

5)找出/etc/passwd的第六个字段(以:为分隔符)以/sbin开头的行

awk -F ":" '$6~/^\/sbin/{print $0}' /etc/passwd

6)找出/etc/passwd的第六个字段(以:为分隔符)不是以/sbin开头的行

awk -F ":" '$6!~/^\/sbin/{print $0}' /etc/passwd

1.7 awk的表达式

序号符号含义举例
1<小于【处理数字】NR<7
2>大于【处理数字】NR>5
3==等于【处理数字】NR==3
4!=不等【处理数字】NR!=6
5>=大于等于【处理数字】NR>=3
6<=小于等于【处理数字】NR<=4
~用于进行正则表达式匹配【处理字符串】$3~/^abc/
8!~用于进行正则表达式不匹配【处理字符串】$3!~/^abc/

1.8 awk模块

awk的模块包含两个

BEGIN:

END:

BEGIN模块

  • 用于定义一个动作,用{ }表示要执行的动作
  • 这个动作要在读取文件之前执行
  • 这里的动作大多要用于定义变量,包括内置变量,自定义变量

END模块

  • 用于定义一个动作,用{ }表示要执行的动作
  • 这个动作是awk将文件中的内容读取完成之后,而且处理完成以后,END模块才会执行
  • 这里的动作通常用于输出一个结果

格式:

  • awk 'BEGIN{}END{}' fileName
  • 工作过程
    • step 1:执行BEGIN中的操作,通常是定义变量:内置变量、自定义变量
    • step 2:BEGIN中的操作执行完成以后,读取一行fileName文件中的内容,然后执行一次中间的动作;然后重复读取fileName中的每行内容,并重复执行中间的动作
    • step 3:fileName中的内容全部读取完成后,执行END中的操作,通常是用于输出

案例:

1、输出每个用户的用户名、id、shell

方法一:awk -F ":" '{print $1,$3,$NF}' /etc/passwd

方法二:awk 'BEGIN{FS=":"}{print $1,$3,$NF}' /etc/passwd

2、统计 /etc/passwd 中有多少行

awk 'BEGIN{num=0}{num+=1}END{print num}' /etc/passwd

3、统计a.txt中有多少个单词

方法一:awk 'BEGIN{sum=0}{sum+=NF}END{print sum}' a.txt
方法二:

                cat 1.txt | tr ' ' '\n' >2.txt
                awk '{num+=1}END{print num}' 2.txt

                tr ' ' '\n' 作用每个空格字符替换为换行符


4、统计系统中有多少用户的shell类型是/bin/bash

awk 'BEGIN{FS=":"; sum=0}$NF~/\/bin\/bash$/{sum+=1}END{print sum}' /etc/passwd

5、输出前三个用户的用户名、id、shell
awk 'BEGIN{FS=":"}NR<=3{print $1,$3,$NF}' /etc/passwd

注意:通常每种都有默认值

  • FS默认值就是空格
  • OFS默认值就是空格
  • ORS默认是换行符
  • RS默认是换行符

案例:

1、在读取文件前输出一个提示信息
awk 'BEGIN{print "start to awk process..."}{print $0}' /etc/passwd

2、在读取文件前和后分别输出一个提示信息
awk 'BEGIN{print "start to awk process..."}{print $0}END{print "over....."}'  /etc/passwd

3、统计文件中的空白行的行数

方法一:grep "^$" a.txt | wc -l

方法二:awk 'BEGIN{num=0}/^$/{num+=1}END{print num}' a.txt

方法三:awk '/^$/{num+=1}END{print num}' a.txt


4、统计文件中以#开头的行的行数

awk 'BEGIN{num=0}/^#/{num+=1}END{print num}' a.txt

awk '/^#/{num+=1}END{print num}' a.txt

5、统计系统中uid大于大于499的用户个数

awk 'BEGIN{num=0}$3>499{num+=1}END{print num}' /etc/passwd

6、计算1~100的累加和
seq 100 | awk 'BEGIN{sum=0}{sum+=$0}END{print sum}'


7、将用户信息格式中的密码占位符和描述信息去除掉

awk 'BEGIN{FS=":";OFS=":"}{print $1,$3,$4,$6,$7}' /etc/passwd

1.9 awk 数组

变量:一个变量只能存储一个值

  • name=tom
  • age=20

数组:一组相同数据类型的集合

  • userList = ['tom','jerry','bajie','wukong']
  • 三个概念
    • 数组名
    • 数组的索引
    • 数组的索引对应的值

定义数组:

  • 数组名[索引]=值

案例:

  • 数组名:userList

定义数组元素和值:

  • userList[1]=tom
  • userList[2]=jerry
  • userList[3=bok
  • userList[4]=bajie
  • userInfo["name"]="tom"
  • userInfo["age"]=33
  • userInfo["addr"]="hebei"

获取数组中的值

  • userList[2]
  • userInfo["name"]

数组的索引

  • 数字、数字索引的变号是从0开始
  • 字母
  • 字符串

案例

[root@ansible tmp]# awk 
'BEGIN{stu[0]="tom";stu[1]="jerry";stu[2]="jack";print stu[1]}'
jerry

[root@ansible tmp]# awk 
'BEGIN{stu[0]="tom";stu[1]="jerry";stu[2]="jack";print stu[2]}'
jack

[root@ansible tmp]# awk 
'BEGIN{stu["name"]="tom";stu["age"]="20";stu["tel"]="1308888123";print stu["age"]}'
20

[root@ansible tmp]# awk 
'BEGIN{stu["name"]="tom";stu["age"]="20";stu["tel"]="1301111";print stu["tel"]}'
1301111

1.10 数组的循环遍历

  • 格式:for(变量 in 数组名)
  • 变量中存储的是数组的索引
[root@test ~]# awk
'BEGIN{userList[0]="tom";userList[1]="jerry";userList[2]="jack"}
END{for(var in userList) print "第",var1+1,"个用户是",userList[var]}' mypwd
第 1 个用户是 tom
第 2 个用户是 jerry
第 3 个用户是 jack

[root@test ~]# awk
'BEGIN{info["name"]="tom";info["age"]="25";info["addr"]="beijing"}
END(for var in info) print var,"is",info[var]}' mypwd
age is 25
addr is beijing
name is tom

[root@test ~]# awk
'BEGIN{info["www.baidu.com"]=5;info["ftp.baidu.com"]=11;info["mail.baidu.com"]=
9;info[cdn.baidu.com"]=23}END(for(var in info) print var,"is",info[var]}' mypwd
ftp.baidu.com is 11
cdn.baidu.com is 23
www.baidu.com is 5
mail.baidu.com is 9
案例:分析httpd的日志文件,对各个域名的访问次数进行排序 http://www.baidu.com/index.html http://mail.baidu.com/index.html http://ftp.baidu.com/index.html http://ftp.baidu.com/index.html http://www.baidu.com/index.html http://ftp.baidu.com/index.html http://mail.baidu.com/index.html http://mail.baidu.com/index.html http://www.baidu.com/index.html http://ftp.baidu.com/index.html http://www.baidu.com/index.html http://www.baidu.com/index.html http://ftp.baidu.com/index.html http://ftp.baidu.com/index.html 获取每个域名的出去次数
[root@ansible ~]# awk -F "/+" '{list[$2]++}END{for(site in list)print site,
list[site]}' web.log
ftp.baidu.com 6
www.baidu.com 5
mail.baidu.com 3
基于域名的出现次数进行排序
方法一:
[root@ansible ~]# awk -F "/+" '{list[$2]++}END{for(site in list)print
site,list[site]}' web.log | sort -n -k2 -r
ftp.baidu.com 6
www.baidu.com 5
mail.baidu.com 3

方法二:
[root@ensible ~]# awk -F "/+" '{print $2}' web.log | sort | uniq -c | sort -k1 -n
3 mail.baidu.com
5 www.baidu.com
6 ftp.baidu.com
案例:分析/var/log/secure日志,显示用户从哪些IP登录系统,并对ip出现次数进行排序
[root@test log]# awk -F "(from|port)" /Accepted password/{ip[$2]+=1}END{
for(var in ip)print var,ip[var]}' log1.txt | sort -t " " -k2 -r -n
192.168.31.100 36
192.168.1.123 24
192.168.1.5 2
192.168.1.100 2
192.168.1.8 1
案例:统计每天产生多少条日志信息
awk '{day[$1,$2]++}END{for(var in day)print var,day[var]}' log1.txt
案例:统计9月13日的每小时产生多少条日志
awk -F "[: ]+" '$2==13(date[$3]++}END{for(var in date)print var,date[var]}' log1.txt
案例:统计9月13日的12点到14点期间,一共产生多少条日志
awk -F "[: ]+" '$2==13&&$3>=12&&$3<=14{sum+=1}END{print sum}' log1.txt
案例:统计9月13日的12点到14点期间,用户登录过多少次
awk -F "[: ]+" '/Accepted password/&&$2==13&&$3>=12&&$3<=14{sum++}END{print sum}' log1.txt
案例:统计9月13日的12点到14点期间,用户通过哪些IP登录过,分别显示登录过多少次
awk -F "[: ]+" '$0~/Accepted password/&&$2==13&&$3>=12&&$3<=14{ip[$3]++}END{for
(var in ip)print var,ip[var]}' log1.txt
192.168.1.123 2
192.168.1.100 5
192.168.1.8 3

sort命令

  • 作用:排序
  • 选项
    • -n:基于数字进行排序
    • -r:逆序排序
    • -k#:根据那个字段进行排序

标签:baidu,进阶,passwd,etc,awk,Linux,print,AWK,com
From: https://blog.csdn.net/ys1215/article/details/137209329

相关文章

  • 在Linux中,什么是网络接口配置?如何配置IP地址?
    在Linux系统中,网络接口配置是指设置和调整系统网络接口的参数,以便系统能够正确地连接到网络并进行通信。网络接口可以是物理的,如以太网端口,也可以是虚拟的,如虚拟机的虚拟网络接口或VPN连接。1.网络接口配置的作用网络连接:配置网络接口使得Linux系统能够连接到局域网(LAN)或广域......
  • FFmpeg开发笔记(十二)Linux环境给FFmpeg集成libopus和libvpx
    ​MP4是最常见的视频封装格式,在《FFmpeg开发实战:从零基础到短视频上线》一书的“1.2.3 自行编译与安装FFmpeg”介绍了如何给FFmpeg集成x264和x265两个库,从而支持H.264和H.265两种标准的编解码。视频的封装格式除了古老的MP4和ASF之外,还有较新的WebM格式,该格式的音频编码主要采......
  • 在Linux中,如何检查磁盘使用情况和剩余空间?
    在Linux系统中,检查磁盘使用情况和剩余空间是系统管理和维护的常见任务。有多种命令可以帮助你获取磁盘空间的详细信息。以下是一些常用的方法:1.df命令df(DiskFree)命令用于显示文件系统的磁盘空间使用情况。它可以报告各个挂载点的总空间、已用空间、可用空间和挂载信息。基本......
  • 在Linux中,虚拟内存和交换空间作用是什么?
    在Linux系统中,虚拟内存和交换空间是用于扩展物理内存(RAM)容量的两种机制。它们允许系统在物理内存不足时继续运行程序和处理数据,从而提高了系统的可用性和稳定性。1.虚拟内存(VirtualMemory)概念:虚拟内存是一种内存管理技术,它使得系统可以访问比物理内存更多的内存空间。虚拟......
  • 在Linux中,SELinux和AppArmor安全模块作用是什么?
    在Linux中,SELinux(Security-EnhancedLinux)和AppArmor(ApplicationArmor)是两种强制访问控制(MAC)安全模块,它们用于提供额外的安全层,以限制程序和用户的权限,从而保护系统免受恶意软件和未授权访问的威胁。1.SELinux(Security-EnhancedLinux)作用:强制访问控制:SELinux通过强制执行......
  • 在Linux中,什么是系统调用?举例说明其作用是什么?
    在Linux中,系统调用(SystemCall)是用户空间程序与内核空间进行交互的一种机制。当用户程序需要执行诸如文件操作、网络通信、进程管理等不能直接由用户空间代码执行的操作时,它们会通过系统调用来请求内核代为完成这些操作。系统调用的作用主要体现在以下几个方面:抽象硬件操作:系......
  • [转帖]如何在Ubuntu Linux上使用SNAP安装Docker
    https://zhuanlan.zhihu.com/p/633483748 2人赞同了该文章在UbuntuLinux上安装Docker的最快捷的方法之一是使用SNAP命令。在这里,我们将学习如何使用它。对于那些处理容器化应用程序的人来说,Docker无需介绍。它已经被全球数百家企业和开发人员使用。然而,那些想要......
  • 操作系统综合题之“银行家算法,计算还需要资源数量和可用资源梳理和写出安全队列和银行
    一、设系统中有三种类型资源A、B、C,资源数量分别为15、7、18,系统有五个进程P1、P2、P3、P4、P5,其最大资源需求量分别为(5,4,9)、(4,3,5)、(3,0,5)、(5,2,5)、(4,2,4)。在T0时刻,系统为个进程已经分配的资源数量分别为(2,1,2)、(3,0,2)、(3,0,4)、(2,0,4)、(3,1,4)。若系统采用银行家算法实施死锁避免策略......
  • 详细介绍Linux SSH远程免密登陆实现方法
    目录概述1安装工具2产生pub_key以及相关文件2.1在本机上产生pub_key2.2在linux生成key2.3追加.pub2.4修改authorized_keys的权限3windows平台上添加秘钥4验证 4.1登录文件管理系统4.2登录控制台概述本文主要介绍使用WinScp和putty工具搭建一个ssh......
  • linux创建新分区扩展磁盘空间
    sudofdisk/dev/sda在fdisk中按下n键创建新分区。选择分区类型(通常是主分区)并输入默认的分区编号4。确保新分区的起始扇区是/dev/sda3结束的下一个扇区。设置分区结束扇区为默认值以占用剩余的空间。将分区类型设置为LVM或者其他你需要的文件系统类型。保存并退......