首页 > 系统相关 >Linux的文本处理工具浅谈-awk sed grep

Linux的文本处理工具浅谈-awk sed grep

时间:2022-12-28 17:00:57浏览次数:77  
标签:oldboy grep 浅谈 文本处理 person sed awk 匹配 txt

【【功能说明】

用于文本处理的语言(取行,过滤),支持正则
NR代表行数,Linux的文本处理工具浅谈-awk sed grep_sedNF最后一列
NR20,NR30 从20行到30行
FS竖着切,列的分隔符
RS横着切,行的分隔符
【语法格式】

awk [–F] [“[分隔符]”] [’{printLinux的文本处理工具浅谈-awk sed grep_分隔符_02NF}’] [目标文件]
awk 'BEGIN{FS="[列分隔符]+";RS="[行分隔符]+";print "-GEGIN-"} NR==n{动作} END{print "-END-"}' xxx.txt
【内置变量】

$n 当前记录的第n个字段,字段间由 FS分隔。
$0 完整的输入记录。
ARGC 命 令行参数的数目。
ARGIND 命令行中当前文件的位置(从0开始算)。
ARGV 包 含命令行参数的数组。
CONVFMT 数字转换格式(默认值为%.6g)
ENVIRON 环 境变量关联数组。
ERRNO 最后一个系统错误的描述。
FIELDWIDTHS 字 段宽度列表(用空格键分隔)。
FILENAME 当前文件名。
FNR 同 NR,但相对于当前文件。
FS 字段分隔符(默认是任何空格)。
IGNORECASE 如 果为真,则进行忽略大小写的匹配。
NF 当前记录中的字段数。
NR 当 前记录数。
OFMT 数字的输出格式(默认值是%.6g)。
OFS 输 出字段分隔符(默认值是一个空格)。
ORS 输出记录分隔符(默认值是一个换行符)。
RLENGTH 由 match函数所匹配的字符串的长度。
RS 记录分隔符(默认是一个换行符)。
RSTART 由 match函数所匹配的字符串的第一个位置。
SUBSEP 数组下标分隔符(默认值是\034)。
【运算符】

= += -= *= /= %= ^= **= 赋值
?: C条件表达式
|| 逻 辑或
&& 逻辑与
~ ~! 匹 配正则表达式和不匹配正则表达式
< <= > >= != == 关 系运算符
空格 连接

加,减
  • / & 乘,除与求余
  • ! 一元加,减和逻辑非
    ^ *** 求幂
    ++ -- 增加或减少,作为前缀或后缀
    $ 字 段引用
    in 数组成员
    【字符串函数】
    sub 匹配记录中最大、最靠左边的子字符串的正则表达式,并用替换字符串替换这些字符串。如果没有指定目标字符串就默认使用整个记录。替换只发生在第一次匹配的 时候
    gsub 整个文档中进行匹配
    index 返回子字符串第一次被匹配的位置,偏移量从位置1开始
    substr 返回从位置1开始的子字符串,如果指定长度超过实际长度,就返回整个字符串
    split 可按给定的分隔符把字符串分割为一个数组。如果分隔符没提供,则按当前FS值进行分割
    length 返回记录的字符数
    match 返回在字符串中正则表达式位置的索引,如果找不到指定的正则表达式则返回0。match函数会设置内建变量RSTART为字符串中子字符串的开始位 置,RLENGTH为到子字符串末尾的字符个数。substr可利于这些变量来截取字符串
    toupper和tolower 可用于字符串大小间的转换,该功能只在gawk中有效
    【字符串函数】
    atan2(x,y) y,x 范围内的余切
    cos(x) 余弦函数
    exp(x) 求 幂
    int(x) 取整
    log(x) 自然对 数
    rand() 随机数
    sin(x) 正弦
    sqrt(x) 平 方根
    srand(x) x是rand()函数的种子
    int(x) 取 整,过程没有舍入
    rand() 产生一个大于等于0而小于1的随机数
    【使用范例】

1、只查看 ett.txt 文件(共 100 行)内第 20 到第 30 行的内容
awk ‘NR>19&&NR<31’ ett.txt
awk ‘{ if (NR>19&&NR<31) print $0}’ ett.txt
2、给文件内容加行号
awk ‘{print NR,$0}’ /etc/inittab
3、输出第24行并且加行号
awk ‘NR24 {print NR,$0}’ /etc/inittab
4、标准写法
awk -F '[ :]+' 'NR
2{print $(NF-1)}' /etc/passwd
相当于 awk 'BEGIN{FS="[ :]+"}NR2{print $(NF-1)}' /etc/passwd
awk 'BEGIN{RS="/"} {print $0}' /etc/passwd
5、以一个或多个/为行的分割符,打印第二行的第二列,列的分隔符为默认的空格,并打印行号
awk 'BEGIN{RS="[/]+"} NR
2{print NR,$2}' test
awk支持正则:
6、以:为分隔符,打印第5列以s开头的一整行
awk -F ":" '$5~/^s/{print Linux的文本处理工具浅谈-awk sed grep_分隔符_03(NF-1)~/(s|)bin/' /etc/passwd
8、匹配第一列以ssh或者ftp或mysql开头或者结尾的行
awk 'Linux的文本处理工具浅谈-awk sed grep_分隔符_04/{print $1,$2}' /etc/services
9、输出结果6 0 1 2
echo "6@@@@@@@@@@@@@@@0===========1##############2" |awk -F '[@=#]+' '{print $1,$2,$3,$4}'
10、
awk 'BEGIN{print "---BEGIN---"} NR
2{print $2} END{print "---END----"}' xxx.conf
 11、awk统计百分比的问题

例一:

日志样子举例如下:
​http://youku.com​​ 200
​http://youku.com​​ 302
​http://youku.com​​ 403
​http://youku.com​​ 502
​http://baidu.com​​ 302
​http://baidu.com​​ 404

现想使用awk命令按域名统计 返回码大于等于400的百分比,假如优酷总共有4行,大于等于400的返回码有两行,那占比就为50%
awk '{
count[$1]++;
if($2>400)above400[$1]++
}
END{
for(i in count){
print i, count[i], above400[i]/count[i]
}
}' < xxx.txt
例二:

统计一个文件的中所有的error的占比

awk '/error/{err++}END{print err,NR,err/NR*100"%" }' < xxx.txt
12、关联数组访问问题

a.txt和b.txt两个文件相同的两个字段(id|money),输出a和b文件中相同id并且b文件money值大的一行

cat >>a.txt <<EOF
1|1
3|3
5|5
7|7
9|9
EOF
cat >>b.txt<<EOF
1|1
2|2
3|30
4|4
5|5
6|6
7|70
8|8
9|9
10|10
EOF
awk -F '|' 'BEGIN{ while(getline < "a.txt") { user_map[$1] = $2; } }
{
if ($1 in user_map) { if (user_map[$1] < $2) print $0; }
}' b.txt
注意:如果a.txt不存在,getline会返回-1,导致死循环。我以前曾经碰上过因为这个原因导致程序挂死,所以特别提出来让大家注意

13、99乘法表

awk 'BEGIN{for(i=1;i<10;i++){for (j=1;j<=i;j++)printf "%d%s%d%s%d\t",i,"x",j,"=",i*j;print}}'
14、tomcat并发数

netstat -an|grep 10050|awk '{count[$6]++} END{for (i in count) print(i,count[i])}'
sed 老二

【功能说明】

Sed是Strem Editor(流编辑器)缩写,是操作、过滤和转换文本内容的强大工具。常用功能有增删改查,过滤,取行。

参数

-n #取消默认输出
-r #使用扩展正则
-i #刷到磁盘
-e #执行多条sed指令
-f #指令放在文件里
sed-command

a 追加
i 插入
d 删除
c 替换指定的行
s 替换每一行匹配到的第一个字符
g 替换每一行的全部
p 输出
w 另存文件
e 执行bash命令
q 不继续往下读取
概括流程:Sed软件从文件或管道中读取一行,处理一行,输出一行;再读取一行,再处理一行,再输出一行……

增删改查
a 追加文本到指定行后

i 插入文本到指定行前


单行增加

sed '2a 106,dandan,CSO' person.txt
sed '2i 106,dandan,CSO' person.txt
多行增加

sed '2a 106,dandan,CSO\n107,bingbing,CCO' person.txt
企业案例1:优化SSH配置(一键完成增加若干参数)

在我们学习系统优化时,有一个优化点:更改ssh服务远程登录的配置。主要的操作是在ssh的配置文件加入下面5行文本。(下面参数的具体含义见其他课程。)

Port 52113
PermitRootLogin no
PermitEmptyPasswords no
UseDNS no
GSSAPIAuthentication no
我们可以使用vi命令编辑这个文本,但这样就比较麻烦,现在想一条命令增加5行文本到第13行前?

sed -ir '13 i ####Chris-sshd-2016.5.4-youhua######\nPort 52113\nPermitRootLogin no\nPermitEmptyPasswords no\nUseDNS no\nGSSAPIAuthentication no\n#####--end--#######\n' /etc/ssh/sshd_config
地址用逗号分隔的,n1,n2可以用数字、正则表达式、或二者的组合表示。

其他使用例子

10{sed-commands} 对第10行操作
10,20{sed-commands} 对10到20行操作,包括第10,20行
10,+20{sed-commands} 对10到30(10+20)行操作,包括第10,30行
1~2{sed-commands} 对1,3,5,7,……行操作
10,Linux的文本处理工具浅谈-awk sed grep_分隔符_05代表最后一行)操作,包括第10行
/oldboy/{sed-commands} 对匹配oldboy的行操作
/oldboy/,/Alex/{sed-commands} 对匹配oldboy的行到匹配Alex的行操作
/oldboy/,${sed-commands} 对匹配oldboy的行到最后一行操作
/oldboy/,10{sed-commands} 对匹配oldboy的行到第10行操作,注意:如果前10行没有匹配到oldboy,sed软件会显示10行以后的匹配oldboy的行,如果有。
1,/Alex/{sed-commands} 对第1行到匹配Alex的行操作
/oldboy/,+2{sed-commands} 对匹配oldboy的行到其后的2行操作

d 删除指定的行

sed 'd' person.txt #删除全部
sed '2d' person.txt #删除第二行
sed '2,5d' person.txt #删除2到5行
sed '3,$d' person.txt #删除3到结尾
sed '1~2d' person.txt #删除1,3,5行
sed '1,+2d' person.txt #删除1,2,3
sed '/zhangyao/d' person.txt #删除匹配的zhangyao行
sed '/oldboy/,/Alex/d' person.txt #删除匹配oldboy到Alex行
sed '/oldboy/,3d' person.txt #删除从匹配oldboy的3行
企业案例2:打印文件内容但不包含oldboy

sed '/oldboy/d' person.txt #删除包含"oldboy"的行

按行替换
c 用新行取代旧行

sed '2c 106,dandan,CSO' person.txt #替换第2行的内容
文本替换
s:单独使用,将每一行中第一处匹配的字符串进行替换

g:每一行进行全部替换

-i:修改文件内容

sed软件替换模型(方框▇被替换成三角▲)

sed -i 's/▇/▲/g' oldboy.log
sed -i 's#▇#▲#g' oldboy.log
企业案例3:指定行修改配置文件

指定行精确修改配置文件,这样可以防止修改多了地方。

sed '3s#0#9#' person.txt
变量替换
x=a
y=b
echo $x Linux的文本处理工具浅谈-awk sed grep_sed_06x#$y#g test.txt
分组替换和\1的使用说明
sed软件的的功能可以记住正则表达式的一部分,其中,\1为第一个记住的模式即第一个小括号中的匹配内容,\2第二记住的模式,即第二个小括号中的匹配内容,sed最多可以记住9个。

例:echo I am oldboy teacher.如果想保留这一行的单词oldboy,删除剩下的部分,使用圆括号标记想保留的部分。

echo I am oldboy teacher. |sed 's#^.am \([a-z].\) tea.Linux的文本处理工具浅谈-awk sed grep_sed_07#\1#g'
echo I am oldboy teacher. |sed -r 's#I (.
) (.*) teacher.#\1\2#g'
命令说明

思路:用oldboy字符替换I am oldboy teacher.

下面解释用□代替空格

^.*am□ –>这句的意思是以任意字符开头到am□为止,匹配文件中的I am□字符串;
□–>这句的外壳就是括号\(\),里面的[a-z]表示匹配26个字母的任何一个,[a-z].合起来就是匹配任意多个字符,本题来说就是匹配oldboy字符串,由于oldboy字符串是需要保留的,因此用括号括起来匹配,后面通过\1来取oldboy字符串。
□tea.
$–>表示以空格tea起始,任意字符结尾,实际就是匹配oldboy字符串后,紧接着的字符串□teacher.;
后面被替换的内容中的\1就是取前面的括号里的内容了,也就是我们要的oldboy字符串。
()是扩展正则表达式的元字符,sed软件默认识别基本正则表达式,想要使用扩展正则需要使用\转义,即\(\)。
sed使用-r选项则可以识别扩展正则表达式,此时使用\(\)反而会出错。
企业案例4:系统开机启动项优化

chkconfig --list|grep "3:on"|grep -vE "sshd|crond|network|rsyslog|sysstat"|awk '{print $1}'|sed -r 's#^(.*)#chkconfig \1 off#g'|bash
chkconfig --list|grep "3:on"
特殊符号&代表被替换的内容
#→将1到3行的C替换为--C--

sed '1,3s#C#--&--#g' person.txt         #→此处&等于C
企业案例5:批量重命名文件

for i in ​​seq 5​​;do touch stu_102999_${i}_finished.jpg;done
ls |sed -r 's/(.)_finished(.)/mv & \1_finish\2/e'

p 输出指定内容,但默认会输出2次匹配的结果,因此使用n取消默认输出

按行查询
sed '2p' person.txt
sed -n '2p' person.txt
sed -n '2,3p' person.txt
sed -n '1~2p' person.txt
sed -n 'p' person.txt
按字符串查询
sed -n '/CTO/p' person.txt
sed -n '/CTO/,/CFO/p' person.txt
混合查询
sed -n '2,/CFO/p' person.txt
sed -n '/feixue/,2p' person.txt
#特殊情况,前两行没有匹配到feixue,就向后匹配,如果匹配到feixue就打印此行。
其他功能
备份功能

sed -i.bak '$a 1111111111' xxx.txt
备份xxx.txt文件为xxx.txt.bak,修改源文件,最后一行添加111111111

另存功能

sed 's/sb/SB/g w new.txt' xxx.txt
把sb替换成SB的整行输出到new.txt中

大小写转换

\L #全部转换成小写

\l #单个转换成小写

\U #全部转换成大写

\u #单个转换成大写

\E #需要和\U和\L一起使用,关闭\U和\L的功能

sed -r 's/(.),(.),(.*)/\L\3,\E\1,\U\2/g' xxx.txt
执行多条sed指令

sed -e '3,Linux的文本处理工具浅谈-awk sed grep_字符串_08d; s#10#01#g' xxx.txt
打印不可见字符l

sed -n 'l' xxx.txt
abc替换ABC(一一对应)

tr 'abc' 'ABC' xxx.txt
sed 'y#abc#ABC#' xxx.txt
可以操作多个文件

sed 'y#abc#ABC#' xxx.txt 222.txt
模拟其他命令

创建svn库的时候自动取消#号和修改路径
sed -i -r '12,13s/# //g' svnserve.conf
sed -i -r '20s/^# (.)/\1/g' svnserve.conf
sed -i -r '27s/^# (.
)/\1/g' svnserve.conf
sed -i -r '12,13s/^# (.)/\1/g' svnserve.conf
sed -i -r '32s/# (.
=)(.)/\1 \/usr\/svnData\//' svnserve.conf
一条命令执行(加传参)
SvnPath='zhangzhicheng'
sed -i -r -e '20s/^# (.
)/\1/g' -e '27s/^# (.)/\1/g' -e '12,13s/^# (.)/\1/g' -e "32s/# (.=)(.)/\1 \/usr\/svnData\/$SvnPath/" svnserve.conf
grep 老末
【功能说明】

三剑客老三。搜索文本,过滤文本字符串 –v取反
【选项说明】

参数选项

解释说明(带※的为重点)

-V

取反,读出指定的内容之外的内容

-A

打印后面n行的内容

-B

打印前面n行的内容

-C

打印前后各n行的内容

-n

输出行行号

-E(egrep)

使用扩展正则表达式

-o

只输出匹配到的结果

-i

忽略大小写

-a

当grep认为是二进制文件的时候加-a

【基础范例】

例子1:已知文件 test.txt 内容为:

test

liyao

oldboy

请给出输出 test.txt 文件内容时,不包含 oldboy 字符串的命令。

grep –v oldboy test.txt
例子2:过滤出/etc/services 文件包含 3306 或 1521 两数据库端口的行的内容

grep –E “3306|1521” /etc/services
例子3:

【技巧例子】

消除文件空行:

grep -v '^$' test.txt
egrep -o "[:]+" xxx.txt       #匹配开头以非:的行,并输出匹配的内容(-o不是整行输出)

标签:oldboy,grep,浅谈,文本处理,person,sed,awk,匹配,txt
From: https://blog.51cto.com/u_15715098/5975754

相关文章

  • 如何写一篇综述论文、浅谈
    ????声明:作为全网AI领域干货最多的博主之一,❤️不负光阴不负卿❤️零、前言博文部分内容,精选参考知乎高赞回答,添加笔者的写作理解,精简总结而成​​知乎讨论:怎么写文献综......
  • 浅谈 C++ 模板 & 泛化 (妈妈再也不用担心我不会用 std::sort 了)
    基础复习先上个对int类型数组的插入排序:voidinsertionSort_01(int*seq,intfirstIndex,intlastIndex){for(intj=firstIndex+1;j<=lastIndex;++j......
  • 浅谈线段树
    本篇将会记录我的线段树学习时长其实很早就想学了,但由于奇妙的原因咕了好久2021.1.5今天讲讲线段树概念和初始建树线段树的概念线段树是个二叉树线段树的每个区间是......
  • 浅谈电动汽车充电桩建设现状及规划方案
    0引言  随着能源转型步伐的加快,我国经济由高速发展迈向高质量发展。“十三五”以来,全省将节能、削煤、降碳与调结构、治污染、惠民生相结合,实施能耗总量与强度双重控制[1......
  • 浅谈地址,section,vstart
    地址:地址只是数字,描述各种符号在源程序中的位置,它是源代码文件中各符号偏移文件开头的距离。由于指令和变量所占内存大小不同,故他们的偏移量参差不齐。由编译器给各符号编......
  • 浅谈商城项目
         很多同学会说,现在很多培训机构都在做电商这个项目,那我们做这个项目的意义又是什么呢?    1、作为学生而言,刚学完SSM框架,很多基础掌握不牢靠,因此针对初学者而言......
  • 反射和对象序列化浅谈
    反射c++本身是没有反射机制的。反射是什么?我认为是运行时对象信息库,反射就是在需要获取对象信息的时候使用,在做类型转换的时候使用,获取对象实例的时候使用...统一一下就是......
  • 浅谈Keil-MDK创建项目&编译过程---Code-data,RO-data,RW-data,ZI-data
    浅谈Keil-MDK创建项目&编译过程---Code-data,RO-data,RW-data,ZI-data​​一、编译过程​​​​二、MDK编译工具​​​​(1)创建一个新的工程​​​​(2)添加startup(启动文......
  • 浅谈测试环境治理在Devops中的应用
    文章目录​​浅谈测试环境治理在Devops中的应用​​​​测试环境治理​​​​基于物理机/VM的环境编排​​​​基于openstack/KVM的虚拟化编排​​​​基于docker的容器化编......
  • Linux基础-文本处理命令
    概述find文件查找grep文本搜索参考资料概述Linux下使用Shell处理文本时最常用的工具有:find、grep、xargs、sort、uniq、tr、cut、paste、wc、sed、awk。find......