1. 引言
例如使用grep
命令查找一个特定模式的字符串。
模式包含
- 字符类(Character Class)
- 数量限定符(Quantifier)
- 各种字符类以及普通字符之间的位置关系
例如email的正则表达式[a-zA-Z0-9_.-]+@[a-zA-Z0-9_.-]+\.[a-zA-Z0-9_.-]+
,IPv4地址的正则表达式[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}
【实际上IPv4这个不一定正确,例如999.999.999.999
不是IPv4地址,但是符合正则表达式】
egrep
命令相当于grep -E
,表示采用Extended 正则表达式语法。fgrep
相当于grep -F
,表示只搜索固定字符串而不搜索正则表达式模式。
注意:grep找的是包含某一模式的行,而不是完全匹配某一模式的行。【也就是要是完全匹配需要加上开头和结尾】
2. 基本语法
2.1 字符类
字符 | 含义 | 举例 |
---|---|---|
. |
匹配任意一个字符 | abc. 可以匹配abcd 、abc9 等 |
[] |
匹配括号中的任意一个字符 | [abc]d 可以匹配ad 、bd 或cd |
- |
在[] 括号内表示字符范围 |
[0-9a-fA-F] 可以匹配一位十六进制数字 |
^ |
位于[] 括号内的开头,匹配除括号中的字符之外的任意一个字符 |
[^xy] 匹配除xy 之外的任一字符,因此[^xy]1 可以匹配a1 、b1 但不匹配x1 、y1 |
[[:xxx:]] |
grep 工具预定义的一些命名字符类 |
[[:alpha:]] 匹配一个字母,[[:digit:]] 匹配一个数字 |
2.2 数量限定符
字符 | 含义 | 举例 |
---|---|---|
? |
紧跟在它前面的单元应匹配零次或一次 | [0-9]?\.[0-9] 匹配0.0 、2.3 、.5 等,由于. 在正则表达式中是一个特殊字符,所以需要用\ 转义一下,取字面值 |
+ |
紧跟在它前面的单元应匹配一次或多次 | [a-zA-Z0-9_.-]+@[a-zA-Z0-9_.-]+\.[a-zA-Z0-9_.-]+ 匹配email地址 |
* |
紧跟在它前面的单元应匹配零次或多次 | [0-9][0-9]* 匹配至少一位数字,等价于[0-9]+ ,[a-zA-Z_]+[a-zA-Z_0-9]* 匹配C语言的标识符 |
{N} |
紧跟在它前面的单元应精确匹配N次 | [1-9][0-9]{2} 匹配从100到999的整数 |
{N,} |
紧跟在它前面的单元应匹配至少N次 | [1-9][0-9]{2,} 匹配三位以上(含三位)的整数 |
{,M} |
紧跟在它前面的单元应匹配最多M次 | [0-9]{,1} 相当于[0-9]? |
{N,M} |
紧跟在它前面的单元应匹配至少N次,最多M次 | [0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3}\.[0-9]{1,3} 匹配IP地址 |
2.3 位置限定符
字符 | 含义 | 举例 |
---|---|---|
^ |
匹配行首的位置 | ^Content 匹配位于一行开头的Content |
$ |
匹配行末的位置 | ;$ 匹配位于一行结尾的; 号,^$ 匹配空行 |
\< |
匹配单词开头的位置 | \<th 匹配... this ,但不匹配ethernet 、tenth |
\> |
匹配单词结尾的位置 | p\> 匹配leap ... ,但不匹配parent 、sleepy |
\b |
匹配单词开头或结尾的位置 | \bat\b 匹配... at ... ,但不匹配cat 、atexit 、batch |
\B |
匹配非单词开头和结尾的位置 | \Bat\B 匹配battery ,但不匹配... attend 、hat... |
2.4 其它特殊字符
字符 | 含义 | 举例 |
---|---|---|
\ |
转义字符,普通字符转义为特殊字符,特殊字符转为普通字符 | 普通字符< 写为\< 表示单词开头的位置,特殊字符. 写成\. 以及\ 写成\\ 就当作普通字符来匹配 |
() |
将正则表达式的一部分括起来组成一个单元,可以对整个单元使用数量限定符 | ([0-9]{1,3}\.){3}[0-9]{1,3} 匹配IP地址 |
| |
连接两个子表达式,表示或的关系 | n(o|either) 匹配no 或neither |
以上介绍的是grep
正则表达式的Extended规范,Basic规范也有这些语法,只是字符?+{}|()
应解释为普通字符,要表示上述特殊含义则需要加\
转义。如果用grep
而不是egrep
,并且不加-E
参数,则应该遵照Basic规范来写正则表达式。
POSIX规定了正则表达式的C语言库函数,详见regex(3)
$ man 3 regex
3. sed
sed
意为流编辑器(Stream editor),在Shell脚本和Makefile中作为过滤器使用非常普遍,也就是把前一个程序的输出引入sed
的输入,经过一系列编辑命令转换为另一种格式输出。
sed
和vi
都源于早期UNIX的ed
工具,所以很多sed
命令和vi
的末行命令是相同的。
3.1 基本格式
$ sed option 'script' file1 file2 ...
$ sed option -f scriptfile file1 file2 ...
sed
处理的文件既可以由标准输入重定向得到,也可以当命令行参数传入,命令行参数可以一次传入多个文件,sed
会依次处理。sed
的编辑命令可以直接当命令行参数传入,也可以写成一个脚本文件然后用-f
参数指定,编辑命令的格式为:/pattern/action
。其中pattern
是正则表达式,action
是编辑操作。sed
程序一行一行读出待处理文件,如果某一行与pattern
匹配,则执行相应的action
,如果一条命令没有pattern
而只有action
,这个action
将作用于待处理文件的每一行。
3.2 常用命令
命令 | 释义 |
---|---|
/patter/p |
打印匹配pattern 的行 |
/pattern/d |
删除匹配pattern 的行 |
/pattern/s/pattern1/pattern2/ |
查找符合pattern 的行,将该行第一个匹配pattern1 的字符串替换为pattern2 |
/pattern/s/pattern1/pattern2/g |
查找符合pattern 的行,将该行所有匹配pattern1 的字符串替换为pattern2 |
sed
会把待处理文件的内容连同处理结果一起输出到标准输出,所以/pattern/p
会把文件内容打印以及符合pattern
的行打印。
sed
命令不会修改原文件,删除命令只表示某些行不打印输出,而不是从原文件中删去。
# 文件 testfile 的内容(不包含本行)
123
abc
456
# 打印其中包含 abc 的行
$ sed '/abc/p' testfile
123
abc
abc
456
# 要想只输出处理结果,应加上-n选项,这种用法相当于grep命令
$ sed -n '/abc/p' testfile
abc
# 使用 d 命令就不需要使用 -n 选项了
$ sed '/abc/d' testfile
123
456
# 使用查找替换命令时,可以把匹配pattern1的字符串复制到pattern2中
# pattern2中的&表示原文件的当前行中与pattern1相匹配的字符串
$ sed 's/bc/-&-' testfile
123
a-bc-
456
# pattern2中的\1表示与pattern1的第一个()括号相匹配的内容,\2表示与pattern1的第二个()括号相匹配的内容。
# sed默认使用Basic正则表达式规范,如果指定了-r选项则使用Extended规范,那么()括号就不必转义了。
$ sed 's/\([0-9]\)\([0-9]\)/-\1-~\2~/' testfile
-1-~2~3
abc
-1-~5~6
4. awk
sed
以行为单位处理文件,awk
比sed
强的地方在于不仅能以行为单位还能以列为单位处理文件。
4.1 基本格式
awk option 'script' file1 file2 ...
awk option -f scriptfile file1 file2 ...
和sed
一样,awk
处理的文件既可以由标准输入重定向得到,也可以当命令行参数传入,编辑命令可以直接当命令行参数传入,也可以用-f
参数指定一个脚本文件,编辑命令的格式为:
/pattern/{actions}
condition{actions}
和sed
类似,pattern
是正则表达式,actions
是一系列操作。
awk
程序一行一行读出待处理文件,如果某一行与pattern
匹配,或者满足condition
条件,则执行相应的actions
,如果一条awk
命令只有actions
部分,则actions
作用于待处理文件的每一行。
# testfile 文件内容
ProductA 30
ProductB 76
ProductC 55
# 打印每一行的第二列,自动变量$1, $2分别表示第一列,第二列等,$0代表当前整行
$ awk '{print $2;}' testfile
30
76
55
# 如果某种产品的库存量低于75则在行末标注需要订货
$ awk '$2<75 {printf "%s\t%s\n", $0, "REORDER";} $2>=75 {print $0;}' testfile
# awk命令可以像C语言一样使用变量(但不需要定义变量),比如统计一个文件中的空行数
$ awk '/^ *$/ {x=x+1;} END {print x;}' testfile
# 打印系统中的用户帐号列表
$ awk 'BEGIN {FS=":"} {print $1;}' /etc/passwd
awk
命令的condition
部分还可以是两个特殊的condition
-BEGIN
和END
,对于每个待处理文件,BEGIN
后面的actions
在处理整个文件之前执行一次,END
后面的actions
在整个文件处理完之后执行一次。
4.2 awk
常用的内建变量
变量 | 释义 |
---|---|
FILENAME |
当前输入文件的文件名,该变量是只读的 |
NR |
当前行的行号,该变量是只读的,R代表Record |
NF |
当前行所拥有的列数,该变量是只读的,F代表Field |
OFS |
输出格式的列分割符,缺省是空格 |
FS |
输入文件的列分隔符,缺省是连续的空格和Tab |
ORS |
输出格式的行分隔符,缺省是换行符 |
RS |
输入文件的行分隔符,缺省是换行符 |