正则表达式
正表达式分类:
正则表达式:REGEXP,REGular EXPression。
正则表达式分为两类:
-
Basic REGEXP(基本正则表达式)
-
Extended REGEXP(扩展正则表达式)
正则表达式定义:
正则表达式(Regular Expression,通常简写为regex、regexp或RE)是一种文本模式,用于描述和匹配一系列符合某个模式(规则)的文本。
正则表达式由普通字符(例如字母和数字)以及特殊字符(称为元字符)组成。这些元字符包括字符类、预定义的匹配模式、量词和边界匹配等。正则表达式可以用来检索、替换或提取文本中符合某个模式的子串。
在编程语言中,正则表达式通常用于字符串操作,例如在Perl、Scala、PHP、C#、Java、C++、Objective-C、Swift、VBScript、Javascript、Ruby和Python等语言中都支持正则表达式的功能。
此外,正则表达式也常用于验证和格式化文本,例如检查数字格式、提取电子邮件地址、验证表单数据等。
正则表达式组成:
普通字符:
大小写字母、数字、标点符号及一些其他符号
元字符:
在正则表达式中具有特殊意义的专用字符
单括号,双括号,中括号,双中括号,大括号的用法
单括号:
1.命令组。括号中的命令将会新开一个子shell顺序执行,所以括号中的变量不能够被脚本余下的部分使用。括号中多个命令之间用分号隔开,最后一个命令可以没有分号,各命令和括号之间不必有空格。
2.命令替换。等同于cmd,shell扫描一遍命令行,发现了( c m d ) 结 构 , 便 将 (cmd)结构,便将(cmd)结构,便将(cmd)中的cmd执行一次,得到其标准输出,再将此输出放到原来命令。有些shell不支持,如tcsh。
3.用于初始化数组。如:array=(a b c d)
双小括号:
1.整数扩展。这种扩展计算是整数型的计算,不支持浮点型。((exp))结构扩展并计算一个算术表达式的值,如果表达式的结果为0,那么返回的退出状态码为1,或者 是"假",而一个非零值的表达式所返回的退出状态码将为0,或者是"true"。若是逻辑判断,表达式exp为真则为1,假则为0。
2.只要括号中的运算符、表达式符合C语言运算规则,都可用在$((exp))中,甚至是三目运算符。作不同进位(如二进制、八进制、十六进制)运算时,输出结果全都自动转化成了十进制。如:echo $((16#5f)) 结果为95 (16进位转十进制)
3.单纯用 (( )) 也可重定义变量值,比如 a=5; ((a++)) 可将 $a 重定义为6
4.常用于算术运算比较,双括号中的变量可以不使用 符号前缀。括号内支持多个表达式用逗号分开。只要括号中的表达式符合 C 语言运算规则 , 比如可以直接使用 f o r ( ( i = 0 ; i < 5 ; i + + ) ) , 如果不使用双括号 , 则为 f o r i i n s e q 04 或者 f o r i i n 0..4 。再如可以直接使用 i f ( ( 符号前缀。括号内支持多个表达式用逗号分开。 只要括号中的表达式符合C语言运算规则,比如可以直接使用for((i=0;i<5;i++)), 如果不使用双括号, 则为for i inseq 0 4或者for i in {0..4}。再如可以直接使用if (( 符号前缀。括号内支持多个表达式用逗号分开。只要括号中的表达式符合C语言运算规则,比如可以直接使用for((i=0;i<5;i++)),如果不使用双括号,则为foriinseq04或者foriin0..4。再如可以直接使用if((i<5)), 如果不使用双括号, 则为if [ $i -lt 5 ]。
((expr ))通常作为运算的
中括号:
1.bash 的内部命令,[和test是等同的。如果我们不用绝对路径指明,通常我们用的都是bash自带的命令。if/test结构中的左中括号是调用test的命令标识,右中括号是关闭条件判断的。这个命令把它的参数作为比较表达式或者作为文件测试,并且根据比较的结果来返回一个退出状态码。if/test结构中并不是必须右中括号,但是新版的Bash中要求必须这样。
2.Test和[]中可用的比较运算符只有=和!=,两者都是用于字符串比较的,不可用于整数比较,整数比较只能使用-eq,-gt这种形式。无论是字符串比较还是整数比较都不支持大于号小于号。如果实在想用,对于字符串比较可以使用转义形式,如果比较"ab"和"bc":[ ab < bc ],结果为真,也就是返回状态为0。[ ]中的逻辑与和逻辑或使用-a 和-o 表示。且[]前后都有空格。
3.字符范围。用作正则表达式的一部分,描述一个匹配的字符范围。作为test用途的中括号内不能使用正则。
4.在一个array 结构的上下文中,中括号用来引用数组中每个元素的编号。
双中括号:
1.[[是 bash 程序语言的关键字。并不是一个命令,[[ ]] 结构比[ ]结构更加通用。在[[和]]之间所有的字符都不会发生文件名扩展或者单词分割,但是会发生参数扩展和命令替换。
2.支持字符串的模式匹配,使用=~操作符时甚至支持shell的正则表达式。字符串比较时可以把右边的作为一个模式,而不仅仅是一个字符串,比如[[ hello == hell? ]],结果为真。[[ ]] 中匹配字符串或通配符,不需要引号。
3.使用[[ … ]]条件判断结构,而不是[ … ],能够防止脚本中的许多逻辑错误。比如,&&、||、<和> 操作符能够正常存在于[[ ]]条件判断结构中,但是如果出现在[ ]结构中的话,会报错。比如可以直接使用if [[ $a != 1 && $a != 2 ]], 如果不适用双括号, 则为if [ $a -ne 1] && [ $a != 2 ]或者if [ $a -ne 1 -a $a != 2 ]。
4.bash把双中括号中的表达式看作一个单独的元素,并返回一个退出状态码。
大括号:
1.大括号拓展。(通配(globbing))将对大括号中的文件名做扩展。在大括号中,不允许有空白,除非这个空白被引用或转义。第一种:对大括号中的以逗号分割的文件列表进行拓展。如 touch {a,b}.txt 结果为a.txt b.txt。第二种:对大括号中以点点(…)分割的顺序文件列表起拓展作用,如:touch {a…d}.txt 结果为a.txt b.txt c.txt d.txt
2.代码块,又被称为内部组,这个结构事实上创建了一个匿名函数 。与小括号中的命令不同,大括号内的命令不会新开一个子shell运行,即脚本余下部分仍可使用括号内变量。括号内的命令间用分号隔开,最后一个也必须有分号。{}的第一个命令和左括号之间必须要有一个空格。{}也可以用于多行注释,作为函数包起来只是不调用即可。
基本正表达式:
元字符
例子(红色代表匹配到的)
[root@localhost ~]# ls
[root@localhost ~]# touch {a..z} {A..Z} {1..100}
[root@localhost ~]# ls
1 15 21 28 34 40 47 53 6 66 72 79 85 91 98 C g J n Q u X
10 16 22 29 35 41 48 54 60 67 73 8 86 92 99 d G k N r U y
100 17 23 3 36 42 49 55 61 68 74 80 87 93 a D h K o R v Y
11 18 24 30 37 43 5 56 62 69 75 81 88 94 A e H l O s V z
12 19 25 31 38 44 50 57 63 7 76 82 89 95 b E i L p S w Z
13 2 26 32 39 45 51 58 64 70 77 83 9 96 B f I m P t W
14 20 27 33 4 46 52 59 65 71 78 84 90 97 c F j M q T x
.:匹配任意单个字符
[]:匹配指定范围内的任意单个字符
[^] :匹配指定范围外的任意单个字符
\:转义字符
例:\!、\n
匹配次数
[root@localhost ~]# cat b
aaa
aaaa
aaaaa
abc
abbc
abbbc
*:匹配其前面的任意单个字符任意次
.*:任意长度的任意字符
\?:匹配其前面的任意单个字符1次或0次
\+:匹配其前面的任意单个字符至少1次
\{m,n\}:匹配其前面的任意单个字符至少m次,至多n次
位置锚定:
^:锚定行首,此字符后面的任意单个字符必须出现在行首
$:锚定行尾,此字符前面的任意单个字符必须出现在行尾
^$:空白行
\<或\b:锚定词首,其后面的任意单个字符必须作为单词首部出现
\>或\b:锚定词尾,其前面的任意单个字符必须作为单词尾部出现
分组
\(\)
例:\(ab\)*
//后向引用
\1 //引用第一个左括号以及与之对应的右括号所包括的所有内容
\2 //引用第二个左括号以及与之对应的右括号所包括的所有内容
扩展正则表达式(用法上进行了优化):
字符匹配:
.:匹配任意单个字符
[]:匹配指定范围内的任意单个字符
[^]:匹配指定范围外的任意单个字符
次数匹配
*:匹配其前面的任意单个字符任意次
?:匹配其前面的任意单个字符1次或0次
+:匹配其前面的任意单个字符至少1次
{m,n}:匹配其前面的任意单个字符至少m次,至多n次
位置锚定:
^:锚定行首,此字符后面的任意单个字符必须出现在行首
$:锚定行尾,此字符前面的任意单个字符必须出现在行尾
^$:空白行
\<或\b:锚定词首,其后面的任意单个字符必须作为单词首部出现
\>或\b:锚定词尾,其前面的任意单个字符必须作为单词尾部出现
分组:
():分组
\1,\2,\3,....
例:(ab)*
后向引用
\1:引用第一个左括号以及与之对应的右括号所包括的所有内容
\2:引用第二个左括号以及与之对应的右括号所包括的所有内容
或者
|:or 默认匹配|的整个左侧或者整个右侧的内容
例:C|cat表示C或者cat,要想表示Cat或者cat则需要使用分组,如(C|c)at
-
过滤日期:
日期格式可能为
YYYY-MM-DD
[root@localhost ~]# cat a 2024-08-09 2019-22-66 1933-44-44 1933-09-21 2222-06-06 1911-03-04 2022/12/11 2024/08/09 1924/06/06 2023/66/99 2023-10-22 2020-08-28 [root@localhost ~]# grep -E '^(19|20)?[0-9]{2}[-/](0[1-9]|1[0-2])[-/](0[1-9]|[12][0-9]|3[01])$' a 2024-08-09 1933-09-21 1911-03-04 2022/12/11 2024/08/09 1924/06/06 2023-10-22 2020-08-28
-
过滤时间:
时间格式可能为
HH:MM:SS
[root@localhost ~]# cat c 00:00:00 01:59:43 44:44:22 11:11:12 14:21:23 28:66:55 [root@localhost ~]# grep -E '([0-1][0-9]|2[0-3])(:[0-5][0-9]){2}' c 00:00:00 01:59:43 11:11:12 14:21:23
-
过滤手机号码:
手机号码格式可能为
XXX-XXXX-XXXX
或XXXXXXXXXXX
[root@localhost ~]# cat d 13487643389 12382498329 19384983292 19393489834 18349844893 13984384399 doiadaowijf 1291380130192390 39183913131381983 [root@localhost ~]# grep -E '^1[3-9][0-9]{9}$' d 13487643389 19384983292 19393489834 18349844893 13984384399
-
过滤座机号码:匹配区号(位3位数或4)+ 5到8位号码的座机号
座机号码格式可能为带区号的
区号-座机号码
或仅包含座机号码,
[root@localhost ~]# cat e
123-123456
3213-1313213
(212)-4132413
1202-321321
201-312231
121212-321321312321
212121-3214124214
rkwj-21312cfad
[root@localhost ~]# grep -E '\(?0[0-9]{2,3}\)?-?[0-9]{5,8}' e
123-123456
3213-1313213
(212)-4132413
1202-321321
201-312231
标签:字符,匹配,正则表达式,括号,单个,任意
From: https://blog.csdn.net/weixin_65309423/article/details/137165585