正则表达式

标签：字符匹配正则表达式括号单个任意

正表达式分类：

正则表达式：REGEXP，REGular EXPression。
正则表达式分为两类：

Basic REGEXP（基本正则表达式）
Extended REGEXP（扩展正则表达式）

正则表达式定义：

正则表达式（Regular Expression，通常简写为regex、regexp或RE）是一种文本模式，用于描述和匹配一系列符合某个模式（规则）的文本。

正则表达式由普通字符（例如字母和数字）以及特殊字符（称为元字符）组成。这些元字符包括字符类、预定义的匹配模式、量词和边界匹配等。正则表达式可以用来检索、替换或提取文本中符合某个模式的子串。

在编程语言中，正则表达式通常用于字符串操作，例如在Perl、Scala、PHP、C#、Java、C++、Objective-C、Swift、VBScript、Javascript、Ruby和Python等语言中都支持正则表达式的功能。

此外，正则表达式也常用于验证和格式化文本，例如检查数字格式、提取电子邮件地址、验证表单数据等。

正则表达式组成：

普通字符：

大小写字母、数字、标点符号及一些其他符号

元字符：

在正则表达式中具有特殊意义的专用字符

单括号，双括号，中括号，双中括号，大括号的用法
单括号：
1.命令组。括号中的命令将会新开一个子shell顺序执行，所以括号中的变量不能够被脚本余下的部分使用。括号中多个命令之间用分号隔开，最后一个命令可以没有分号，各命令和括号之间不必有空格。

2.命令替换。等同于cmd，shell扫描一遍命令行，发现了( c m d ) 结构，便将 (cmd)结构，便将(cmd)结构，便将(cmd)中的cmd执行一次，得到其标准输出，再将此输出放到原来命令。有些shell不支持，如tcsh。

3.用于初始化数组。如：array=(a b c d)

双小括号:
1.整数扩展。这种扩展计算是整数型的计算，不支持浮点型。((exp))结构扩展并计算一个算术表达式的值，如果表达式的结果为0，那么返回的退出状态码为1，或者是"假"，而一个非零值的表达式所返回的退出状态码将为0，或者是"true"。若是逻辑判断，表达式exp为真则为1,假则为0。

2.只要括号中的运算符、表达式符合C语言运算规则，都可用在$((exp))中，甚至是三目运算符。作不同进位(如二进制、八进制、十六进制)运算时，输出结果全都自动转化成了十进制。如：echo $((16#5f)) 结果为95 (16进位转十进制)

3.单纯用 (( )) 也可重定义变量值，比如 a=5; ((a++)) 可将 $a 重定义为6

4.常用于算术运算比较，双括号中的变量可以不使用符号前缀。括号内支持多个表达式用逗号分开。只要括号中的表达式符合 C 语言运算规则 , 比如可以直接使用 f o r ( ( i = 0 ; i < 5 ; i + + ) ) , 如果不使用双括号 , 则为 f o r i i n s e q 04 或者 f o r i i n 0..4 。再如可以直接使用 i f ( ( 符号前缀。括号内支持多个表达式用逗号分开。只要括号中的表达式符合C语言运算规则,比如可以直接使用for((i=0;i<5;i++)), 如果不使用双括号, 则为for i inseq 0 4或者for i in {0..4}。再如可以直接使用if (( 符号前缀。括号内支持多个表达式用逗号分开。只要括号中的表达式符合C语言运算规则,比如可以直接使用for((i=0;i<5;i++)),如果不使用双括号,则为foriinseq04或者foriin0..4。再如可以直接使用if((i<5)), 如果不使用双括号, 则为if [ $i -lt 5 ]。

（（expr ））通常作为运算的

中括号：
1.bash 的内部命令，[和test是等同的。如果我们不用绝对路径指明，通常我们用的都是bash自带的命令。if/test结构中的左中括号是调用test的命令标识，右中括号是关闭条件判断的。这个命令把它的参数作为比较表达式或者作为文件测试，并且根据比较的结果来返回一个退出状态码。if/test结构中并不是必须右中括号，但是新版的Bash中要求必须这样。

2.Test和[]中可用的比较运算符只有=和!=，两者都是用于字符串比较的，不可用于整数比较，整数比较只能使用-eq，-gt这种形式。无论是字符串比较还是整数比较都不支持大于号小于号。如果实在想用，对于字符串比较可以使用转义形式，如果比较"ab"和"bc"：[ ab < bc ]，结果为真，也就是返回状态为0。[ ]中的逻辑与和逻辑或使用-a 和-o 表示。且[]前后都有空格。

3.字符范围。用作正则表达式的一部分，描述一个匹配的字符范围。作为test用途的中括号内不能使用正则。

4.在一个array 结构的上下文中，中括号用来引用数组中每个元素的编号。

双中括号：
1.[[是 bash 程序语言的关键字。并不是一个命令，[[ ]] 结构比[ ]结构更加通用。在[[和]]之间所有的字符都不会发生文件名扩展或者单词分割，但是会发生参数扩展和命令替换。

2.支持字符串的模式匹配，使用=~操作符时甚至支持shell的正则表达式。字符串比较时可以把右边的作为一个模式，而不仅仅是一个字符串，比如[[ hello == hell? ]]，结果为真。[[ ]] 中匹配字符串或通配符，不需要引号。

3.使用[[ … ]]条件判断结构，而不是[ … ]，能够防止脚本中的许多逻辑错误。比如，&&、||、<和> 操作符能够正常存在于[[ ]]条件判断结构中，但是如果出现在[ ]结构中的话，会报错。比如可以直接使用if [[ $a != 1 && $a != 2 ]], 如果不适用双括号, 则为if [ $a -ne 1] && [ $a != 2 ]或者if [ $a -ne 1 -a $a != 2 ]。

4.bash把双中括号中的表达式看作一个单独的元素，并返回一个退出状态码。

大括号：
1.大括号拓展。(通配(globbing))将对大括号中的文件名做扩展。在大括号中，不允许有空白，除非这个空白被引用或转义。第一种：对大括号中的以逗号分割的文件列表进行拓展。如 touch {a,b}.txt 结果为a.txt b.txt。第二种：对大括号中以点点（…）分割的顺序文件列表起拓展作用，如：touch {a…d}.txt 结果为a.txt b.txt c.txt d.txt

2.代码块，又被称为内部组，这个结构事实上创建了一个匿名函数。与小括号中的命令不同，大括号内的命令不会新开一个子shell运行，即脚本余下部分仍可使用括号内变量。括号内的命令间用分号隔开，最后一个也必须有分号。{}的第一个命令和左括号之间必须要有一个空格。{}也可以用于多行注释，作为函数包起来只是不调用即可。

基本正表达式：

元字符

例子（红色代表匹配到的）
[root@localhost ~]# ls
[root@localhost ~]# touch {a..z} {A..Z} {1..100}
[root@localhost ~]# ls
1    15  21  28  34  40  47  53  6   66  72  79  85  91  98  C  g  J  n  Q  u  X
10   16  22  29  35  41  48  54  60  67  73  8   86  92  99  d  G  k  N  r  U  y
100  17  23  3   36  42  49  55  61  68  74  80  87  93  a   D  h  K  o  R  v  Y
11   18  24  30  37  43  5   56  62  69  75  81  88  94  A   e  H  l  O  s  V  z
12   19  25  31  38  44  50  57  63  7   76  82  89  95  b   E  i  L  p  S  w  Z
13   2   26  32  39  45  51  58  64  70  77  83  9   96  B   f  I  m  P  t  W
14   20  27  33  4   46  52  59  65  71  78  84  90  97  c   F  j  M  q  T  x

.：匹配任意单个字符

在这里插入图片描述

[]：匹配指定范围内的任意单个字符

在这里插入图片描述

[^] ：匹配指定范围外的任意单个字符

在这里插入图片描述

\：转义字符
例：\!、\n

匹配次数

[root@localhost ~]# cat b
aaa
aaaa
aaaaa
abc
abbc
abbbc

*：匹配其前面的任意单个字符任意次

在这里插入图片描述

.*：任意长度的任意字符

在这里插入图片描述

\?：匹配其前面的任意单个字符1次或0次

在这里插入图片描述

\+：匹配其前面的任意单个字符至少1次

在这里插入图片描述

\{m,n\}：匹配其前面的任意单个字符至少m次，至多n次

在这里插入图片描述

位置锚定：

^：锚定行首，此字符后面的任意单个字符必须出现在行首

$：锚定行尾，此字符前面的任意单个字符必须出现在行尾

在这里插入图片描述

^$：空白行

\<或\b：锚定词首，其后面的任意单个字符必须作为单词首部出现

\>或\b：锚定词尾，其前面的任意单个字符必须作为单词尾部出现

在这里插入图片描述

分组

\(\)
    例：\(ab\)*
    //后向引用
        \1      //引用第一个左括号以及与之对应的右括号所包括的所有内容
        \2      //引用第二个左括号以及与之对应的右括号所包括的所有内容

在这里插入图片描述

扩展正则表达式(用法上进行了优化)：

字符匹配:

.:匹配任意单个字符
[]:匹配指定范围内的任意单个字符
[^]:匹配指定范围外的任意单个字符

次数匹配

*:匹配其前面的任意单个字符任意次
?:匹配其前面的任意单个字符1次或0次
+:匹配其前面的任意单个字符至少1次
{m,n}:匹配其前面的任意单个字符至少m次，至多n次

位置锚定:

^：锚定行首，此字符后面的任意单个字符必须出现在行首
$：锚定行尾，此字符前面的任意单个字符必须出现在行尾
^$：空白行
\<或\b：锚定词首，其后面的任意单个字符必须作为单词首部出现
\>或\b：锚定词尾，其前面的任意单个字符必须作为单词尾部出现

在这里插入图片描述

分组：

():分组
\1，\2，\3，....
例:(ab)*
后向引用
\1:引用第一个左括号以及与之对应的右括号所包括的所有内容
\2:引用第二个左括号以及与之对应的右括号所包括的所有内容
或者
|:or 默认匹配｜的整个左侧或者整个右侧的内容
例：C|cat表示C或者cat，要想表示Cat或者cat则需要使用分组，如(C|c)at

在这里插入图片描述

过滤日期：

日期格式可能为 YYYY-MM-DD

[root@localhost ~]# cat a
2024-08-09
2019-22-66
1933-44-44
1933-09-21
2222-06-06
1911-03-04
2022/12/11
2024/08/09
1924/06/06
2023/66/99
2023-10-22
2020-08-28
[root@localhost ~]# grep -E '^(19|20)?[0-9]{2}[-/](0[1-9]|1[0-2])[-/](0[1-9]|[12][0-9]|3[01])$' a
2024-08-09
1933-09-21
1911-03-04
2022/12/11
2024/08/09
1924/06/06
2023-10-22
2020-08-28

过滤时间：

时间格式可能为 HH:MM:SS

[root@localhost ~]# cat c
00:00:00
01:59:43
44:44:22
11:11:12
14:21:23
28:66:55
[root@localhost ~]# grep -E '([0-1][0-9]|2[0-3])(:[0-5][0-9]){2}' c
00:00:00
01:59:43
11:11:12
14:21:23

过滤手机号码：

手机号码格式可能为 XXX-XXXX-XXXX 或 XXXXXXXXXXX

[root@localhost ~]# cat d
13487643389
12382498329
19384983292
19393489834
18349844893
13984384399
doiadaowijf
1291380130192390
39183913131381983
[root@localhost ~]# grep -E '^1[3-9][0-9]{9}$' d
13487643389
19384983292
19393489834
18349844893
13984384399

过滤座机号码：匹配区号（位3位数或4）+ 5到8位号码的座机号

座机号码格式可能为带区号的 区号-座机号码 或仅包含座机号码，

[root@localhost ~]# cat e
123-123456
3213-1313213
(212)-4132413
1202-321321
201-312231
121212-321321312321
212121-3214124214
rkwj-21312cfad
[root@localhost ~]#  grep -E '\(?0[0-9]{2,3}\)?-?[0-9]{5,8}' e
123-123456
3213-1313213
(212)-4132413
1202-321321
201-312231

标签：字符,匹配,正则表达式,括号,单个,任意
From： https://blog.csdn.net/weixin_65309423/article/details/137165585

正则表达式