首页 > 其他分享 >正则表达式

正则表达式

时间:2024-03-30 10:02:03浏览次数:26  
标签:字符 匹配 正则表达式 括号 单个 任意

正则表达式

正表达式分类:

正则表达式:REGEXP,REGular EXPression。
正则表达式分为两类:

  • Basic REGEXP(基本正则表达式)

  • Extended REGEXP(扩展正则表达式)

正则表达式定义

正则表达式(Regular Expression,通常简写为regex、regexp或RE)是一种文本模式,用于描述和匹配一系列符合某个模式(规则)的文本。

正则表达式由普通字符(例如字母和数字)以及特殊字符(称为元字符)组成。这些元字符包括字符类、预定义的匹配模式、量词和边界匹配等。正则表达式可以用来检索、替换或提取文本中符合某个模式的子串。

在编程语言中,正则表达式通常用于字符串操作,例如在Perl、Scala、PHP、C#、Java、C++、Objective-C、Swift、VBScript、Javascript、Ruby和Python等语言中都支持正则表达式的功能。

此外,正则表达式也常用于验证和格式化文本,例如检查数字格式、提取电子邮件地址、验证表单数据等。

正则表达式组成

普通字符:

大小写字母、数字、标点符号及一些其他符号

元字符:

在正则表达式中具有特殊意义的专用字符

单括号,双括号,中括号,双中括号,大括号的用法
单括号:
1.命令组。括号中的命令将会新开一个子shell顺序执行,所以括号中的变量不能够被脚本余下的部分使用。括号中多个命令之间用分号隔开,最后一个命令可以没有分号,各命令和括号之间不必有空格。

2.命令替换。等同于cmd,shell扫描一遍命令行,发现了( c m d ) 结 构 , 便 将 (cmd)结构,便将(cmd)结构,便将(cmd)中的cmd执行一次,得到其标准输出,再将此输出放到原来命令。有些shell不支持,如tcsh。

3.用于初始化数组。如:array=(a b c d)

双小括号:
1.整数扩展。这种扩展计算是整数型的计算,不支持浮点型。((exp))结构扩展并计算一个算术表达式的值,如果表达式的结果为0,那么返回的退出状态码为1,或者 是"假",而一个非零值的表达式所返回的退出状态码将为0,或者是"true"。若是逻辑判断,表达式exp为真则为1,假则为0。

2.只要括号中的运算符、表达式符合C语言运算规则,都可用在$((exp))中,甚至是三目运算符。作不同进位(如二进制、八进制、十六进制)运算时,输出结果全都自动转化成了十进制。如:echo $((16#5f)) 结果为95 (16进位转十进制)

3.单纯用 (( )) 也可重定义变量值,比如 a=5; ((a++)) 可将 $a 重定义为6

4.常用于算术运算比较,双括号中的变量可以不使用 符号前缀。括号内支持多个表达式用逗号分开。只要括号中的表达式符合 C 语言运算规则 , 比如可以直接使用 f o r ( ( i = 0 ; i < 5 ; i + + ) ) , 如果不使用双括号 , 则为 f o r i i n s e q 04 或者 f o r i i n 0..4 。再如可以直接使用 i f ( ( 符号前缀。括号内支持多个表达式用逗号分开。 只要括号中的表达式符合C语言运算规则,比如可以直接使用for((i=0;i<5;i++)), 如果不使用双括号, 则为for i inseq 0 4或者for i in {0..4}。再如可以直接使用if (( 符号前缀。括号内支持多个表达式用逗号分开。只要括号中的表达式符合C语言运算规则,比如可以直接使用for((i=0;i<5;i++)),如果不使用双括号,则为foriinseq04或者foriin0..4。再如可以直接使用if((i<5)), 如果不使用双括号, 则为if [ $i -lt 5 ]。

((expr ))通常作为运算的

中括号:
1.bash 的内部命令,[和test是等同的。如果我们不用绝对路径指明,通常我们用的都是bash自带的命令。if/test结构中的左中括号是调用test的命令标识,右中括号是关闭条件判断的。这个命令把它的参数作为比较表达式或者作为文件测试,并且根据比较的结果来返回一个退出状态码。if/test结构中并不是必须右中括号,但是新版的Bash中要求必须这样。

2.Test和[]中可用的比较运算符只有=和!=,两者都是用于字符串比较的,不可用于整数比较,整数比较只能使用-eq,-gt这种形式。无论是字符串比较还是整数比较都不支持大于号小于号。如果实在想用,对于字符串比较可以使用转义形式,如果比较"ab"和"bc":[ ab < bc ],结果为真,也就是返回状态为0。[ ]中的逻辑与和逻辑或使用-a 和-o 表示。且[]前后都有空格。

3.字符范围。用作正则表达式的一部分,描述一个匹配的字符范围。作为test用途的中括号内不能使用正则。

4.在一个array 结构的上下文中,中括号用来引用数组中每个元素的编号。

双中括号:
1.[[是 bash 程序语言的关键字。并不是一个命令,[[ ]] 结构比[ ]结构更加通用。在[[和]]之间所有的字符都不会发生文件名扩展或者单词分割,但是会发生参数扩展和命令替换。

2.支持字符串的模式匹配,使用=~操作符时甚至支持shell的正则表达式。字符串比较时可以把右边的作为一个模式,而不仅仅是一个字符串,比如[[ hello == hell? ]],结果为真。[[ ]] 中匹配字符串或通配符,不需要引号。

3.使用[[ … ]]条件判断结构,而不是[ … ],能够防止脚本中的许多逻辑错误。比如,&&、||、<和> 操作符能够正常存在于[[ ]]条件判断结构中,但是如果出现在[ ]结构中的话,会报错。比如可以直接使用if [[ $a != 1 && $a != 2 ]], 如果不适用双括号, 则为if [ $a -ne 1] && [ $a != 2 ]或者if [ $a -ne 1 -a $a != 2 ]。

4.bash把双中括号中的表达式看作一个单独的元素,并返回一个退出状态码。

大括号:
1.大括号拓展。(通配(globbing))将对大括号中的文件名做扩展。在大括号中,不允许有空白,除非这个空白被引用或转义。第一种:对大括号中的以逗号分割的文件列表进行拓展。如 touch {a,b}.txt 结果为a.txt b.txt。第二种:对大括号中以点点(…)分割的顺序文件列表起拓展作用,如:touch {a…d}.txt 结果为a.txt b.txt c.txt d.txt

2.代码块,又被称为内部组,这个结构事实上创建了一个匿名函数 。与小括号中的命令不同,大括号内的命令不会新开一个子shell运行,即脚本余下部分仍可使用括号内变量。括号内的命令间用分号隔开,最后一个也必须有分号。{}的第一个命令和左括号之间必须要有一个空格。{}也可以用于多行注释,作为函数包起来只是不调用即可。

基本正表达式:

元字符

例子(红色代表匹配到的)
[root@localhost ~]# ls
[root@localhost ~]# touch {a..z} {A..Z} {1..100}
[root@localhost ~]# ls
1    15  21  28  34  40  47  53  6   66  72  79  85  91  98  C  g  J  n  Q  u  X
10   16  22  29  35  41  48  54  60  67  73  8   86  92  99  d  G  k  N  r  U  y
100  17  23  3   36  42  49  55  61  68  74  80  87  93  a   D  h  K  o  R  v  Y
11   18  24  30  37  43  5   56  62  69  75  81  88  94  A   e  H  l  O  s  V  z
12   19  25  31  38  44  50  57  63  7   76  82  89  95  b   E  i  L  p  S  w  Z
13   2   26  32  39  45  51  58  64  70  77  83  9   96  B   f  I  m  P  t  W
14   20  27  33  4   46  52  59  65  71  78  84  90  97  c   F  j  M  q  T  x
.:匹配任意单个字符

在这里插入图片描述

[]:匹配指定范围内的任意单个字符

在这里插入图片描述

[^] :匹配指定范围外的任意单个字符

在这里插入图片描述

\:转义字符
例:\!、\n

匹配次数

[root@localhost ~]# cat b
aaa
aaaa
aaaaa
abc
abbc
abbbc
*:匹配其前面的任意单个字符任意次

在这里插入图片描述

.*:任意长度的任意字符

在这里插入图片描述

\?:匹配其前面的任意单个字符1次或0次

在这里插入图片描述

\+:匹配其前面的任意单个字符至少1次

在这里插入图片描述

\{m,n\}:匹配其前面的任意单个字符至少m次,至多n次

在这里插入图片描述

位置锚定:

^:锚定行首,此字符后面的任意单个字符必须出现在行首
$:锚定行尾,此字符前面的任意单个字符必须出现在行尾

在这里插入图片描述

^$:空白行
\<或\b:锚定词首,其后面的任意单个字符必须作为单词首部出现
\>或\b:锚定词尾,其前面的任意单个字符必须作为单词尾部出现

在这里插入图片描述

分组

\(\)
    例:\(ab\)*
    //后向引用
        \1      //引用第一个左括号以及与之对应的右括号所包括的所有内容
        \2      //引用第二个左括号以及与之对应的右括号所包括的所有内容

在这里插入图片描述

扩展正则表达式(用法上进行了优化):

字符匹配:

.:匹配任意单个字符
[]:匹配指定范围内的任意单个字符
[^]:匹配指定范围外的任意单个字符

次数匹配

*:匹配其前面的任意单个字符任意次
?:匹配其前面的任意单个字符1次或0次
+:匹配其前面的任意单个字符至少1次
{m,n}:匹配其前面的任意单个字符至少m次,至多n次

位置锚定:

^:锚定行首,此字符后面的任意单个字符必须出现在行首
$:锚定行尾,此字符前面的任意单个字符必须出现在行尾
^$:空白行
\<或\b:锚定词首,其后面的任意单个字符必须作为单词首部出现
\>或\b:锚定词尾,其前面的任意单个字符必须作为单词尾部出现

在这里插入图片描述

分组:

():分组
\1,\2,\3,....
例:(ab)*
后向引用
\1:引用第一个左括号以及与之对应的右括号所包括的所有内容
\2:引用第二个左括号以及与之对应的右括号所包括的所有内容
或者
|:or 默认匹配|的整个左侧或者整个右侧的内容
例:C|cat表示C或者cat,要想表示Cat或者cat则需要使用分组,如(C|c)at

在这里插入图片描述

  1. 过滤日期:

    日期格式可能为 YYYY-MM-DD

    [root@localhost ~]# cat a
    2024-08-09
    2019-22-66
    1933-44-44
    1933-09-21
    2222-06-06
    1911-03-04
    2022/12/11
    2024/08/09
    1924/06/06
    2023/66/99
    2023-10-22
    2020-08-28
    [root@localhost ~]# grep -E '^(19|20)?[0-9]{2}[-/](0[1-9]|1[0-2])[-/](0[1-9]|[12][0-9]|3[01])$' a
    2024-08-09
    1933-09-21
    1911-03-04
    2022/12/11
    2024/08/09
    1924/06/06
    2023-10-22
    2020-08-28
    
  2. 过滤时间:

    时间格式可能为 HH:MM:SS

    [root@localhost ~]# cat c
    00:00:00
    01:59:43
    44:44:22
    11:11:12
    14:21:23
    28:66:55
    [root@localhost ~]# grep -E '([0-1][0-9]|2[0-3])(:[0-5][0-9]){2}' c
    00:00:00
    01:59:43
    11:11:12
    14:21:23
    
  3. 过滤手机号码:

    手机号码格式可能为 XXX-XXXX-XXXXXXXXXXXXXXX

    [root@localhost ~]# cat d
    13487643389
    12382498329
    19384983292
    19393489834
    18349844893
    13984384399
    doiadaowijf
    1291380130192390
    39183913131381983
    [root@localhost ~]# grep -E '^1[3-9][0-9]{9}$' d
    13487643389
    19384983292
    19393489834
    18349844893
    13984384399
    
  4. 过滤座机号码:匹配区号(位3位数或4)+ 5到8位号码的座机号

    座机号码格式可能为带区号的 区号-座机号码 或仅包含座机号码,

[root@localhost ~]# cat e
123-123456
3213-1313213
(212)-4132413
1202-321321
201-312231
121212-321321312321
212121-3214124214
rkwj-21312cfad
[root@localhost ~]#  grep -E '\(?0[0-9]{2,3}\)?-?[0-9]{5,8}' e
123-123456
3213-1313213
(212)-4132413
1202-321321
201-312231

标签:字符,匹配,正则表达式,括号,单个,任意
From: https://blog.csdn.net/weixin_65309423/article/details/137165585

相关文章

  • JavaScript快速入门笔记之七(String:字符串类型、RegExp:正则表达式)
    JavaScript快速入门笔记之七(String:字符串类型、RegExp:正则表达式)String:字符串类型什么是字符串?底层本质:一串字符组成的只读字符数组包装类型:临时封装原始类型数据,并提供对数据操作方法的对象——类型名和原始类型名相同!StringNumberBoolean何时使用:不必手动创建!......
  • notepad++ 利用正则表达式批量删除关键词所在行
    摘要平时使用notepad++查看文本文档,或者打开日志文件,总有一些不太关心的信息需要去除,基于这种情况,notepad++支持正则表达式,便有了操作空间。正则表达式查找使用正则表达式#匹配指定关键字所在的整行^.*关键字.*\r?\n示例:匹配包含"info"的行^.*info.*\r?\n具体步骤使用......
  • 正则表达式的贪婪模式与非贪婪模式
    正则表达式中的贪婪模式和非贪婪模式(也称为勉强模式或懒惰模式)是量词行为的两种不同模式。这些模式影响正则表达式如何匹配字符串中的字符序列。贪婪模式(Greedy)贪婪模式是正则表达式的默认行为。在贪婪模式下,正则表达式会尽可能多地匹配字符。它会尝试匹配尽可能长的字符串片......
  • 16使用正则表达式处理字符串
    1<!DOCTYPEhtml>2<htmllang="en">3<head>4<metacharset="UTF-8">5<metaname="viewport"content="width=device-width,initial-scale=1.0">6<title>Document......
  • 正则表达式
    字符描述\将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如,“n”匹配字符“n”。“\n”匹配一个换行符。串行“\\”匹配“\”而“\(”则匹配“(”。^匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性,^也匹......
  • 正则表达式
    正则表达式,看了书上的解释后,我的理解是:筛选出来符合设定规则的字符。一些规则如下python中使用re模块re.match尝试从字符串的起始位置匹配一个模式,如果不是起始位置匹配成功的话,match()就返回none。语法为:re.match(pattern,string,flags=0),pattern为正则表达式,string为搜......
  • 1、Python 正则表达式:基本介绍
    点击上方分类专栏、进行系统性学习(文末可扫码领取资料)正则表达式(RegularExpression)是计算机科学的一个概念。“Regular”一般被译为“正则”、“正规”、“常规”。此处的“Regular”即“规则、规律”的意思,RegularExpression即“描述某种规则的表达式”。正则表达式使用......
  • 2021-4-30-正则表达式总结
    元字符、反义、转义、贪婪与懒惰、分组、后向引用、零宽断言、Python中的re模块参考文档https://deerchao.cn/tutorials/regex/regex.htm元字符元字符说明.匹配除换行符以外的其他任意字符\w匹配字母、数字、下划线、汉字\s匹配任意空白字符\d匹配任意......
  • 正则表达式
    7.1介绍本质来说就是一个字符串,可以指定一些规则,来校验其他字符串.7.2常用表达式7.2.1字符类7.2.2预定义的字符类7.2.3贪婪的量词8.String类种与正则表达式有关的常见方法 9.使用正则表达式爬取信息publicclassRegexTest2{  publicstaticvoidmain(......
  • 正则表达式具体用法大全
     #正则表达式:##单字符匹配:```python#匹配某个字符串:#text="abc"#ret=re.match('b',text)#print(ret.group())#点(.):匹配任意的字符(除了'\n'):#text="\nabc"#ret=re.match('.',text)#print(ret.group())#\d:匹......