首页 > 其他分享 >2015.4.28_正则表达式_正则表达式简易教程

2015.4.28_正则表达式_正则表达式简易教程

时间:2023-06-02 20:05:12浏览次数:50  
标签:Chapter 字符 匹配 正则表达式 28 字符串 2015.4 表达式


为什么使用正则表达式

通过正则表达式,可以:

  • 测试字符串内的模式。
    例如,可以测试输入字符串,以查看字符串内是否出现电话号码模式或信用卡号码模式。这称为数据验证。
  • 替换文本。
    可以使用正则表达式来识别文档中的特定文本,完全删除该文本或者用其他文本替换它。
  • 基于模式匹配从字符串中提取子字符串。
    可以查找文档内或输入域内特定的文本。

正则表达式的语法

普通字符

普通字符包括没有显示指定为元字符的所有的可打印和不可打印字符。这包括所有大写和小写字母、所有数字、所有标点符号和一些其他符号。

非打印字符

非打印字符也可以是正则表达式的组成部分。下表列出了表示非打印字符的转义序列:

字符

描述

\cx

匹配由x指明的控制字符。例如,\cM匹配一个Control-M或回车符。x的值必须为A-Z或a-z之一。否则,将c视为一个原义的‘c’字符。

\f

匹配一个换页符。等价于\x0c和\cL。

\n

匹配一个换行符。等价于\x01和\cL。

\r

匹配一个回车符。等价于\x0d和\cJ。

\s

匹配任何空白字符,包括空格、制表符、换页符等等。等价于[\f\n\r\t\v]。

\S

匹配任何非空白字符。等价于[^ \f\n\r\t\v]。

\t

匹配一个制表符。等价于\x09和\cl。

\v

匹配一个垂直制表符。等价于\x0b和\cK。

特殊字符

特别字符

描述

$

匹配输入字符串的结尾位置。如果设置了RegExp对象的Multilin属性,则KaTeX parse error: Undefined control sequence: \n at position 5: 也匹配'\̲n̲'或'\r'。要匹配字符串本身,请使用$。

()

标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用(和)。

*

匹配前面的子表达式零次或多次。要匹配*字符,请使用\**。

+

匹配前面的子表达式一次或多次。要匹配+字符,请使用\+。

.

匹配除换行符\n之外的任何单字符。要匹配. ,请使用\。

[

标记一个中括号表达式的开始。要匹配[,请使用\[。

?

匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。要匹配?字符,请使用\?。

\

将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如,‘n’匹配字符‘n’匹配换行符。序列‘\\’匹配‘\’,而‘(’则匹配“(”。

^

匹配输入字符串开始位置,除非在方括号表达式中适用,此时它表示不接受该字符集合。要匹配^字符本身,请使用^。

{

标记限定符表达式的开始。要匹配{,请使用{。

|

指明两项之间的一个选择。要匹配|,请使用\|

限定符

限定符用来制定正则表达式的一个给定组件必须要出现多少次才能满足匹配。有*或+或?或{n}或{n,}或{n,m}共6种。
正则表达式的限定符有:

特别字符

描述

*

匹配前面的子表达式零次或多次。例如,zo*能匹配“z”以及“zoo”。*等价于{0,}。

+

匹配前面的子表达式一次或多次。例如,‘zo+’能匹配“zo”以及“zoo”,但不能匹配“z”。+等价于{1,}。

?

匹配前面的子表达式零次或一次。例如,“do(es)?”可以匹配“do”或“does”中的“do”。?等价于{0,1}。

{n}

n是一个非负整数。匹配确定的n次。例如,‘o{2}’不能匹配“Bob”中的o,但是能匹配“food”中的两个o。

{n,}

n是一个非负整数。至少匹配n次。例如,‘0{2,}’不能匹配“Bob”中的‘o’,但能匹配“foooood”中的所有o。‘o{1,}’等价于‘o+’。‘o{0,}’等价于‘o*’。

{n,m}

m和n均为非负整数,其中n<=m.最少匹配n次且最多匹配m次。例如“o{1,3}”将匹配“fooooood”中的前三个o。‘o{0,1}’等价于‘o?’。请注意在逗号和两个数之间不能有空格。

由于章节编号在大的输入文档中会很可能超过九,所以您需要一种方式来处理两位或三位章节编号。限定符给您这种能力。下面的正则表达式匹配编号为任何位数的章节标题:

/Chapter [1-9][0-9]*/

请注意,限定符出现在范围表达式之后。因此,它应用于整个范围表达式,在本例中,只指定从0到9的数字(包括0和9)。
这里不使用+限定符,因为在第二个位置或后面的位置不一定需要有一个数字。也不使用?字符,因为它将章节编号限制到只有两位数。您需要至少匹配Chapter和空格字符后面一个数字。
如果您知道章节编号被限制为只有99章,可以使用下面的表达式来hiding一位但至多两位数字。

/Chapter [0-9]{1,2}/

上面的表达式的缺点是,大于99的章节标号仍只匹配开头两位数字。另一个缺点是Chapter 0 也将匹配。只匹配两位数字的更好的表达式如下:

/Chapter [1-9][0-9]?/
	或
	/Chapter [1-9][0-9]{0,1}/

*、+和?限定符都是贪婪的,因为它们会尽可能多的匹配文字,只有在它们的后面加上一个?就可以实现非贪婪或最小匹配。
例如,您可能搜索HTML文档,以查找括在H1标记内的章节标题。该文本在您的文档中如下:

<H1>Chapter 1 - Introduction to Regular Expressions</H1>

下面的表达式匹配从开始小于符号(<)到关闭H1标记的大于符号(>)之间的所有内容。

/<.*>/

如果您只需要匹配开始H1标记,下面的“非贪心”表达式只匹配

<.,*?>/

通过在*、+或?限定符之后放置?,该表达式从“贪心”表达式转换为“非贪心”表达式或者最小匹配。

定位符

定位符使您能够将正则表达式固定到行首或行尾。它们还使您能够创建这样的正则表达式,这些正则表达式出现在一个单词内、在一个单词的开头或者一个单词的结尾。
定位符来描述字符串或单词的边界,^和$分别指字符串的开始与结束,\b描述单词的前或后边界,\B表示非单词边界。
正则表达式的限定符有:

字符

描述

^

匹配输入字符串开始的位置。如果设置了RegExp对象的Multiline属性,^还会与\n或\r之后的位置匹配

$

匹配输入字符串结尾的位置。如果设置了RegExp对象的Multiline属性,$还会与\n或\r之前的位置匹配

\b

匹配一个字边界,即字与空格间的位置

\B

非字边界匹配

注意: 不能将限定符与定位点一起使用。由于在紧靠换行或者字边界的前面或后面不能有一个以上位置,因此不允许诸如^*之类的表达式。
若要匹配一行文本开始处的文本,请在正则表达式的开始使用字符。不要将的这种用法与中括号表达式内的用法混淆。
若要匹配一行文本的结束处的文本,请在正则表达式的结束处使用$字符。
若要在搜索章节标题时使用定位点下面的正则表达式匹配一个章节标题,该标题只包含两个尾随数字,并且出现在行首:

/^Chapter [1-9][0-9]{0,1}/

真正的搜索章节标题不仅出现行的开始处,而且它还是该行中仅有的文本。它即出现在行首又出现在同一行的结尾。下面的表达式能确保指定的匹配只匹配章节而不匹配交叉引用。通过创建只匹配一行文本的开始和结尾的正则表达式,就可做到这一点:

/^Chapter [1-9][0-9]{0,1}$/

匹配字边界稍有不同,但向正则表达式添加了很重要的能力。字边界是单词和空格之间的位置。非字边界是任何其他位置。下面的表达式匹配单词Chapter的开头三个字符,因为这三个字符出现字边界后面:

/\bCha/

\b字符的位置是非常重要的。如果它位于要匹配的字符串的开始,它在单词的开始处查找匹配项。如果它位于字符串的结尾,它在单词的结尾粗查找匹配项。例如,下面的表达式匹配单词Chapter中的字符串ter,因为它出现在字边界的前面:

/ter\b/

下面的表达式匹配Chapter中的字符串apt,但不匹配aptitude中的字符串apt:

/\Bapt/

字符串apt出现在单词Chapter中的非字边界处,但出现在单词aptitude中的字边界处。对于\B非字边界运算符,位置并不重要,因为匹配不关心究竟是单词的开头还是结尾。

选择

用圆括号将所有选择项括起来,相邻的选择项之间用|分隔。但用圆括号会有一个副作用,是相关的匹配会被缓存,此时可用?:放在第一个选项前来消除这种副作用。
其中?:是非捕获元之一,还有两个非捕获元?=和?!,这两个还有更多的含义,前者为正向预查在任何开始匹配圆括号内的正则表达式模式的位置来匹配搜索字符串,后者为负向预查,在任何开始不匹配该正则表达式模式的位置来搜索字符串。

方向引用

对一个正则表达式模式或部分模式两边添加圆括号将导致相关匹配存储到一个临时缓冲区中,所捕获的每个子匹配都按照在正则表达式模式中从左到右出现的顺序存储。缓冲区编号从1开始,最多可存储99个铺货的子表达式。每个缓冲区都可以使用’\n’访问,其中n为一个标识特定缓冲区的一位或两位十进制数。
可以使用非捕获元字符’?:’、’?=‘或’?!'来重写捕获,忽略对相关匹配的保存。
反向引用的最简单的、最有用的应用之一,是提供查找文本中两个相同的相邻单词的匹配项的能力。以下面的句子为例:

Is is the cost of of gasoline going up up?

上面的句子很显然有多个重复的单词。如果能设计一种方法定位该句子,而不必查找每个单词的重复出现,那该有多好。下面的正则表达式使用单个子表达式来实现这一点:

/\b([a-z]+) \1\b/gi

捕获的表达式,正如[a-z]+指定的,包括一个或多个字母。正则表达式的第二部分是对以前捕获的子匹配项的引用,即,单词的第二个匹配项正好由括号表达式匹配。\1 指定第一个子匹配项。字边界元字符确保检测整个单词。否则,诸如‘is issued’或“this is”之类的词组将不能正确地被此表达式识别。
正则表达式后面的全局标记(g)指示,将该表达式应用到输入字符串中能否查找到的尽可能多的匹配。表达式的结尾处的不区分大小写(i)标记指定不区分大小写。多行标记指定换行符的两边尽可能出现潜在的匹配。
方向引用还可以将通用资源指示符(URI)分解为其组件。假定您想将下面的URI分解为协议(ftp、http等等)、域地址和页/路径。

http://www.w3cschool.cc:80/html/html-tutorial.html

下面的正则表达式提供该功能:

/(\w+):\/\/([^/:]+)(:\d*)?([^# ]*)/

第一个括号子表达式捕获Web地址的协议部分。该子表达式匹配在冒号和两个正斜杠前面的任何单词。第二个括号子表达式捕获地址的域地址部分。子表达式匹配/或:之外的一个或多个字符。第三个括号子表达式捕获端口号(如果指定了的话)。该子表达式匹配冒号后面的零个或多个数字。只能重复一次该表达式。最后,第四括号子表达式捕获Web地址规定的路径和/或页信息。该子表达式能匹配不包括#或空格字符的任何字符序列。
将正则表达式应用到上面的URI,各子匹配项包含下面的内容:
第一个括号子表达式包含“http”
第二个括号子表达式包含“www.w3cschool.cc”
第三个括号子表达式包含":80"
第四个括号子表达式包含“/html/html-tutorial.html”

元字符

Tables

Are

\

将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如,‘n’匹配字符“n”。‘\n’匹配一个换行符。序列‘\’匹配“\”而“(”则匹配“(”。

^

匹配输入字符串的开始位置。如果设置了RegExp对象的Multiline属性,^也匹配‘\n’或‘\r’之后的位置。

$

匹配输入字符串的结束位置。如果设置了RegExp对象的Multiline属性,$也匹配‘\n’或‘\r’之前的位置。

*

匹配前面的子表达式零次或多次。例如,zo*能匹配“z”以及“zoo”。*等价于{0,}

+

匹配前面的子表达式一次或多次。例如,‘zo+’能匹配“zo”以及“zoo”。但不能匹配“z”。+等价于{1,}

?

匹配前面的子表达式零次或一次。例,“do(es)?”可以匹配“do”或“does”中的“do”。?等价于{0,1}。

{n}

n是一个非负整数。匹配确定的n次。例如‘o{2}’,不能匹配“Bob”中’o’,但是能匹配“food”中的两个o。

{n,}

n是一个非负整数。至少匹配n次。例如,’o{2,}‘不能匹配“Bob”中’o‘,但能匹配“foooood”中的所有o。‘o{1,}’等价于‘o+’。'o{0,}'则等价于‘o*’。

{n,m}

m和n均为非负整数,其中n<=m。最少匹配n次且最多匹配m次。例如,“o{1,3}”将匹配“fooooood”中的三个o。‘o{0,1}’等价于‘o?’。请注意在逗号和两个数之间不能够有空格。

?

当该字符紧跟在任何一个其他限制符(*,+,{n},{n,},{n,m})后面时,匹配模式是非贪婪的。非贪婪模式尽可能少的匹配所搜索的字符串,而默认的贪婪模式则尽可能多的匹配所搜索的字符串。例如,对于字符串“oooo”,‘o+?’将匹配单个“o”,而‘o’将匹配所有‘o’。

.

匹配除“\n”之外的任何单个字符。要匹配包括’\n’在内的任何字符,请使用像’[.\n]'的模式。

(pattern)

匹配pattern并获取这一匹配。所获取的匹配可以从产生的Matches集合得到,在VBScript中使用SubMatches集合,在JScript中则使用$0…$9。要匹配圆括号字符,请使用‘(’或‘)’。

(?:pattern)

匹配pattern但不获取匹配结果,也就是说这是一个非获取匹配,不进行存储宫以后使用。这在使用“或”字符(

(?=pattern)

正向预查,在任何匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如,‘Windows(?=95|98|NT|2000)’能匹配“Windows 2000”中的“Windows”,但不能匹配“Windows 3.1”中的“Windows”。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配的搜索,而不是从包含预查的字符之后开始。

(?!pattern)

负向预查,在任何不匹配pattern的字符串开始处匹配查找字符串。这是一个非获取匹配,也就是说,该匹配不需要获取供以后使用。例如“Windows(?!95|98|NT|2000)”能匹配“Windows 3.1”中的“Windows”,但不能匹配“Windows 2000”中的“Windows”。预查不消耗字符,也就是说,在一个匹配发生后,在最后一次匹配之后立即开始下一次匹配额搜索,而不是从包含预查的字符之后开始。

x|y

匹配x或。例如,‘z|food’能匹配“z”或“food”。‘(z|f)ood’则匹配“zood”或“food”。

[xyz]

字符集合。匹配所包含的任意一个字符。例如,‘[abc]’可以匹配“plain”中的‘a’。

[^xyz]

负值字符集合。匹配未包含的任意字符。例如,‘[abc]’可以匹配“plain”中的‘p’。

[a-z]

字符范围。匹配指定范围内的任意字符。例如,‘[a-z]’可以匹配‘a’到‘z’范围内的任意小写字母字符。

[^a-z]

负值字符范围。匹配任何不在指定范围内的任意字符。例如,‘[^a-z]’可以匹配任何不在‘a’到‘z’范围内的任意字符。

\b

匹配一个单词边界,也就是指单词和空格间的位置。例如,‘er\b’可以匹配“never”中的‘er’,但不能匹配“verb”中的、‘er’。

\B

匹配非单词边界。‘er\B’能匹配“verb”中的‘er’,但不能匹配“never”中的‘er’。

\cx

匹配由x指明的控制字符。例如,\cM匹配一个Control-M或回车符。x的值必须为A-Z或a-z之一。否则,将c视为一个原义的‘c’字符。

\d

匹配一个数字字符。等价于[0-9]。

\D

匹配一个非数字字符。等价于[^0-9]。

\f

匹配一个换页符。等价于\x0c和\cL

\n

匹配一个换行符。等价于\x0a和\cJ

\r

匹配一个回车符。等价于\x0d和\cM

\s

匹配任何空白字符,包括空格、制表符、换页符等等。等价于[\f\n\r\t\v]。

\S

匹配任何非空白字符。等价于[^\f\n\r\t\v]

\t

匹配一个制表符。等价于\x09和\cl

\v

匹配一个垂直制表符。等价于\x0b和\cK

\w

匹配包括下划线的任何单词字符。等价于‘[A-Za-z0-9_]’。

\W

匹配任何非单词字符。等价于‘[^A-Za-z0-9_]’

\xn

匹配n,其中n为十六进制转义值。十六进制转义值必须为确定的两个数字长。例如,‘\x41’匹配‘A’。‘\x041’则等价于‘\x04’&“1”。正则表达式中可以使用ASCII编码。

\num

匹配num,其中num是一个正整数。对所获取的匹配的引用。例如,‘(.)\1’匹配两个连续的相同字符。

\n

标识一个八进制转义值或一个向后引用。如果\n之前至少n个获取的子表达式,则n为向后引用。否则,如果n为八进制数字(0-7),则n为一个八进制转义值。

\nm

表示一个八进制转义值或一个向后引用。如果\nm之前至少有nm个获得子表达式,则nm为向后引用。如果\nm之前至少有n个获取,则n为一个后跟蚊子m的向后引用如果前面的条件都不满足,若n和m均为八进制数字(0-7),则\nm将匹配八进制转义值nm。

\nml

如果n为八进制数字(0-3)且m和l均为八进制数字(0-7),则匹配八进制转义值nml。

\un

匹配n,其中n是一个用四个十六进制数字表示的Unicode字符。例如。\u00A9匹配版本符号(?)。

运算符优先级

正则表达式从左到右进行计算,并遵循优先级顺序,这与算数表达式非常类似。
相同优先级的从左到右进行运算,不同优先级的运算先高后低。下表从最高到最低说明了各种正则表达式运算符的优先级顺序:

Tables

Are

\

转义符

(), (?

标签:Chapter,字符,匹配,正则表达式,28,字符串,2015.4,表达式
From: https://blog.51cto.com/u_11797608/6404733

相关文章

  • AI视频融合平台EasyCVR接入国标GB28181设备,视频无法播放是什么原因?
    EasyCVR可拓展性强、视频能力灵活、部署轻快,可支持的主流标准协议有国标GB28181、RTSP/Onvif、RTMP等,以及支持厂家私有协议与SDK接入,包括海康Ehome、海大宇等设备的SDK等,能对外分发RTSP、RTMP、FLV、HLS、WebRTC等格式的视频流。有用户反馈,将设备通过国标GB28181协议接入EasyCVR......
  • MySQL-正则表达式规范
     MySQL中的正则表达式采用的是PCRE的规范,匹配时按字符进行。RLIKE您可以使用RLIKE语句匹配正则表达式,支持的元字符如下表所示。元字符说明^行首。$行尾。.任意字符。*匹配前面的子表达式0次或多次。+匹配前面的子表达式1次或......
  • AtCoder Beginner Contest 286(G)
    AtCoderBeginnerContest286(G)G(欧拉路径)G题意大致为\(n\)个点,\(m\)个边的图,然后给出\(k\)条边的编号,问我们这\(k\)条边可不可以在一条路径上(每条边都可以经过)对于可不可以存在一条路径,里面包含个题目所给的\(k\)条边,其实就是问是否存在一条路可以经历这\(k\)条边,然后我们......
  • 树莓派之OLED12864视频播放—BadApple
    概述本篇教程讲述了使用树莓派驱动OLED12864液晶屏,并在液晶屏上播放动画和视频.硬件平台树莓派一台—RaspberryPi_2B。OLED12864显示屏一块,SPI接口。软件平台wiringPi—开源树莓派GPIO库。EasyBMP—开源BMP图片处理库(这个库是用C++编写的,主要为了方便提取BMP图片数据,我已经做好了......
  • python正则表达式之道
    Python使用正则表达式的步骤:1、导入正则表达式模块2、创建Regex对象re.compile(),传入正则表达式3、使用search()方法,传入字符串4、调用group()方法。举例:importre #1ne=re.compile(r'\d\d\d\-\d\d') #2mo=ne.search('yourdatasis456-11.') #3print(mo.gro......
  • 超省电LCD液晶驱动显示芯片VKL076 SSOP28 适用于分贝仪、测光仪、测厚仪等产品【FAE技
    VKL076概述:VKL076是一个点阵式存储映射的LCD驱动器,可支持最大76点(19SEGx4COM)的LCD屏。单片机可通过I2C接口配置显示参数和读写显示数据,可配置4种功耗模式,也可通过关显示和关振荡器进入省电模式。其高抗干扰,低功耗的特性适用于水电气表以及工控仪表类产品。功能特点:•    ......
  • 设备通过GB28181接入EasyCVR,设备列表多出一层目录是什么原因?
    EasyCVR平台基于云边端协同架构,可支持多协议、多类型的海量设备接入与分发,平台既具备传统安防视频监控的能力,也能接入AI智能分析的能力,在线下均有大量应用。EasyCVR平台可提供的视频能力包括:视频监控直播、云端录像、云存储、录像检索与回看、智能告警、平台级联、云台控制、语音......
  • 正则表达式原理及其简单实现
    本文从文件依赖依赖这个需求切入,详细阐述了文件依赖分析的实现过程,对于其中所使用到的正则表达式进行原理上的分析,说明了状态机的基本架构以及状态机的最小实现。文件依赖分析如果我想获取某个文件的所有依赖(如下图中的紫色部分),应该怎么做呢【方案1】利用webpack......
  • 文心一言 VS 讯飞星火 VS chatgpt (28)-- 算法导论5.1 3题
    三、假设你希望以1/2的概率输出0与1。你可以自由使用一个输出0或1的过程BIASED-RANDOM。它以某概率p输出1,概率1-p输出0,其中0<p<1,但是p的值未知。请给出一个利用BIASED-RANDOM作为子程序的算法,返回一个无偏的结果,能以概率1/2返回0,以概率1/2返回1。作为p的函数,你的算......
  • 文心一言 VS 讯飞星火 VS chatgpt (28)-- 算法导论5.1 3题
    三、假设你希望以1/2的概率输出0与1。你可以自由使用一个输出0或1的过程BIASED-RANDOM。它以某概率p输出1,概率1-p输出0,其中0<p<1,但是p的值未知。请给出一个利用BIASED-RANDOM作为子程序的算法,返回一个无偏的结果,能以概率1/2返回0,以概率1/2返回1。作为p的函数,你的......