首页 > 编程语言 >老夫的正则表达式大成了,桀桀桀桀!!!【Python 正则表达式笔记】

老夫的正则表达式大成了,桀桀桀桀!!!【Python 正则表达式笔记】

时间:2023-05-12 15:14:15浏览次数:65  
标签:字符 桀桀 匹配 string re 正则表达式 pattern 捕获 Python

一、正则表达式语法

(一) 字符与字符类

特殊字符

\.^$?+*{}[]()| 为特殊字符,若想要使用字面值,必须使用 \ 进行转义

字符类 []

[] 匹配包含在方括号中的任何字符。它也可以指定范围,例:

  • [a-zA-Z0-9]表示a到z,A到Z,0到9之间的任何一个字符
  • [u4e00-u9fa5] 匹配 Unicode 中文
  • [^\x00-\xff] 匹配双字节字符(包括中文)

[] 中:

  • [^] 表示否定字符类,比如[^0-9]表示可以匹配一个任意非数字的字符
  • ^ 放在第一个位置表示否定,放在其他位置表示字面值
  • \ 表示转义
  • - 放在中间表示范围,放在其他位置表示字面值
  • 其他特殊字符不再具备特殊意义,都表示字面值
  • 字符类内部可以使用速记法,比如\d \s \w

速记法

  • . 可以匹配除换行符之外的任何字符,如果有 re.DOTALL 标志,则匹配任意字符包括换行
  • \d 匹配一个 Unicode 数字,如果有 re.ASCII 标志,则匹配0-9
  • \D 匹配 Unicode 非数字
  • \s 匹配 Unicode 空白,如果带有 re.ASCII 标志,则匹配\t\n\r\f\v中的一个
  • \S 匹配 Unicode 非空白
  • \w 匹配 Unicode 单词字符,如果带有 re.ASCII 标志,则匹配[a-zA-Z0-9_]中的一个
  • \W 匹配 Unicode 非单词字符

(二)量词

  • ? 0次或1次
  • * 0次或多次
  • + 1次或者多次
  • {m} m次
  • {m,} 至少m次
  • {,n} 最多n次
  • {m,n} 至少m次,最多n次

注意点:以上量词都是「贪婪模式」,后加 ? 切换为「最小匹配模式」

(三) 断言

断言不会匹配任何文本,只是施加约束。常用断言:

  • \b匹配单词的边界,放在字符类 [] 中则表示 backspace
  • \B匹配非单词边界,受ASCII标记影响
  • \A 在起始处匹配
  • \Z 在结尾处匹配
  • ^ 在起始处匹配,如果有 MULTILINE 标志,则在每个换行符后匹配
  • $ 在结尾处匹配,如果有 MULTILINE 标志,则在每个换行符前匹配

(四)捕获组

()的作用:

  • ()是一个捕获组,可被 \N 引用,N 是序号,以左括号排位决定。\0 表示整个匹配的内容。
  • (?:) 可以关闭捕获,只用作分组
  • 使用 | 组合多个表达式,表示「或」
  • (?=...) 向前正项匹配,前方必须存在。 如\w(?=,) 匹配 apple, banana 中的 apple
  • (?!...) 向前负项匹配,前方必须没有
  • (?<=...) 向后正项匹配,后方必须存在
  • (?<!...) 向后负项匹配,后方必须没有

命名捕获组:

语言 命名捕获组 搜索中引用 替换中引用
Python (?P<name>...) \N (?P=name) \N \g<name> $N
JavaScript (?<name>...) \N \k<name> $N
.NET (?<name>...) (?'name'...) \N \k<name> \k'name' $N ${N} ${name}
Perl (?<name>...) (?'name'...) \N \gN \g{N} \g{name}
(?N) (?+N) (?-N) (?Name)
兼容 .Net Python 的语法
$N ${N} $+{Name}

技巧:

  • 在搜索中,若 \12 无法表示「第一个捕获组 + 数字2」,可用 (?:\1)2 或者 \1[2] 表示
  • 在替换中,若 $12 无法表示「第一个捕获组 + 数字2」,可以用 $1\l2 或者 $1\u2 表示

(五)条件匹配

  • (?(id)yes_exp|no_exp):对应 id 的子表达式如果匹配到内容,则这里匹配 yes_exp,否则匹配 no_exp
  • Perl 支持的语法:(?(N)Yes|No) (?(<Name>)Yes|No) (?('Name')Yes|No) (?(?=Ahead)Yes|No)

实测 JavaScript 不支持条件匹配

(六)替换语法补充

一些在替换中使用的语法:

替换语法 作用
\l 下一个字符输出小写
\L 下一串字符输出小写
\u 下一个字符输出大写
\U 下一串字符输出大写
\E 终止 \U\L
语言 引用匹配之前的文本 引用匹配文本 引用匹配之后的文本
Perl ${^PREMATCH} | ${^MATCH} ${^POSTMATCH}

(七) 标志

传标志方法:

  • 正则表达式开头加标志 (?flags)pattern ,如 (?im)apple 表示不区分大小写
    • iIGNORECASE:忽略大小写,使匹配不区分大小写。
    • mMULTILINE:启用多行模式
    • sDOTALL:启用点字符(.)匹配任意字符,包括换行符。sspecial 的缩写。
    • xVERBOSE:启用详细模式,忽略空格和注释,可以使用多行形式编写更易读的正则表达式。可以用 [ ] \x20 (?-x: ) 表示空格。xextended 缩写
    • gGLOBAL: 查找所有符合条件的结果(Python 中不需要)
  • python 中 re.compile 的 flags 参数。flags 实质是一个数字,可以用 | 按位与传入多个标志
    • re.Are.ASCII
    • re.Ire.IGNORECASE
    • re.Mre.MULTILINE
    • re.Sre.DOTALL
    • re.Xre.VERBOSE

注释示例,匹配 <img> 标签:

pattern = re.compile(r"""(?ix)          # i 表示忽略大小写,x 表示开启注释模式
        <img\s+                         #标签的开始
            [^>]*?                      #不是src的属性
            src=                        #src属性的开始
                (?P<quote>["'])         #左引号
                (?P<image_name>[^"'<>]+?)  #图片名字
                (?P=quote)              #右括号
            [^>]*?                      #不是src的属性
        >                               #标签的结束
    """)

二、Python正则表达式模块

模块级 :

方法、属性 作用
compile(pattern) 预先编译正则表达式,返回 re.Pattern 对象
search(pattern, string, flags=0) 查找匹配的部分,返回 re.Match
match(pattern, string, flags=0) 从头匹配,返回符合规则的第一个值 re.Match
fullmatch(pattern, string, flags=0) 完全匹配(要从头到尾都匹配),返回 re.Match
split(pattern, string, maxsplit=0) 用匹配到的内容作为分割符,分割后,返回列表
findall(pattern, string) 查找所有,返回为列表,元素为 str。如果有捕获组,则列表元素为 tuple,包含空结果。
finditer(pattern, string) 查找所有,返回为 re.Match 的迭代器。
sub(pattern, repl, string, count=0) 返回替换后的字符串,repl 可以是一个函数(接收 Match,返回替换后的值)
subn(pattern, repl, string, count=0) 返回元组 (new_str, number),包含了替换次数
escape(pattern) 将特殊字符转义后返回,如 . 会返回 \.
purge() 清除缓存

re.compile() 可以预先编译正则表达式,返回 re.Pattern 对象,以提高匹配效率

方法、属性 作用
.search(string[, pos[, endpos]]) 查找匹配的部分,返回 re.Matchposendpos 限制查找区间
.match(string[, pos[, endpos]])
.fullmatch(string[, pos[, endpos]])
.split(string, maxsplit=0)
.findall()
.finditer()
.sub(repl, string, count=0)
.subn(repl, string, count=0)
.flags
.groups 有几个捕获组
.groupindex 一个字典,命名捕获组与序号对应
.pattern

re.Match 对象用于表示正则表达式匹配的结果:

方法、属性 作用
Match.group([group1, ...]) 返回:捕获组,或多个捕获组 tuple
Match[0] 等同于 group(0)
.group() 等同于 group(0)
.groups(default=None) 返回:元组,所有的子捕获组 (1, 2, 3...)。没有捕获到的组返回为 None。
.groupdict(default=None) 返回:词典,只包含有命名的捕获组
.start() 返回:匹配的起始位置
.end() 返回:匹配的结束位置
.span() 返回:元组 (start, end)
.expand(template) 用捕获到的组将 template 中的组引用展开
.pos 匹配开始的索引位置
.endpos 匹配结束的索引位置
.lastindex 最后一个捕获组的索引
.lastgroup 最后一个捕获组的名字
.string 传入的字符串

标签:字符,桀桀,匹配,string,re,正则表达式,pattern,捕获,Python
From: https://www.cnblogs.com/haujet/p/regular-expression-reference.html

相关文章

  • python 保存数据为.csv文件
    1、导包importcsv2、创建或打开文件,设置文件形式csvfile=open('文件名.csv',mode='w',newline='')3、设置列名headers=['列名1','列名2','列名3',...]4、创建DictWriter对象write=csv.DictWriter(csvfile,fieldnames=headers)5、写入表头write.w......
  • python_uiautomator2学习002控制命令
    一、连接设备importuiautomator2asu2#一个设备时可简写,多个设备时添加设置号参数,单引号内的值为设备序列号d=u2.connect('24cc1cc1')二、应用操作#启动指定应用d.app_start("com.example.app")#启动指定应用,启动前停止此应用d.app_start("com.example.app",stop=......
  • 服务器docker上部署python项目
    1.docker准备python环境与项目代码1.1查看docker内所有镜像://查看正在运行的镜像sudodockerimages//查看所有镜像sudodockerimages-a1.2查看docker内所有容器://查看正在运行的容器sudoduckerps//查看所有容器sudodockerps-a1.3docker安装anaconda镜像......
  • python exit用法
    exit()一般在交互式shell中退出时使用sys.exit()的退出比较优雅,调用后会引发SystemExit异常,可以捕获此异常做清理工作。一般用于在主线程中退出。os._exit()直接将python解释器退出,余下的语句不会执行,不会抛出异常。一般用于在线程中退出。......
  • python配置使用
    一、配置pip源为清华源pipconfigsetglobal.index-urlhttps://pypi.tuna.tsinghua.edu.cn/simple二、新建pycharm项目#Newenvironmentusing... 表示选择虚拟python环境#previouslyconfiguredinterpreter 表示可以选择本地的python环境,可再Addinterpreter中添加本......
  • python基础
    13573354434函数是把实现某功能的很多语句写在一起,又起了个名字。函数input()能实现等待从键盘输入数据。a=input()等待键盘输入的数据,把输入的数据放在了箱子a中执行上句,我们输入123时,箱子a中存放字符串123a=a*2执行后,把a*2的结果放a中,a中是字符串123123函数int()能把整数......
  • python rgb位运算合成一个数
    pythonrgb位运算合成一个数在pcd中,经常会把颜色通道rgb三个值合成一个值,具体方法如下: red=255green=0blue=0rgb_color=(red<<8|green<<0|blue<<24)int_color=((((red&0xff)<<8)|(green&0xff)<<0)|(blue&a......
  • 分享Python采集88个html5代码,总有一款适合您
    分享Python采集88个html5代码,总有一款适合您Python采集的88个html5代码下载链接:https://pan.baidu.com/s/1wJzpYBlHIGtNgTisJwCQ6Q?pwd=yr96提取码:yr96imgplay-基于canvas的图片序列播放jQuery插件基于HTML5Canvas和Rebound动画的Loading加载动画特效超酷创意分段式SVG文字动画特......
  • Python菜鸟教程
    Python菜鸟教程是一份非常流行的Python编程入门教程,适合初学者学习Python编程语言。它包含了丰富的示例代码和练习,让初学者可以快速地入门Python编程。该教程包括以下内容:1.Python基础知识:介绍Python语言的基础知识,如变量、数据类型、运算符、控制流程语句等。2.Python函数:讲解Pyth......
  • python中的泛型使用TypeVar
    引入为什么需要TypeVarPEP484的作者希望借助typing模块引入类型提示,不改动语言的其它部分。通过精巧的元编程技术,让类支持[]运算不成问题。但是方括号内的T变量必须在某处定义,否则要大范围改动python解释器才能让泛型支持特殊的[]表示法。鉴于此,我们增加了typing.TypeVar构造函......