简介
在一些实际项目中,我们可能会遇到需要匹配对应的数据,例如爬虫时候需要匹配等,这时候就需要使用到正则表达式了
正则匹配常用规则
- 固定字符
- {abc} a/b/c
- [^abc] 取所有不是a、b、c中的内容
- [a-z]: 获取字母元素
- .[0-9]: 获取纯数字
- . 除换行符的所有字符
贪婪匹配:尽可能匹配长度较长的
非贪婪匹配:一般在* + 后面添加?
-
+:匹配一次或多次
-
\w: 字母数字下划线汉字
-
\d: 数字
-
*: 重复0次或多次
-
+:重复1次或者多次
-
? 重复0次或者1次
-
{n}:重复n次
-
{n, }: 重复n次或者大于n次
-
{n, m}: 重复n-m次
分组(括号)
提取括号中的部分值
单个括号
提取括号中的部分值
多个括号
列表中嵌套元组形式返回
括号中嵌套括号
将会把括号中的值一一匹配到列表中的对应元组中去
- ^ :起始
- $:末尾
对于特殊符号(*,. {}, (), +)可以进行转义
re.ASCII: 只会匹配字母数字下划线,没有中文
正则:命名分组(正则)L:(?P<名称>正则)
findall
finditer
正则取反:^((?!你的规则).)*
跨行匹配
在匹配时添加标识符re.S
或者re.DOTALL
使其匹配换行符,例如:
re.match(pattern, content, re.S)
注意事项
- 当需要匹配字符或时,需要注意的时需要添加括号将其括起来,有两种方式,一个是
()
,还有一种是[]
,()
代表匹配整个单词,[]
代表匹配单个字符,例如
上述匹配的是以t字符或者s字符开头的字符串^[test|sad](.*?)\n
上述匹配的是以test单词或者sad单词开头的字符串^(test|sad)(.*?)\n