标签：匹配 09 ret 9.1 re 正则 com findall day

第三章. 数据解析之正则

Regular Expression，译作正则表达式或正规表示法，表示有规则的表达式，意思是说，描述一段文本排列规则的表达式。

正则表达式并不是Python的一部分。而是一套独立于编程语言，用于处理复杂文本信息的强大的高级文本操作工具。正则表达式拥有自己独特的规则语法以及一个独立的正则处理引擎，我们根据正则语法编写好规则（模式）以后，引擎不仅能够根据规则进行模糊文本查找，还可以进行模糊分割，替换等复杂的文本操作，能让开发者随心所欲地处理文本信息。正则引擎一般由编程语言提供操作，像python就提供了re模块或regex模块来调用正则处理引擎。

正则表达式在处理文本的效率上不如系统自带的字符串操作，但功能却比系统自带的要强大许多。

最早的正则表达式来源于Perl语言，后面其他的编程语言在提供正则表达式操作时基本沿用了Perl语言的正则语法，所以我们学习python的正则以后，也可以在java，php，go，javascript，sql等编程语言中使用。

正则对字符串或文本的操作，无非是分割、匹配、查找和替换。

在线测试工具 http://tool.chinaz.com/regex/

【1】元字符(Metacharacters)

元字符是具有特殊含义的字符。

元字符	描述
.	叫通配符、万能通配符或通配元字符，匹配1个除了换行符\n以外任何原子
[]	匹配一个中括号中出现的任意原子
[^原子]	匹配一个没有在中括号出现的任意原子
+	叫加号贪婪符，指定左边原子出现1次或多次
*****	叫星号贪婪符，指定左边原子出现0次或多次
?	叫非贪婪符，指定左边原子出现0次或1次
{n,m}	叫数量范围贪婪符，指定左边原子的数量范围，有{n}，{n, }, {,m}, {n,m}四种写法，其中n与m必须是非负整数。
^	叫开始边界符或开始锚点符，匹配一行的开头位置
$	叫结束边界符或结束锚点符，匹配一行的结束位置
\|	指定原子或正则模式进行二选一或多选一
()	对原子或正则模式进行捕获提取和分组划分整体操作，
\	转义字符，可以把原子转换特殊元字符，也可以把特殊元字符转成原子。

import re
"""re.findall(正则模式, 文本)  基于正则模式查找所有匹配的文本内容"""
# part1: 通配符->.  字符集-> []
ret1 = re.findall("a", "a,b,c,d,e")
ret1 = re.findall(".", "a,b,c,d,e")
ret1 = re.findall("[ace]", "a,b,c,d,e")
ret1 = re.findall("[a-z]", "a,b,c,d,e")
ret1 = re.findall("[0-9]", "1,2,3,4,5")
ret1 = re.findall("\d", "1,2,3,4,5")
ret1 = re.findall("[0-9a-z]", "1,a,2,b,3")
ret1 = re.findall("[^a-z]", "1,a,2,b,3")
ret1 = re.findall("[^0-9,]", "1,a,2,b,3")
print(ret1)

# part2:重复元字符-> + * {} ?
ret2 = re.findall("[0-9a-zA-Z]", "apple,banana,orange,melon")
ret2 = re.findall("\w", "apple,banana,orange,melon")
ret2 = re.findall("\w+", "apple,banana,orange,melon")
ret2 = re.findall("\w+?", "apple,banana,orange,melon")  # 取消贪婪匹配
ret2 = re.findall("\w*", "apple,banana,orange,melon")
ret2 = re.findall("\w{6}", "apple,banana,orange,melon")

# part3: 位置元字符-> ^ $
ret3 = re.findall("^\w{5}", "apple,banana,peach,orange,melon")
ret3 = re.findall("\w{5}$", "apple,banana,peach,orange,melon")
ret3 = re.findall("^\w{5}$", "apple,banana,peach,orange,melon")
print(ret3)

# part4:
# | 指定原子或正则模式进行二选一或多选一
# () 具备模式捕获的能力，也就是优先提取数据的能力，通过(?:) 可以取消模式捕获
ret4 = re.findall(",\w{5},", ",apple,banana,peach,orange,melon,")  # 筛选出5个字符的单词
ret4 = re.findall(",(\w{5}),", ",apple,banana,peach,orange,melon,")  # 筛选出5个字符的单词
ret4 = re.findall("\w+@\w+\.com", "123abc@163.com,....234xyz@qq.com,....")  # 筛选出5个字符的单词
ret4 = re.findall("(\w+)@qq\.com", "123abc@163.com,....234xyz@qq.com,....")  # 筛选出5个字符的单词
ret4 = re.findall("(?:\w+)@(?:qq|163)\.com", "123abc@163.com,....234xyz@qq.com,....")  # 筛选出5个字符的单词
print(ret4)

# part5:  转义符-> \d \D  \w \W      \n    \s \S  \b \B
""" \b 1个单词边界原子 """
txt = "my name is nana. nihao,nana"
ret = re.findall(r"na", txt)
ret = re.findall(r"\bna", txt)
ret = re.findall(r"\bna\w{2}", txt)
print(ret)  # ['na', 'na', 'na']

转义元字符是\开头的元字符，由于某些正则模式会在开发中反复被用到，所以正则语法预定义了一些特殊正则模式以方便我们简写。

元字符	描述	示例
\d	匹配一个数字原子，等价于`[0-9]`。	\d
\D	匹配一个非数字原子。等价于`[^0-9]`或`[^\d]`。	"\D"
\b	匹配一个单词边界原子，也就是指单词和空格间的位置。	er\b
\B	匹配一个非单词边界原子，等价于 `[^\b]`	r"\Bain"r"ain\B"
\n	匹配一个换行符
\t	匹配一个制表符，tab键
\s	匹配一个任何空白字符原子，包括空格、制表符、换页符等等。等价于`[ \f\n\r\t\v]`。	"\s"
\S	匹配一个任何非空白字符原子。等价于`[^ \f\n\r\t\v]`或 `[^\s]`。	"\S"
\w	匹配一个包括下划线的单词原子。等价于`[A-Za-z0-9_]`。	"\w"
\W	匹配任何非单词字符。等价于`[^A-Za-z0-9_]` 或 `[^\w]`。	"\W"

注意：python本身没有内置正则处理的，python中的正则就是一段字符串，我们需要使用python模块中提供的函数把字符串发送给正则引擎，正则引擎会把字符串转换成真正的正则表达式来处理文本内容。

【2】re模块中的常用函数

re模块提供了一组正则处理函数，使我们可以在字符串中搜索匹配项：

函数	描述
findall	按指定的正则模式查找文本中所有符合正则模式的匹配项，以列表格式返回结果。
search	在字符串中任何位置查找首个符合正则模式的匹配项，存在则返回re.Match对象，不存在返回None
match	判定字符串开始位置是否匹配正则模式的规则，匹配则返回re.Match对象，不匹配返回None
split	按指定的正则模式来分割字符串，返回一个分割后的列表
sub	把字符串按指定的正则模式来查找符合正则模式的匹配项，并可以替换一个或多个匹配项成其他内容。

【2.1】findall

def findall(pattern, string, flags=0)

findall()函数返回包含所有匹配项的列表，如果找不到匹配项，则返回一个空列表。

【2.2】search

def search(pattern, string, flags=0)

search()函数搜索匹配的字符串，如果匹配上则返回匹配对象re.Match。如果有多个匹配项，则仅返回匹配项的第一个匹配项，如果找不到匹配项，则返回值为None

import re

ret = re.search("1[3-9]\d{9}", "我的手机号码是13928835900,我女朋友的手机号是15100363326")
print(ret)
print(ret.start(), ret.end(), ret.span())
print(ret.group())

ret = re.search("(?P<tel>1[3-9]\d{9}).*?(?P<email>\d+@qq.com)", "我的手机号码是13928835900,我的邮箱是123@qq.com")
print(ret)
print(ret.group("tel"))
print(ret.group("email"))

【2.3】match

def match(pattern, string, flags=0)

match()函数搜索匹配的字符串开始位置，如果匹配上则返回匹配对象，如果找不到匹配项，则返回值为None

【2.4】split

def split(patter, string, maxsplit=0, flags=0)

split()函数返回一个列表，对字符串进行正则分割。

import re

txt = "my name is moluo"
ret = re.split("\s", txt)
print(ret)  # ['my', 'name', 'is', 'moluo']

可以通过指定maxsplit参数来控制分割的次数，例如，仅在第1次出现时才拆分字符串：

import re

txt = "my  name        is    yuan"
ret = re.split("\s+", txt)
print(ret)

【2.5】sub和subn

def sub(pattern, repl, string, count=0, flags=0)  返回匹配后的结果
def subn(pattern, repl, string, count=0, flags=0)  返回匹配后的结果和次数

sub()函数用选择的文本替换匹配:

import re

txt = "my  name        is    yuan"
# ret = re.sub("\s+"," " ,txt)
ret = re.sub("\s+", " ", txt, 2)
print(ret)

【2.6】compile()

def compile(pattern, flags=0)

import re

re_email = re.compile(r"(?:\+86)?1[3-9]\d{9}")
ret = re_email.findall("15100649928,123@qq.com,13653287791,666@163.com")
print(ret)

如果一个正则表达式要使用几千遍，每一次都会编译，出于效率的考虑进行正则表达式的编译，就不需要每次都编译了，节省了编译的时间，从而提升效率

【3】正则进阶

【3.1】`.*?`

import re

text = '<12> <xyz> <!@#$%> <1a!#e2> <>'

ret = re.findall("<\d+>", text)
ret = re.findall("<\w+>", text)
ret = re.findall("<.+>", text)
ret = re.findall("<.+?>", text)
ret = re.findall("<.*?>", text)

print(ret)

【3.2】`模式修正符`

模式修正符，也叫正则修饰符，模式修正符就是给正则模式增强或增加功能的。

通用flags（修正符）

值	说明
re.I	是匹配对大小写不敏感
re.L	做本地化识别匹配
re.M	多行匹配，影响到^和$
re.S	使.匹配包括换行符在内的所有字符
re.U	根据Unicode字符集解析字符，影响\w、\W、\b、\B
re.X	通过给予我们功能灵活的格式以便更好的理解正则表达式

import re

text = """
<12
>
 
 <x
 yz> 
 
 <!@#$%> 
 
 <1a!#
 e2> 
 
 <>
"""

ret = re.findall("<.*?>", text)
ret = re.findall("<.*?>", text, re.S)

print(ret)

练习：豆瓣Top250页面解析

【4】练习

工作中，正则一般用于验证数据、校验用户输入的信息、爬虫、运维日志分析等。其中如果是验证用户输入的数据：

场景	正则表达式
用户名	`^[a-z0-9_-]{3,16}$`
密码	`^[a-z0-9_-]{6,18}$`
手机号码	`^(?:\+86)?1[3-9]\d{9}$`
颜色的十六进制值	`^#?([a-f0-9]
电子邮箱	`^[a-z\d]+(\.[a-z\d]+)*@([\da-z](-[\da-z])?)+\.[a-z]+$`
URL	`^(?:https://
IP 地址	`((2[0-4]\d
HTML 标签	`^<([a-z]+)([^<]+)(?:>(.)<\/\1>`
utf-8编码下的汉字范围	`^[\u2E80-\u9FFF]+$`

1、编写正则，匹配整数或者小数（包括正数和负数）

2、编写正则，匹配年月日日期 格式2018-12-31

3、编写正则，匹配qq号 5-12

4、编写正则，11位的电话号码

5、编写正则，长度为8-10位的用户密码 ： 包含数字字母下划线

6、编写正则，从18位省份证中提取用户生日日期

7、编写正则，从文本"a@com  b@qq.com 333@qq.com  333@168.com   19022@sina.com.cn"中匹配qq邮箱地址

8、从以下多行文本中提取href=""中的双引号的值，并提取标签内容 <a>内容<a>
"""
<a href="http://www.badu.com/s?wd=hahaha">hahaha</a>
<a href="http://www.tmall.com/">tmall</a>
<a href="http://www.tmall.com/">tmall</a>
"""

课堂代码

import re

"""
1、编写正则，匹配文本中的整数或者小数（包括正数和负数）
"""
# txt = "10.3 10 20 -20 +20 --20 ++20 -30.5444"
# # ret = re.findall(r"-?\+?\d+", txt)
# ret = re.findall(r"[\+\-]?(?:(?:\d+\.\d+)|(?:\d+))", txt)
# print(ret)
# # ['10', '3', '10', '20', '-20', '+20', '-20', '+20']



"""
2、编写正则，匹配年月日日期 格式: 2018-12-31
"""

# txt = "2018-12-31  2018-12-01 2018-12  2018-31 0000-12-31 2018-1-31 2018-01-31  20-01-31  20-01-1  2020-1-1  2020-01-01"
# ret = re.findall(r"[12]\d{3}-\d+-\d+", txt)
# print(ret)  # ['2018-12-31', '2018-12-01', '2018-1-31', '2018-01-31', '2020-1-1', '2020-01-01']
#

"""
3、编写正则，匹配qq号 5-12数字
"""
# txt = "20181231  40001 2202020133  13311233220222 20202012024222 222050sss2222  33020202222  2001  202011  2020.0101222"
# ret = re.findall(r"[1-9]\d{4,11}", txt)
# print(ret)  # ['20181231', '40001', '2202020133', '133112332202', '202020120242', '222050', '33020202222', '202011', '101222']



"""
4、编写正则，11位的手机号码
"""
# txt = "1331234546 1501233453 15812345678  158-1234-5678  158 1234 5678   20022221111  10012345678  19012345678"
# ret = re.findall(r"1[3-9]\d{9}", txt)
# print(ret)  #
#
# # 如果 158-1234-5678 和 158 1234 5678也算呢？
# txt = "1331234546 1501233453 15812345678  158-1234-5678  158 1234 5678   20022221111  10012345678  19012345678"
# ret = re.findall(r"1[3-9]\d[\- ]?\d{4}[\- ]?\d{4}", txt)
# print(ret)  #


"""
5、编写正则，长度为8-10位的用户密码 ： 包含数字字母下划线
"""
# password = input("请输入长度为8-10位的用户密码（包含数字字母下划线）：")
# ret = re.match(r"^\w{8,10}$", password)
# print(ret)

"""
6、编写正则，从18位省份证中提取用户生日日期
"""
# idCard = "51142119991021155x"
# ret = re.findall(r"^[1-6]\d{5}(\d{8})\d{3}[\dxX]$", idCard)
# # ret = re.findall(r"^(?:1[1-5]|2[1-3]|3[1-7]|4[1-6]|5[0-4]|6[1-5])\d{4}(\d{8})\d{3}[\dxX]$", idCard)
# print(ret)

"""
7、编写正则，从文本"a@com  b@qq.com 333@qq.com  333@168.com   19022@sina.com.cn"中匹配qq邮箱地址
"""
# txt = "a@com  b@qq.com 333@qq.com  333@168.com   19022@sina.com.cn"
# ret = re.findall(r"\w+@\w+\.\w+(?:.cn)?", txt)
# print(ret)  # ['b@qq.com', '333@qq.com', '333@168.com', '19022@sina.com.cn']

"""
8、从以下多行文本中提取href=""中的双引号的值，并提取标签内容 <a>内容<a>
"""

# txt = """
# <a href="http://www.badu.com/s?wd=hahaha">hahaha</a>
# <a href="http://www.tmall.com/">tmall</a>
# <a href="http://www.tmall.com/">tmall</a>
# """
# ret = re.findall(r'<a href="(?P<href>.*?)">(?P<content>.*?)</a>', txt, re.M+re.S)
# print(ret)

标签：匹配,09,ret,9.1,re,正则,com,findall,day
From： https://www.cnblogs.com/dream-ze/p/17337546.html

day 09 9.1 数据解析之正则

第三章. 数据解析之正则

【1】元字符(Metacharacters)

【2】re模块中的常用函数

【2.1】findall

【2.2】search

【2.3】match

【2.4】split

【2.5】sub和subn

【2.6】compile()

【3】正则进阶

【3.1】`.*?`

【3.2】`模式修正符`

【4】练习

相关文章

赞助商

阅读排行

day 09 9.1 数据解析之正则

第三章. 数据解析之正则

【1】元字符(Metacharacters)

【2】re模块中的常用函数

【2.1】findall

【2.2】search

【2.3】match

【2.4】split

【2.5】sub和subn

【2.6】compile()

【3】正则进阶

【3.1】.*?

【3.2】模式修正符

【4】练习

相关文章

赞助商

阅读排行

【3.1】`.*?`

【3.2】`模式修正符`