一、初识正则表达式
1、概念
正则表达式是对字符串操作的一种逻辑公式,它会将事先定义好的一些特定字符,以及这些特定字符的组合,组成一个规则字符串,并且通过这个规则字符串表达对给定字符串的过滤逻辑。
一条正则表达式也称为一个模式,使用每个模式可以匹配指定文本中与表达式模式相同的字符串。正则表达式由普通字符、元字符或预定义字符集组成,其中普通字符包括大小写字母和数字。
常见用途
-
数据验证:比如电话号码、邮箱等
-
替换文本:快速找到特定文本,用于替换
-
快速提取字符串:基于匹配规则,快速从文档中查找或提取子字符串
3、正则的用途举例
案例1
以下哪些是四大名著?
A.西游记
B.三国演义
C.水浒传
D.红楼梦
你喜欢哪些课程?
A.python
B.java
C.hadoop
D.爬虫
执行3/2后的结果正确的是
A、1
B、1.0
B、1.5
B、0
以上排版比较浪费空间,将其变为一行
请将选项后面的.
换成、
案例2
Zhangsan like orange or apple
将or替换为and
二、基本语法
1、普通字符
正则表达式中的普通字符,由没有显示的指定为元字符的打印和非打印的字符组成,普通字符没有其它含义,表示它本身。
举例
hello world
匹配hello
hello
2、元字符
使用简单的元字符表达某一类字符,下面列出常用的匹配方式:
预定义字符类
元字符 | 描述 |
---|---|
. | **默认模式:**匹配任何1个字符但换行除外;**DOTALL模式:**匹配任意字符 |
\d | 一个数字:[0-9] |
\D | 非数字:[^0-9] |
\h | 水平空白字符:[ \t\xA0\u1680\u180e\u2000-\u200a\u202f\u205f\u3000] |
\H | 非水平空白字符:[^\h] |
\s | 空白字符:[ \t\n\x0B\f\r] |
\S | 非空白字符:[^\s] |
\v | 垂直空白字符:[\n\x0B\f\r\x85\u2028\u2029] |
\V | 非垂直空白字符:[^\v] |
\w | 单词字符:[a-z,A-Z,_,0-9] |
\W | 非单词字符:[^\w] |
POSIX 字符类(仅限 US-ASCII)
元字符 | 描述 |
---|---|
\p{Lower} | 小写字母字符:[a-z] |
\p{Upper} | 大写字母字符:[A-Z] |
\p{ASCII} | 所有 ASCII:[\x00-\x7F] |
\p{Alpha} | 字母字符:[\p{Lower}\p{Upper}] |
\p{Digit} | 十进制数:[0-9] |
\p{Alnum} | 字母数字字符:[\p{Alpha}\p{Digit}] |
\p{Punct} | 标点符号:!"#$%&'()*+,-./:;<=>?@[\]^_ { |
\p{Graph} | 可见字符:[\p{Alnum}\p{Punct}] |
\p{Print} | 可打印字符:[\p{Graph}\x20] |
\p{Blank} | 空格或制表符:[ \t] |
\p{Cntrl} | 控制字符:[\x00-\x1F\x7F] |
\p{XDigit} | 十六进制数字:[0-9a-fA-F] |
\p{Space} | 空白字符:[ \t\n\x0B\f\r] |
举例
重庆大学 张三,ZhangSan 8000元 重庆万州
重庆大学 李四,Lisiq 8800元 重庆万州
重庆大学 王五,Wangwu 9800元 四川成都
思考,匹配工资信息
\d\d\d\d
思考,匹配中文姓名
\s\s,
其中,用于辅助定位
思考,匹配英文姓名
3、 转义字符
我们已经学了部分元字符,比如.
?
+
*
等,那如果我们想要查找元字符本身,比如要查找.
或者 *
,就出现了问题:没办法指定它们,因为它们会被解释成别的意思。这时就得使用 \
来取消这些字符的特殊意义,从而表示字符字面量。
元字符 | 转义字符 |
---|---|
$ | \$ |
. | \. |
+ | \+ |
* | \* |
? | \? |
^ | \^ |
/ | \/ |
\ | \\ |
( | \( |
) | \) |
[ | \[ |
] | \] |
{ | \{ |
} | \} |
举例
<script src="student.js"></script>
<script src="score.xml"></script>
取出文件名
\w+\.\w+
说明:
\w+:中的【+】表示,\w重复1次或多次。说人话,能匹配1个或多个字母
\.:表示【.】的转义字符,因为【.】在正则表达式中,有特殊的含义
举例
apple's price is $10.01 per kg.
apple's price is $10.02 per kg.
取出价格
\d+\.\d+
4、字符集
在正则表达式语法中,方括号表示字符范围,也称字符集(或者叫字符组)。
字符类 | 说明 |
---|---|
[abc] | a、b、c |
[^abc] | ^ 表示取反,除 a、b、c 以外的其它字符 |
[a-zA-Z] | - 表示连续,匹配所有字母字符 |
[0-9] | - 表示连续,匹配所有数字字符 |
[a-c[x-z]] | a到c,或 x 到 z,等价于 [a-cx-z] ,(并) |
[a-z&&[def]] | && 表示and,等价于 [def] ,(交) |
[a-z&&[^bc]] | a到z,但bc除外,等价于[ad-z] ,(差) |
举例
124 156 111 1337
92 20 999 666
匹配所有的偶数数字
[02468]
匹配所有的偶数
\d*[02468]
说明:
\d*:【*】匹配\d 0次或多次,说人话:匹配0个或多个数字
[02468]:匹配1个偶数数数字
5、量词
上面我们学会的是单个字符的匹配,如果要表达多个类似的字符,只能通过复制多次的方式,比如我们要查找5个连在一起的数字,要写成\d\d\d\d\d
,按程序员的思维,显然不合理,比如我们要表示1000个数字、任意多个数字、…
接下来介绍如何通过量词来表示上面的情形,下面列出了几种量词的写法:
量词 | 含义 | 举例 |
---|---|---|
X? | X出现 0次 或 1次 | \d? 0个或1个数字 |
X+ | X出现 1次 或 多次 | \d+ 1个或多个数字 |
X* | X出现 0次 或 n次 | \d* 0个或多个数字 |
X{m} | X出现 m次 | \d{3} 3个数字 |
X{m,} | X出现 至少m次 | \d{2,} 至少3个数字 |
X{m,n} | X出现 m~n次 | 0\d{2,3} 0后面根2-3个数字 |
举例
ggle gogle google gooogle goooogle gooooogle goooooogle gooooooogle goooooooogle
匹配上面所有的字符串
go*gle
说明:
o*:o可以出现0次或多次
举例
重庆大学 张三,ZhangSan 80000元 重庆万州
重庆大学 李四,Lisiq 8800元 重庆万州
重庆大学 王五,Wangwu 9800元 四川成都
思考,匹配工资信息
\d+
思考,匹配中文姓名
(\s+),
说明:【,】用于定位,()表示分组,方便后续通过分组编号取出这部分数据
思考,匹配英文姓名
,(\w+)
说明:【,】用于定位,()表示分组,方便后续通过分组编号取出这部分数据
举例
13612345678
13612345678abc
24654897132
12306123456
匹配手机号码
简易版本
1[3456789]\d{9}$
说明:【$】表示以\d{9},也就是9个数字结尾,具体用法见出面的边界。如果不写【$】13612345678abc也会被匹配
6、边界
如何表示一个字符串的起始位置和结束位置呢,这便是我们要讲的边界,这里先给几个简单的边界表示
边界匹配器 | 描述 |
---|---|
^ | 一行的开头,^hi.* ,以hi开头的行 |
$ | 一行的结尾,.+\.jpg$ ,以.jpg结尾的行 |
\b | 单词,边界,指的是占位的字符左右的间隙位置,\bor\b ,匹配两边是边界的or |
\B | 非单词,边界 |
注意:
- 单词指的是
\w
可以匹配的字符,即数字、大小写字母以及下划线[0-9a-zA-Z_]
- 边界 指的是占位的字符左右的间隙位置,边界是零宽断言,只匹配位置, 不匹配字符
举例
Zhangsan like orange or apple
将or替换为and
【老师你也太坏了,不我是让你爱上正则表达式】
查找框里写:\bor\b
替换框里写:and
7、选择、分组和、向后引用
1)选择(或分支)
正则表达式里的选择条件指的是有几种规则,如果满足其中任意一种规则都应该当成匹配,具体方法是用 |
把不同的规则分隔开。
X|Y 任何一个X或者Y
比如要识别如下两种固话号码,
0991-8585671
023-58102054
(0991)8585671
(023)58102054
则可以写成
0\d{2,3}-?\d{7,8}|\(0\d{2,3}\)\d{7,8}
2)分组
概念
可以使用小括号( )来指定一个子表达式(也叫分组),例如:
(http)(www.*com)
(http)?(www.*com) http作为一个整体,可有可无
组号
捕获组通过从左到右计算它们的左括号来编号
例如,在表达式 ((A)(B(C))) 中,有四个这样的组:
1号分组:((A)(B(C)))
2号分组: (A)
3号分 :(B(C))
4号分组 :(C)
注意:分组编号是从1开始的,0号分组代表整个表达式
例子
还记得刚写的两种固话的匹配吗,可以写成
(\(0\d{2,3}\)|0\d{2,3}-?)\d{7,8}
3)分组捕获与后向引用
作用:将前面分组匹配到的结果(内容),以组号的方式引用,给到后续表达式继续使用。
说明:默认情况下,每个分组会自动拥有一个组号,规则是:从左向右,以分组的左括号为标志,第一个出现的分组的组号为1,第二个为2,以此类推。
例子
请找到出左右对称的信息
===welcome===
==hello==
==你好=
==吃了吗===
例子
匹配重复单词的字符串
go go
kitty kitty
\b(\w+)\b\s+\1\b
说明:\1中的1表示组号,在这里表示(\w+)的匹配结果
8、贪婪、懒惰
先来看个例子:
123abc123456abc
如果想找出123abc
和123456abc
两个字符串,你兴奋的写下了.*abc
,结果发现只匹配了一次,把整个字符串匹配了。这便是我们要讲的匹配模式。
1)贪婪
当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符,这被称为贪婪匹配
示例:a.*b
,它将会匹配最长的以a开始,以b结束的字符串。如果用它来搜索 aabab
的话,它会匹配整个字符串aabab
。
属于贪婪模式的量词,也叫做匹配优先量词,包括:“{m,n}”、“{m,}”、“?”、“*”和“+”。
2)懒惰
如果想要匹配尽可能少的字符呢,这就是懒惰匹配模式。
只要在量词后面加上一个问号?
就可以了。
比如前面的示例,你只需要将正则表达式写为如下形式即可:
.*?abc
懒惰匹配总是出现在有量词的地方,有如下懒惰量词:
语法 | 描述 |
---|---|
*? | 重复任意次,但尽可能少重复 |
+? | 重复1次或更多次,但尽可能少重复 |
?? | 重复0次或1次,但尽可能少重复 |
{n,}? | 重复n次以上,但尽可能少重复 |
{m,n}? | 重复m到n次,但尽可能少重复 |
注意
问号(?):问号有两种场景
- 一是以量词方式使用,表示
?
前面的子表达式或者字符出现1次或者0次;- 二是出现在量词后面,表示懒惰匹配。
三、在String类中使用正则
String类提供了3个实例方法支持正则操作
① matches 匹配
boolean matches(String regex)
判断此字符串是否与给定的 正则表达式 匹配。
例如:
// 判断是不是一个正确的电话号码
String tel = "023-58580000";
boolean matches = tel.matches("\\d+-\\d+");
System.out.println(matches);
② split 拆分
String[] split(String regex)
围绕给定 正则表达式 的匹配项拆分此字符串。
String[] split(String regex, int limit)
围绕给定 正则表达式 的匹配项拆分此字符串。
例如:
// 按正则对字符串进行拆分
String stuInfo = "zhangsan china-cq 1985/11/12";
//String[] rst = stuInfo.split(" |-|/");
String[] rst = stuInfo.split("[ -/]");
for (String item : rst) {
System.out.println(item);
}
③ replace相关
String replace(String old, String new)
String replaceFirst(String regex, String replacement)
使用replacement替换regex的第一个匹配。
String replaceAll(String regex, String replacement)
使用replacement替换regex的所有匹配。
例如:
(86)023-12345670
021:12345671
010-12345672
需要得到如下结果
(023)12345670
(021)12345671
(010)12345672
String stuInfo = """
(86)023-12345670
021:12345671
010-12345672""";
String string = stuInfo.replaceAll("(\\(86\\))?(\\d{3})(-|:)", "($2)");
System.out.println(string);
四、Pattern类和Matcher类
- Matcher类不能单独使用,用于配合Pattern类。
- Pattern类根据正则表达式创建匹配规则,Matcher根据匹配规则执行具体的匹配操作。
1、创建匹配模式(规则)
使用 Pattern.compile() 静态方法,编译正则表达式字符串,形成模式对象(匹配规则)
static Pattern compile(String regex)
将给定的正则表达式字符串,编译成一个模式。
static Pattern compile(String regex, int flags)
将给定的正则表达式字符串,编译成具有【给定标志】的模式。
【flags可以取以下值】
Pattern.CANON_EQ 启用规范等价。
Pattern.CASE_INSENSITIVE 启用不区分大小写的匹配。【重要】
Pattern.COMMENTS 模式中允许空格和注解。
Pattern.DOTALL 启用 dotall 模式。【重要】
Pattern.LITERAL 启用模式的文字解析。
Pattern.MULTILINE 启用多行模式。【重要】
Pattern.UNICODE_CASE 启用 Unicode 感知大小写折叠。
Pattern.UNICODE_CHARACTER_CLASS 启用Unicode版本预定义字符类和POSIX字符类.
Pattern.UNIX_LINES 启用 Unix 行模式。
例如:
String phone = "13100000000";
// 获得模式对象(匹配规则)
Pattern pattern = Pattern.compile("1[345789]\\d{9}");
2、创建匹配器
根据模式(匹配规则)生成匹配器。使用 Pattern对象的 matcher(CharSequence input)
方法,创建匹配器
Matcher类用于,在给定的Pattern实例的模式控制下进行字符串的匹配工作。
例如:
String phone = "13100000000";
Pattern pattern = Pattern.compile("1[345789]\\d{9}"); // 匹配规则
Matcher matcher = pattern.matcher(phone); // 匹配器
3、匹配器的常用方法
匹配器,Matcher的实例对象
① matches匹配
"abc".matches("\w{3}")
boolean matches()
字符串,是否与正则表达式【完全】匹配
例如:
String phone = "13100000000";
Pattern pattern = Pattern.compile("1[345789]\\d{9}"); // 编译后的模式
Matcher matcher = pattern.matcher(phone);
System.out.println(matcher.matches());
② lookingAt匹配
boolean lookingAt()
字符串的【开始位置】,是否有和正则表达式匹配的内容
例如:
③ find匹配
boolean find()
字符串中,是否有【与位置无关】和正则表达式匹配的内容
boolean find(int start)
字符串中【从start指定的地方开始】,是否有【与位置无关】和正则表达式匹配的内容
例如:
④ groupCount 匹配
int groupCount()
返回匹配到的分组(结果)个数
例如:
⑤ group
获得匹配结果,注意 要先调用匹配方法,后才能获得匹配结果,否则报错
String group(); String group(0);
//返回匹配到的【整体】结果
String group(int group);
//根据【分组编号,0表示完整结果,组号从1开始】,获取匹配到的结果
例如:
⑥ replaceAll
String replaceAll(String replacement)
将正则表达式对应的【所有】【完整匹配】结果,使用字符串替换,并返回替换后的新字符串
例如:
⑦ replaceFirst
String replaceFirst(String replacement)
将正则表达式对应的【第一个】【完整匹配】结果,使用字符串替换,并返回替换后的新字符串
例如:
⑧ 其他方法见API手册
4、其它相关用法
① 使用 pattern 匹配字符串
使用 Pattern.matches()
静态方法,判断正则表达式与字符串【完全】匹配。
Static boolean matches(String regex, CharSequence input)
例如:
// 判断手机号格式是否正确
String phone = "13100000000";
System.out.println(Pattern.matches("1[345789]\\d{9}", phone));
② 使用 pattern 拆分字符串
Pattern.compile("[ -/]").split("张三 中国/重庆/巴南 2011-11-11");
标签:字符,匹配,String,正则表达式,Pattern,字符串,15,javase
From: https://blog.csdn.net/weixin_42238065/article/details/144516098