首页 > 其他分享 >正则表达式快速入门一 :regex 的基本概念及语法特性

正则表达式快速入门一 :regex 的基本概念及语法特性

时间:2023-01-06 22:11:26浏览次数:62  
标签:regex 字符 匹配 正则表达式 character group 基本概念

Regex quickstart :正则表达式快速入门

author: wclsn


reference quick start
如果想要了解正则表达式的基本概念且英文ok的话,完全可以从我上面所附网站的quickstart看起。

如果仅仅只是想快速入门并用起来,那么在看完quickstart 之后,可以看这个网站上对应编程语言中正则表达式的使用;

如果想要对于quickstart中的语法特性做进一步的学习,那么可以看这个网站上相应语法 topic的tutorial

这篇随笔主要是写我在看完上面所附quick start 之后的一些想法, 对于上面所附的教程中所附的概念做了一些组织

Intro

正则表达式: 用于表示text pattern 的表达式(一组字符串), 主要用于实现高效的文本匹配

匹配:最简单的匹配即直接使用 literal text(字对字的匹配),这也是一种最为简单的正则表达式。但这种匹配不够灵活,冗余度也过高,因此需要对字符串的结构进行抽象,引入特殊的运算符,来实现更有效的匹配。

字符层级的抽象

字符串的基本组成单位是字母(Literal Characters),正则表达式匹配的基础也是Literal characters, 比如说 a 会匹配字符串中的a。为了添加相应的运算符,正则表达式中有12个字符(metacharacters)具有特殊的含义,若要使用它们的原义(as a literal character)需要经过转义
为了扩大符号匹配的范围(enlarge the character class),正则表达式提供了对于 non-printable characters(例如tab 回车 esc等) 以及unicode 字符、十六进制字符集的支持
同时为了实现精准的字符匹配,正则表达式支持 Character Classes,即对于待匹配字符提供一个备选的集合 例如gr[A-Za-z]y 或者gr[ae]y。 针对这个集合又定义了一些运算(如^)
对于常见的字符集(如数字集,或者字母数字集等),regex提供了相应的简写(shorthand character class) 如\d 表示数字, \w表示字母数字字符加下划线, \s匹配whitespace character
同时 regex还提供了一种特殊的字符 . ,Dot match almost any character, 当然应该尽量少使用 . 在一般情况下字符集或者非字符集(negated character class)更快也更精确

由字符扩展至字符串

Repetition: * 算符或者 + 算法会重复匹配前一个字符, 结合character class使用可以用于匹配同类型的字符组合(如邮件 网址等), 同时还可以用 {} 指定重复匹配的次数, 比如 []+{3} 或者 []+{2, 4} ; 将 dot 和 + 结合起来可以实现 greedy or lazy repetition

Grouping and Capturing: 使用圆括号将许多字符变成一个匹配对象,将其作为一个整体参与匹配。同时我们也可以对于group 添加量词 (如?)

grouping will create capturing groups : 因此我们可以复用 capturing groups 中的内容。如用反向引用(backreference)

在由多个group 时,增加可读性的方法往往是对于group进行命名

很多时候,我们并不需要group的匹配结果,而是需要使用group是否匹配作为匹配的条件。Lookaround是一种特殊的group,包括Lookahead and lookbehind, 例如 q(?=u) 以及 (?<=a)bc

Alternation:在匹配字符串的时候 正则表达式还提供了|运算符, 如 cat|dog 需要注意的是, |具有最低的运算优先级

匹配位置的指定

Anchor:这类字符对于匹配的位置进行锚定(比如 ^ 和 $) 以及 \b 与 \B

表达式的可读性

为了表达式的可读性,在许多应用中提供了 free-spacing or ignore-whitespace or comment选项。 这样 regex engine 就会忽略表达式中的空格以及换行符, 同时# 提供了单行注释的功能。
在上述功能的加持下正则表达式的可读性以及可维护性会有显著的提升

至于具体的语法细节请参阅 所附reference网址。写作过程中难免会有所疏漏,如有发现,请及时联系我修改。

标签:regex,字符,匹配,正则表达式,character,group,基本概念
From: https://www.cnblogs.com/wclsn-blog/p/17031711.html

相关文章