首页 > 其他分享 >动手写一个正则表达式引擎

动手写一个正则表达式引擎

时间:2023-12-05 16:55:19浏览次数:32  
标签:__ 正则表达式 self edge 动手 add 引擎 regexp

曾经有人开玩笑:
当碰到棘手问题的时候,可以考虑使用正则表达式
当考虑正则表达式的时候,又多了一个棘手的问题

日常工作中,正则表达式是一个非常强大的工具,编写编译器/解释器的时候,正则表达式是必须的工具。自己动手写一个正则表达式,有利于使用者以正则表达式的方式思考,也是一个非常好的锻炼编码能力的小项目

思路

正则表达式的背后其实是图论算法,匹配的过程就是使用确定有限状态机DFA或者非确定有限状态机NFA模拟识别过程,两者是等价的。更下一层,会使用有向图的遍历算法。

有向图

class Digraph:
    """
    有向图的邻接表表示
    """
    def __init__(self, v):
        self.v = v  # 顶点数
        self.e = 0  # 边数
        self.adj = [set() for _ in range(v)]  # 邻接表
    
    def add_edge(self, edge):
        s, e = edge
        self.adj[s].add(e)
        self.e += 1

    def dfs(self, sources, marked=None):
        """
        ε闭包: 深度优先搜索, 记录可达的顶点集
        """
        marked = marked or set()
        for s in sources:
            if s not in marked:
                marked.add(s)
                self.dfs(self.adj[s], marked)
        return marked

  

深度优先dfs给定多个起始节点,计算这些点开始可达的顶点集

简单的正则引擎模型

正则表达式的定义:
一·空字符是正则表达式ε
二·单个字符是正则表达式
三·包含在括号()中的另一个正则表达式
四·两个或多个连接起来的正则表达式
五·由或运算符|分割的两个或多个正则表达式
六·由闭包运算符标记的一个正则表达式

闭包运算符有:*,+,?,本demo中只实现了 *

正则表达式的运行分为两个阶段

第一阶段:编译正则表达式,生成NFA或者DFA,对应初始化MyRE(本处时NFA)

第二阶段:识别目标文本,(在NFA上模拟DFA步骤)

class MyRE:
    """
    使用非确定有限状态机(NFA)模拟匹配过程
    """
    def __init__(self, regexp):
        self.regexp = f'(.*{regexp}.*)'
        self.g = Digraph(len(self.regexp)+1)
        
        ops = []
        for i, c in enumerate(self.regexp):
            lp = i
            if c in '(|':
                ops.append(i)
            elif c == ')':
                ori = ops.pop()
                if self.regexp[ori] == '|':
                    lp = ops.pop()
                    self.g.add_edge([lp, ori+1])
                    self.g.add_edge([ori, i])
                else:
                    lp = ori
            if i < len(self.regexp)-1 and self.regexp[i+1] == '*':
                self.g.add_edge([lp, i+1])
                self.g.add_edge([i+1, lp])
            if c in '(*)':
                self.g.add_edge([i, i+1])

    def recognizes(self, txt):
        pc = self.g.dfs([0])
        for c in txt:
            match = set()  # 识别c后能够到达的顶点集
            for v in pc:
                if v < len(self.regexp):
                    if self.regexp[v] == c or self.regexp[v] == '.':
                        match.add(v+1)
            pc = self.g.dfs(match)  # 计算ε闭包
        return len(self.regexp) in pc  # 包含结束状态顶点

  

识别的过程中,从第一个字符和开始状态开始,先计算开始状态可以直接到达的状态集(ε-闭包),然后识别下一个字符,然后再计算ε-闭包,再识别下一个字符,依次递进。识别字符结束,如果结束时的状态集包含结束状态,就表示这个NFA接受文本。

测试运行

# 文件名: grep.py

if __name__ == '__main__':
    import sys
    pattern = sys.argv[1]
    search_file = sys.argv[2]
    my_re = MyRE(pattern)
    with open(search_file) as fp:
        for line in fp.readlines():
            line = line.strip()
            if my_re.recognizes(line):
                print(line)

  

效果

(env3.6.7) ➜  mydemo cat my.txt
AC
AD
AAA
ABD
ADD
BCD
ABCCBD
BABAAA
BABBAAA
(env3.6.7) ➜  mydemo python grep.py "(A*B|AC)D" my.txt
ABD
ABCCBD
(env3.6.7) ➜  mydemo

  

补充说明

本demo的实现参考Sedgewick的《算法》(第四版)第五章正则表达式。

关于正则表达式的完整详实的说明,请参考《编译原理》(龙书)第三章词法分析

关于正则表达式的使用,最好的书是《精通正则表达式》,入门可以参考《正则表达式必知必会》

标签:__,正则表达式,self,edge,动手,add,引擎,regexp
From: https://www.cnblogs.com/fromdtor/p/17877649.html

相关文章

  • 火山引擎DataTester升级MAB功能,助力企业营销决策
    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群DataTester,火山引擎推出的AB测试与智能优化平台,近日宣布对其MAB(Multi-armedBandit)功能进行了升级,以更好地满足企业营销决策的需求。MAB是一种通过不断尝试不同的选择来找到最优决策的算......
  • Java登陆第十七天——正则表达式
    在java.util.regex包下,提供了正则表达式对字符串进行约束规范匹配正则表达式必须依靠Pattern类和Matcher类。PatternPattern类的主要作用是编写正则规范。常用方法如下:方法类型描述publicstaticPatterncompile(Stringregex)静态方法传入正则表达式规则,并返回......
  • 自己动手,从源码构建Aseprite!
    最近想试试这个很有名的像素画软件Aseprite,但是又囊中羞涩,没有钱去买Steam版。不过不要紧,Aseprite是开源软件,并且它的源文件是不需要花钱购买的。本着先上车再补票的原则,这篇文章就来尝试一下从源文件构建这个软件。构建的过程在官方的Github仓库里面描述得比较清楚了,本文记录一......
  • ClickHouse(16)ClickHouse日志引擎Log详细解析
    日志引擎系列这些引擎是为了需要写入许多小数据量(少于一百万行)的表的场景而开发的。这系列的引擎有:StripeLogLogTinyLog共同属性引擎:数据存储在磁盘上。写入时将数据追加在文件末尾。不支持突变操作,也就是更新。不支持索引。这意味着`SELECT`在范围查询......
  • SEO与SEM的区别:搜索引擎优化与搜索引擎营销
    随着互联网的发展,搜索引擎成为人们获取信息、产品和服务的主要途径。为了在竞争激烈的在线市场中脱颖而出,企业需要关注搜索引擎优化(SEO)和搜索引擎营销(SEM)。虽然SEO和SEM都与提升网站在搜索引擎中的可见性有关,但它们之间存在一些关键的区别。1.定义和目标:SEO是通过优化网站结构、内......
  • 构建满足流批数据质量监控用火山引擎DataLeap
    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群面对今日头条、抖音等不同产品线的复杂数据质量场景,火山引擎DataLeap数据质量平台如何满足多样的需求?本文将介绍我们在弥合大数据场景下数据质量校验与计算消耗资源大、校验计算时间长的冲突等......
  • 构建满足流批数据质量监控用火山引擎DataLeap
    更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号,回复【1】进入官方交流群面对今日头条、抖音等不同产品线的复杂数据质量场景,火山引擎DataLeap数据质量平台如何满足多样的需求?本文将介绍我们在弥合大数据场景下数据质量校验与计算消耗资源大、校验计算时间长的冲......
  • python 正则表达式总结
    python正则表达式总结#findall找出所有的,match从第一个字符开始找,fullmatch全句完全匹配,search从任意位置开始找text="jack最好,jack最好的,jack最好了,jack是最好的"pattern="jack最好"print(re.findall(pattern,text))输出:['jack最好',......
  • 【Linux 基础】正则表达式 与 通配符 区别
    简短不看版:通配符和正则表达式比较(1)通配符和正则表达式看起来有点像,不能混淆。可以简单的理解为通配符只有*,?,[],{}这4种,而正则表达式复杂多了。(2)*在通配符和正则表达式中有其不一样的地方,在通配符中*可以匹配任意的0个或多个字符,而在正则表达式中他是重复之前的一个或者多个......
  • 常用的正则表达式
    validator:function(rule,value,callback){if(/^1[3456789]\d{9}$/.test(value)===false){callback(newError('手机号格式错误'))}else{callback()}},v......