字符串匹配算法：KMP

时间：2023-11-04 13:44:52浏览次数：44

标签：匹配后缀 needle si next 算法 KMP 字符串 haystack

Knuth–Morris–Pratt（KMP）是由三位数学家克努斯、莫里斯、普拉特同时发现，所有人们用三个人的名字来称呼这种算法，KMP是一种改进的字符串匹配算法，它的核心是利用匹配失败后的信息，尽量减少模式串与主串的匹配次数以达到快速匹配的目的。它的时间复杂度是 O(m+n)

字符匹配：给你两个字符串 haystack 和 needle ，请你在 haystack 字符串中找出 needle 字符串的第一个匹配项的下标（下标从 0 开始）。如果 needle 不是 haystack 的一部分，则返回 -1

在介绍KMP算法之前，我们先看一下另一种暴力算法（BF算法）去解字符匹配应该怎么做

BF算法：时间复杂度O(m*n)

class Solution:
    def strStr(self, haystack: str, needle: str) -> int:
        #hi是haystack的当前索引
        hi = 0
        haystackLength = len(haystack)
        needleLength = len(needle)
        for i in range(haystackLength - needleLength+1):
            #每次匹配等于和完整的needle的字符串逐一匹配
            if haystack[i:i+needleLength] == needle:
                return i
        return -1

KMP算法：时间复杂度O(m+n)

KMP构造了一个next列表来对应改位置索引如果匹配失败应该追溯回到什么位置，这样我们讲减少了匹配次数

那么我们如何去构造维护我们的next（最长相同前后缀）

构造方法为：next[i] 对应的下标，为 P[0...i - 1] 的最长公共前缀后缀的长度，令 next[0] = -1。 具体解释如下：

例如对于字符串 abcba：
    前缀：它的前缀包括：a, ab, abc, abcb，不包括本身；
    后缀：它的后缀包括：bcba, cba, ba, a，不包括本身；
    最长公共前缀后缀：abcba 的前缀和后缀中只有 a 是公共部分，字符串 a 的长度为 1

我们通过动态规划来维护next，假设你知道next[0:i-1]位置上所有的回溯值，那么next[i-1]和next[i]相比仅仅多了一个位置，如果这个多的字符可以匹配上，那么next[i]一定等于next[i-1]+1(如下图所示)

那么如果匹配不上呢，匹配不上我们回溯到next[i-1]所需要回溯的位置，直到可以匹配上或到达无法追溯的位置next[0] = -1

    @staticmethod
    def same_start_end_str(p):
        """
        通过needle串来知道每个索引位置对应的最长前后缀
        例如ababa的最长前后缀是aba，前后缀是不和needle等长的最长相同前后缀
        """
        next = [-1] * (len(p)+1)
        si = -1
        ei = 0
        pl = len(p)
        while ei < pl :
            if si == -1 or p[si] == p[ei]:
                si += 1
                ei += 1
                next[ei] = si
            else:
                #无法匹配上，继续向前追溯
                si = next[si]

        return next

那我们有了next就可以取实现我们KMP算法了，完整代码如下

class Solution:
    def strStr(self, haystack: str, needle: str) -> int:
        next = self.same_start_end_str(needle)
        #hi是haystack当前索引,ni是needle当前索引
        hi = ni = 0
        hl = len(haystack)
        nl = len(needle)
        while hi < hl and ni < nl:
            if ni == -1 or haystack[hi] == needle[ni]:
                hi += 1
                ni += 1
            else:
                ni = next[ni]

        if ni == nl:
            return hi - ni
        else:
            return -1

    @staticmethod
    def same_start_end_str(p):
        """
        通过needle串来知道每个索引位置对应的最长前后缀
        例如ababa的最长前后缀是aba，前后缀是不和needle等长的最长相同前后缀
        """
        next = [-1] * (len(p)+1)
        si = -1
        ei = 0
        pl = len(p)
        while ei < pl :
            if si == -1 or p[si] == p[ei]:
                si += 1
                ei += 1
                next[ei] = si
            else:
                #无法匹配上，继续向前追溯
                si = next[si]

        return next

标签：匹配,后缀,needle,si,next,算法,KMP,字符串,haystack
From： https://www.cnblogs.com/yetangjian/p/17809233.html

【教3妹学编程-算法题】117. 填充每个节点的下一个右侧节点指针 II
2哥 :3妹，听说你昨天去面试了，怎么样啊？3妹：嗨，别提了，让我回去等通知，估计是没有通知了，还浪费我请了一天假。2哥 :你又请假了啊，你是怎么跟你那个严厉的老板请假的。3妹：我说我2哥生病了，嘿嘿~2哥：一猜就是说我生病了，自从你找工作，我这一年都病了十几回了……3妹：没办法，假不好请嘛，我尽快......
教3妹学编程-算法题】2914. 使二进制字符串变美丽的最少修改次数
3妹：呜呜，烦死了，脸上长了一个痘2哥 :不要在意这些细节嘛，不用管它，过两天自然不就好了。3妹：切，你不懂，影响这两天的心情哇。2哥 :我看你是不急着找工作了啊，工作那么辛苦，哪还有时间想这些啊。3妹：说到找工作，我又要去刷题了。2哥：我给你出一道关于美丽的题吧，让你的心情美丽美丽~ 1题目......
【教3妹学编程-算法题】数组中两个数的最大异或值
3妹：“太阳当空照，花儿对我笑，小鸟说早早早，你为什么背上炸药包”2哥 :3妹，什么事呀这么开心呀。3妹：2哥你看今天的天气多好啊，阳光明媚、万里无云、秋高气爽，适合秋游。2哥：是啊，都快立冬了，天气还是这么热。今年的冬天比以往来的要晚一些。3妹：晚来也是要来的，看天气预报下周要降温，估计没几......
四个代码融合依次：小青蛙上台阶；求阶乘；求最大公因数；地盘划分(均为递归算法)
小壁灯上楼梯#include<iostream>usingnamespacestd;inta(intc){if(c<=2){returnc;}else{returna(c-1)+(c-2);}}intmain(intargc,char**argv){intc,k;cin>>c;cout<<a(c);return0;}......
AI问答：关于字符串匹配算法的区别及应用场景，哈希/kmp/字典树/AC自动机
1. 哈希（Hashing）：哈希是一种将字符串转换为唯一标识符的技术，通常用于字符串的快速查找和比较。实现难度相对较低，但需要处理哈希冲突的问题。哈希在处理大量数据的查找和比较问题时非常实用。2. KMP（Knuth-Morris-Pratt）：KMP 是一种用于字符串匹配的算法，特别适用于查找子串在主串中的......
python 字符串格式化
Python字符串的格式化分为两种：1）%方式 2）str.format() 方式。str.format()是比%较新的方式，大多数的Python代码仍然使用%操作符。但最终会被str.format()代替，推荐使用str.format()==============================================================================......
HPO-ELM猎食者算法优化极限学习机的数据回归预测可直接运行预测效果好 Matlab~
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。......
【风电预测】基于阿基米德算法优化最小二乘支持向量机AOA-lssvm实现数风电预测附matla
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。......
【lssvm回归预测】基于天鹰算法优化最小二乘支持向量机AO-lssvm实现数据回归预测附mat
✅作者简介：热爱科研的Matlab仿真开发者，修心和技术同步精进，代码获取、论文复现及科研仿真合作可私信。......
贪心算法（C语言）
一、会议安排问题1.1问题（1）对于每个会议i，起始时间bi和结束时间ei，且bi＜ei（2）[bi,ei]与[bj,ej]不相交，则会议i和会议j相容，bi≥ej或bj≥ei（3）目标：在有限的时间内，尽可能多地安排会议1.2分析选择最早结束的会议1.3实现（1）初始化：按结束时间递增排序（2）选中第一......

字符串匹配算法：KMP

相关文章

赞助商

阅读排行