首页 > 其他分享 >KMP-笔记

KMP-笔记

时间:2024-08-22 15:19:08浏览次数:3  
标签:ab 匹配 前缀 笔记 KMP 字符串 失配

tip:以下内容仅本人理解,如有问题,欢迎指出

前言(?

首先我们要知道KMP是干嘛的

KMP 是一个字符串匹配算法,相当于AC自动机的弱化版,如果你完全理解了 KMPTrie树 的话,那你也离学会AC自动机不远了

对于字符串匹配,我们有一个字符串和一个模式串,需要求字符串的子串里有没有这个模式串。例如:

mobaiawa <-字符串
     awa <-模式串

它俩对齐的位置使字符串相应部分与模式串完全相同,这样的情况我们叫做匹配

在这里,我们只考虑一个字符串匹配一个模式串的情况

先丢一个暴力板子

for(int i=1;i<=n-m+1;i++){
    bool flag=1;
    for(int j=0;j<m;j++){
        if(a[i+j]!=b[j+1]){
            flag=0;
            break;
        }
    }
    if(flag){
        //匹配成功,操作
    } 
}

手模 / 交一份代码可以发现大量的时间耗费在了最初的几个字母匹配上,于是,KMP 应运而生。

大致思想:

举个例子,字符串:abcababaaabcababc,模式串:abcababc
那么我们就可以进行操作:

abcabab|a|aabcababc
abcabab|c|
        ^ 在这失配

那么我们根据贪心,直接将匹配成功的子串的等于相同长度后缀的最大前缀“拽”过来(可能说不太清楚,看操作吧)

abcab|ab| //(匹配成功的子串)
     |ab|cabab
ab为那个最大前缀

abcab|ab|aaabcababc
     |ab|cababc //“拽”过来
abcab|ab|c //原来在这

可以证明中间的都不用操作,但我太蒟蒻了,不会证明,总之这个算法就是大幅优化了失配后重新配对的时间,防止大量无意义的失配,至于配对,还是得一个一个比。

这样,就可以大幅优化原来的暴力算法了。

获得这个信息的方法,就是KMP的预处理。

预处理

这个预处理是基于一个十分神奇的思路实现的,
暴力肯定是枚举前缀判定,但,我们可以不这么做。
先上代码

next[0]=next[1]=0;
for(int i=1,j=0;i<=l;i++){
    while(j&&s[i]!=s[j+1])j=next[j];
    if(s[i]==s[j+1])j++;
    next[i]=j;
}

还是那句话,思路十分神奇

换个例子:abcabcabcdabc

首先,抛开 while 不谈,那么这就是一个错误的暴力写法。
next[1] 无意义,毕竟只有一个的字符串的前缀永远等于ta的后缀。
所以,如果第一个就失配,直接从头开始
然后 next[i]=j 就说明了已经处理完了前 i 个前缀子串的问题了
又已知,j<=i 即过到的子串信息都已经处理好了
那么 我们就是在拿这个串做一个类似 KMP 的操作嘛

比如,过到这了:
abcabcabc|d|abc
   abcabc|a|bcdabc
          ^ 这里失配了,i=10,j=6
那么 10 之前的 next[i] 早就处理好了,直接用(因为相当于匹配后缀嘛)
那么 next[6]=3 也就是跳到了这样的匹配情况:
abcabc|abc|dabc
      |abc|abcabcdabc //跳/“拽”到这了
   abc|abc|abcdabc //原来在这
         ^ j 指向这个位置,视觉上看起来像是字符串挪动了,但代码上是 j 的位置移动
也许应该这样?:
abcabcabcdabc //j 原来在这
     ^ j的位置
abcabcabcdabc // j 跳/“拽”到这了
  ^ j 的位置
abcabcabcdabc//匹配到这了
         ^ i 的位置
对齐 i , j+1 (因为永远是判断串的下一位能否匹配):

abcabcabcdabc
      abcabcabcdabc
        ^ j 的位置
然而 s[i] 仍然不等于 s[j+1] ,所以继续跳next[j],直到跳到头(没有前缀,j==0 )为止
然后就继续愉快地匹配,看以第 i 个字符为结尾的后缀字符串能否有前缀字符串匹配啦

*预处理结束

查找

上面已经讲的很清楚了就不多讲啦(逃

for(int i=1;i<=n;i++){//s2 是模式串
    while(j&&s1[i]!=s2[j+1])j=next[j];
    if(s1[i]==s2[j+1])j++;
    if(j==m){
        //匹配成功,操作
        j=next[j];//继续匹配
    }
}

标签:ab,匹配,前缀,笔记,KMP,字符串,失配
From: https://www.cnblogs.com/mobaiawa/p/18373923

相关文章

  • Tarjan 之 割点 学习笔记
    首先,要求割点,我们需要知道割点是什么割点:是指在无向连通图中,如果删除某个顶点后,图的连通分量增加,则称该顶点为割点好,知道了这个,那我们怎么去求他呢?Tarjan大神给出了一种依然基于时间戳的算法图片来源:董晓算法割点的求法大概就是这样的所以细节还是见代码吧#include<bit......
  • Java学习笔记3事务的四大特性
      ACID,分别是原子性、一致性、隔离性、持久性。①原子性(Atomiticy)原子性指事务包含的所有操作要么全部执行成功,要么全部失败回滚,因此事务的操作如果成功就必须要全部应用到数据库,如果操作失败则不能对数据库有任何影响。②一致性(Consistency)一致性是指事务必须使数据库从......
  • Java学习笔记2(数据库的三大范式)
    什么是范式?范式是数据库设计时遵循的一种规范,不同的规范要求遵循不同的范式。最常用的三大范式第一范式(1NF):属性不可分割,即每个属性都是不可分割的原子项。(实体的属性即表中的列)ps:举个例子,地址列山东省青岛市市北区,可以这样存储,但是实际上不满足第一范式,因为省市区是可以分......
  • python小白学习笔记(基于黑马程序员编写03)
    目录二十一、函数基础定义    1.解释:    2.为什么要用函数呢?    3.定义:二十二、函数参数    1.解释:    2.定义:二十三、函数返回值    1.解释:    2.定义:    思考:补充:None    1.解释 ......
  • 动态树笔记
    不知道“树链剖分”、“全局平衡二叉树”等应不应该归类到“动态树”里面...解决动态树问题的本质是将原树映射到一个高度为\(O(\logn)\)的树上。树链剖分主要是重链剖分,具体略.支持:链修改链查询子树修改子树查询这里的修改、查询需要满足可以用数据结构维护.一般......
  • GPT4SM论文阅读笔记
    AreGPTEmbeddingsUsefulforAdsandRecommendation?论文阅读笔记Abstract现存的问题:​ 尽管LLMs潜力巨大,但关于其文本嵌入是否能帮助广告和推荐服务的讨论却十分有限。提出方法:​ 为了探索GPT嵌入在广告和推荐中的应用,我们提出了三种策略,将LLMs的知识整合到基本P......
  • Linux系统运维笔记,openEuler-22.03 安装阿里(aliyun)yum
    Linux系统运维笔记,openEuler-22.03 安装阿里(aliyun)yum阿里巴巴开源镜像站点:http://mirrors.aliyun.com yum源理解yum源仓库的地址在/etc/yum.repos.d/,并且只能读出第一层的repo文件,yum仓库的文件都是以.repo结尾的。为加快yum下载,我们下载阿里云的.repo仓库文件,放到/e......
  • DP斜率优化学习笔记
    最后一次修改:2024.7.1614:39P.MBy哈哈铭简介“斜率优化”顾名思义就是用斜率进行优化,让\(DP\)的时间复杂度更优。一般情况下,将动态转移方程化简后得到这样的关系式:\[\frac{y_1-y_2}{x_1-x_2}\leqK\]然后通过该式进行转移,以达到优化时间复杂度的目的。小tip:推公式前......
  • 算法笔记|Day32动态规划V
    算法笔记|Day32动态规划V※※※※※完全背包问题理论基本题目描述题目分析采用一维数组(滚动数组)☆☆☆☆☆leetcode518.零钱兑换II题目分析代码☆☆☆☆☆leetcode377.组合总和Ⅳ题目分析代码☆☆☆☆☆KamaCoder57.爬楼梯(待补充)题目分析代码※※※※※完全......
  • Spark超全笔记 一站式搞定!!
    sparkSparkSpark和Hadoop的区别Spark计算流程Spark组成架构(spark的五大组件)Spark内核调度流程Spark并行度RDDRDD的五大特性RDD的创建RDD常用算子常用transformation算子常用action算子RDD缓存和checkpoint对比RDD依赖依赖管理DAG有向无环图为什么要进行stage划分Spar......