首页 > 其他分享 >ACAM 学习笔记 | 附 YbtOJ 全部题解

ACAM 学习笔记 | 附 YbtOJ 全部题解

时间:2023-09-27 19:22:40浏览次数:42  
标签:匹配 Trie 题解 ACAM text YbtOJ Fail 指针

怎么有人现在才学 ACAM 呢。
好像比 SAM 简单挺多啊,也不记得当时是哪里看不懂。

AC 自动机(✔) 自动 AC 机(✘)

概述

ACAM(Aho–Corasick Automaton),是用来解决多模式串匹配的字符串算法。它的结构是个 DAG,其中点表示状态,边表示转移。这一点上各种自动机都是相同的。
具体来说,可以感性理解为在 Trie 树上构建失配指针跑 KMP。

前置知识

  • Trie。
    KMP 会不会都可以,虽然听起来离谱但我貌似就不怎么会。

状态

已经说过大致思想是在 Trie 上跑 KMP,我们肯定先把若干模式串都放进一棵 Trie 里。那么在这棵 Trie 上的每个节点,就代表着从根到这个点的字符串。我们把一个节点称作一个状态。
状态已经建完了,接下来要做的事情就是确定状态之间的转移,即在它们之间连一些边。

Fail 指针

定义

Fail 指针的作用,是在当前节点失配后,尝试只取当前字符串的一段后缀,使它能继续匹配。点 \(u\) 的 Fail 指针 \(\text{Fail}(u)\) 定义为 状态 \(u\) 作为某个模式串前缀出现的 最长后缀
换句话说,这就是我们失配后要转移去的节点。大概长成这个样子:

构建

根据定义,任何一个点的 Fail 指针指向的点深度都比自己小。考虑 bfs 按层构建 Fail 指针,这样可以保证深度比 \(u\) 小的点均已经构建完毕。
那么我们考虑根据父亲的 Fail 来构建该点的信息。设该点为 \(u\),连向父亲的边字符为 \(c\),那么基本的思想是这样的:

  • 若 \(\text{Fail}(fa)\) 存在一个字符 \(c\) 的转移边,令 \(\text{Fail}(u)=ch[\text{Fail}(fa)][c]\);
  • 否则令 \(fa=\text{Fail}(fa)\)。
  • 若最后就是找不到,\(\text{Fail}(u)=0\)。

考虑这样做为什么是对的。根据定义,\(\text{Fail}(fa)\) 是 \(fa\) 在 Trie 里存在的最长的后缀。那么如果 \(\text{Fail}(fa)\) 存在向 \(c\) 的转移边,在 \(\text{Fail}(fa)\) 后面接一个字符 \(c\) 也是 \(u\) 的最长后缀。
不存在时,考虑跳 Fail 取更短的后缀,跳到第一个匹配成功的就是能匹配的最长后缀。

事实上这样做每次都要跳很多次 Fail 指针,时间复杂度是不正确的。因此实际写代码时我们并不会这么写,需要用到下文的优化。

Trie 图

上述做法的瓶颈在不断跳 Fail 指针的过程。而每次匹配时,在同一个状态的同一字符处失配,Fail 最后跳到的位置是固定的。或许可以直接记录每个点最后跳到的位置。
先上代码:

queue<int> q;
for(int i=0;i<26;i++) if(d[0].s[i]) q.push(d[0].s[i]);
while(!q.empty())
{
    int u=q.front(); q.pop();
    for(int i=0;i<26;i++) 
    {
        if(!d[u].s[i]) d[u].s[i]=d[d[u].nxt].s[i];
        else d[d[u].s[i]].nxt=d[d[u].nxt].s[i],q.push(d[u].s[i]);
    }
}

发现如果 \(u\) 没有 \(i\) 这条转移边,根据上文说的我们应该不断跳 Fail 指针。但是这里我们直接连一条边到它父亲的 Fail 的对应位置。这是因为父亲的对应位置如果并没有 Trie 边,它也已经通过这个操作连到了第一个它能匹配的点。因此只需要跳一步就可以了。

那么对于这样实际不存在的边 \(u\to d[u][c]\),表示如果 \(u\) 因为添加字符 \(c\) 而失配,应该跳转到 \(d[u][c]\),省去了中间不合法的跳 Fail 指针的过程。

但是 Fail 指针依然有它的作用,Fail 是在能够匹配的情况下去找下一个后缀,而上文的边只有在失配时才能跳。

匹配

int solve(char *s)
{
    int len=strlen(s+1),ans=0,now=0;
    for(int i=1;i<=len;i++)
    {
        now=d[now].s[s[i]-'a'];
        for(int j=now;j&&d[j].cnt!=-1;j=d[j].nxt) ans+=d[j].cnt,d[j].cnt=-1;
    }
    return ans;
}

跳 Fail 指针即可。在这段代码里,已经统计过答案的点不会被多次访问,因此时间复杂度正确。

拓扑优化

说是拓扑优化其实跟拓扑没什么关系的啦。
若问题改为统计出现次数,已经统计过答案的点就需要多次访问,失去了时间复杂度的保证。
这里考虑把点和它的 Fail 指针连边。因为 Fail 的深度都小于它,所以容易证明这是一棵树。每次我们需要修改的是 某个点和它在 Fail 树上所有祖先的权值,所以只在点上记录修改操作,最后一起合并答案即可。
最后一起合并答案的时候可以用拓扑排序,也可以建树后 dfs。

拓扑

void tp()
{
	queue<int> q;
	for(int i=1;i<=tot;i++) if(!in[i]) q.push(i);
	while(!q.empty())
	{
		int u=q.front(); q.pop();
		if(tr[u].nxt) 
		{
			f[tr[u].nxt]+=f[u],in[tr[u].nxt]--;
			if(!in[tr[u].nxt]) q.push(tr[u].nxt);
		}
	}
}

dfs

void dfs(int u) {for(auto v:e[u]) dfs(v),f[u]+=f[v];}
for(int i=1;i<=tot;i++) e[d[i].nxt].push_back(i); //build tree

YbtOJ 题解

代码懒得粘,可以找我要。

A.【例题1】单词查询|P3808【模板】AC自动机(简单版)

板子。

B.【例题2】单词频率|P3796【模板】AC自动机(加强版)


板子*2。一年前的提交记录是写得很抽象的拓扑优化,我猜不是我自己写的 /oh

C.【例题3】前缀匹配


由模板 1 我们知道了统计 Trie 上哪些节点被访问过的方法。那么这题就是对每个查询串沿着 Trie 走,找最深的被访问过的点即可。

D.【例题4】屏蔽词删除|P3121 [USACO15FEB] Censoring G

题面和原题一模一样,不截图了。
发现删了一个词之后会形成一些新的屏蔽词,我们要做到把 AC 自动机上的匹配状态还原到这个词出现以前的状态继续匹配。而这个词出现以前那个状态可能也被删了,因此不能简单地记录 pos。
使用栈来维护当前位置和在原串的下标,每次匹配到屏蔽词就弹栈即可还原状态。

E.【例题5】病毒代码|P2444 [POI2000] 病毒

题面同原题。
这道题是希望构造一个字符串,使它在 ACAM 上一直匹配不到出现过的子串。考虑它在 ACAM 上怎么走,实际就是走一个无限长的路径,其中路径上的点不经过任何模式串。
那也就是 ACAM 上存在一个满足上述条件的环。对不经过特殊点的转移建图,dfs 找环。
但考虑原来的正常匹配过程,我们需要每走到一个点都跳一遍它的所有 Fail。所以一个点的 Fail 是特殊点,它也不能走,这个可以在 getfail 的过程中处理。

F. 1.组合攻击|P3041[USACO12JAN] Video Game G

构造一个长度为 \(k\) 的字符串使匹配次数最多,观察到 \(k\) 和字符串总长都很小。暴力 dp,设 \(f_{i,j}\) 表示前 \(i\) 个字符匹配到 \(j\) 的最大匹配次数,枚举边转移。

G. 2.单词记忆|JZOJ5167


注意这里的“以 \(p\) 概率保留”,是所有的最小值一起的,要保留一起保留,不是分别以 \(p\) 的概率。
发现前后无关(缝合怪),ACAM 跑出每个串的出现次数。设 \(f_{i,j}\) 表示前 \(i\) 轮,有 \(j\) 轮忘记了的概率。
有转移:\(f_{i,j}=f_{i-1,j-1}\times (1-p)+f_{i-1,j}\times p\)。
那么出现次数第 \(x\) 小的单词没被忘的概率就是 \(\sum\limits_{i=0}^{x-1} f_{k,i}\)。

H. 3.字符串计数|P5357【模板】AC自动机(二次加强版)

板子*3。好多板子。
突然想到既然拓扑优化放在这个地方岂不是前面的题不写拓扑优化都能过?输麻了。

I. 4.文本生成器|P4052 [JSOI2007] 文本生成器

考虑把限制反过来,求长度为 \(m\) 且不能匹配任何模式串的文本串个数。设 \(f_{i,j}\) 表示前 \(i\) 位匹配到 \(j\),未经过特殊点的方案数。
在 ACAM 上跑转移边,累加答案即可。

J. 5.最短字符串


没找到原题,有没有神仙帮忙找找。
发现 \(n\) 很小,可以状压哪些子串已经出现过。设 \(f_{i,j,k}\) 表示前 \(i\) 位,匹配到 \(j\),\(k\) 集合内的子串出现过 的情况是否存在。
dp 过程中发现合法解就 break。

依旧不记得当时是哪里学不会。那就摆了,这不重要。

标签:匹配,Trie,题解,ACAM,text,YbtOJ,Fail,指针
From: https://www.cnblogs.com/ying-xue/p/17729488.html

相关文章

  • [题解]CF1878E Iva & Pav
    CF是没题考了吧,每场都出二进制拆位。思路首先我们可以二分\(r\),因为\(r\)越大,按位与一定只会小于等于\(r\)小的情况。那么,我们可以用\(num_{i,j}\)记录\(a_j\)第\(i\)位的二进制情况。如果我们对\(num_{i,j}\)做一个前缀和,如果\(num_{i,r}-num_{i,l-1}=r......
  • 安装 SonarQube后sonarqube-sonarqube无法启动的问题解决
    1.前言我的环境:k8s集群(version1.23.6),安装了Kubesphere(versionv3.4)作为可视化界面,最近想要推动团队走CICD,于是在Kubesphere中启用了devops组件,参考:https://kubesphere.io/zh/docs/v3.4/pluggable-components/devops/。组件安装完成后,需要将Sonarqube集成到流水线中,于是又安装......
  • luogu P4819 [中山市选] 杀人游戏 题解 【强连通分量+缩点】
    目录题目链接思路分析代码题目链接P4819思路分析首先考虑这道题的连通性。容易发现这种类型的题目会容易产生环形的状态转移。假设我们知道了其中的一个点是否是黑白点,那么我们就可以知道所有点是否是黑白点。容易陷入一个误区:我们只能通过一个点知道他所相邻的最直接的点,如何......
  • CF1878 A-G 题解
    前言赛时代码可能比较难看。A判定\(a\)中是否有\(k\)即可。赛时代码B奇怪的构造题。令\(a_1=1,a_2=3\),其他项由上一项加一开始枚举判定可行性即可,可以简单证明时间复杂度为\(O(n)\)。赛时代码C容易发现当\(x\in\left[\dfrac{k(k+1)}{2},\dfrac{k(2n-k+1)}{2}\ri......
  • 【UVA 536】Tree Recovery 题解(根据遍历序列还原二叉树)
    小瓦伦丁非常喜欢玩二叉树。她最喜欢的游戏是随机构建查找节点中带有大写字母的二叉树。这是她创作的一个例子:为了给后代记录她的树,她为每棵树写下了两个字符串:预订单遍历(根、左子树、右子树)和有序遍历(左子树、根、右子树。对于上面绘制的树,预序遍历是DBACEGF,有序遍历是ABCDEFG......
  • Codeforces Round 742 Div2 A-D题解
    CodeforcesRound742Div2A-D题解A.DominoDisaster这题就是说给出一些2x1tile,然后给出2xn的第一行构造,问第二行这个刚开始想着是啥dp,一看那么多人过了果断改思路,发现这题就是个模拟题,就是把U换成D,D换成U,L和R不影响,然后输出就行了代码#include<bits/stdc++.h>using......
  • P6411 [COCI2008-2009#3] MATRICA 题解
    水题。发现根据限制\(M_{i,j}=M_{j,i}\)可以知道除了主对角线上的点,其他的点都是成对出现的。也就是说如果有一条要求的\(a_i\)为奇数,那么至少有一个\(c_i\)在主对角线上。记\(S=\sum\limits_{i=1}^{k}(a_i\equiv1\pmod2)\),即有\(S\)个要求中\(a_i\)为奇数。主对......
  • IDEA中的java代码Getters和Setters报红问题解决办法【杭州多测师_王sir】
    今天在新的编辑器中导入新项目时,发现很多get、set、toString的相关方法全部报红,仔细排查发现,原来是bean中注解采用lombok来自动生成get、set、toStirng、equals等方法,而新的编辑器未安装lombok plugin,所以全部报红。Lombok简介项目中经常使用bean,entity等类,绝大部分数据类类中都......
  • 2023.09.26 联考总结&题解
    T1derby你考虑直接贪心进行匹配即可,就是说对于每一个\(1\)去匹配最大的\(0\)#include<bits/stdc++.h>usingnamespacestd;intn,m;vector<int>A[2],B[2];intmain(){ freopen("derby.in","r",stdin); freopen("derby.out","w",s......
  • P6344 [CCO2017] Vera 与现代艺术 题解
    在\(V\timesV\)的平面上,\(n\)次修改,每次给定\(x,y,v\),令\(a,b\)为不超过\(x,y\)的最大的\(2\)的整数次幂,则所有\((x+pa,y+qb)(p,q为自然数)\)都加上\(v\),最后有\(m\)次单点询问一个位置的值。\(1\lex,y,V\le10^{18},1\lev,n,m\le2\times10^5\)我们可以......