1.BF算法
BF 算法,即暴力(Brute Force)算法,是普通的【模式匹配】算法,BF 算法的思想就是将目标串 S 的第一个字符与模式串 T 的第一个字符进行匹配,若相等,则继续比较 S 的第二个字符和 T 的第二个字符;若不相等,则比较 S 的第二个字符和 T 的第一个字符,依次比较下去,直到得出最后的匹配结果。
例如,对于目标串 S("ababcabcacbab")和模式串 T("abcac"),那么其匹配过程如下:
(1) 首先,将模式串 T 与目标串 S 的首字符对齐,逐个判断相对应的字符是否相等,如下图所示:
(2) 上图中,由于模式串 T 和目标串 S 的第 3 个字符匹配失败,所以此时将模式串 T 后移一个字符的位置,采用同样的方法重新进行匹配,如下图所示:
(3) 上图中可以看到,两个串依旧匹配失败,模式串 T 继续后移一个位置,如下图所示:
(4) 上图依然匹配失败,模式串 T 继续向后移动,直到移动到下图所示的位置才匹配成功:
可以看到,假设目标串 S 的长度为 n,模式串 T 的长度为 m,那么遍历目标串的时间复杂度为 \(O(n)\),而遍历子串的长度为 \(O(m)\),所以 BF 算法的时间复杂度就是 \(O(n)*O(m)=O(mn)\)。
其代码实现如下:
int bruteForce(const string& s, const string& t) {
int i = 0, j = 0;
while (i < s.size() && j < t.size()) {
if (s[i] == t[j]) {
i++;
j++;
} else {
// 将i回退到之前匹配的起始位置的下一个字符
i = i - j + 1;
j = 0;
}
}
return (j == t.size()) ? (i - j) : -1;
}
观察下图所示的 BF 算法匹配过程,可以看到由于模式串 T 的第一个字符 a 和第二个字符 b 并不相等,且在第 1 步和第 2 步中已经判断了目标串 S 和模式串 T 的前两个字符是互相对应的,但是在第 4 步中还是要去做一个明知不可能匹配的无用匹配操作,这就是 BF 算法低效的原因,根据串的特点,我们应该可以直接从第 3 步跳到第 5 步。
总结而言,BF 算法中对于模式串 T 的形状并没有做任何的分析,导致匹配过程中做了很多的无用操作,以致算法效率低下。因此,在匹配过程中,应避免目标串 S 的回退,以提升算法效率,这也就是 KMP 算法的核心思想。
2.KMP算法
2.1 BF算法的缺点
2.1.1 例子1
首先,我们来看如下例子,目标串 S("abcdefgab") 和模式串 T("abcdex"),当采用 BF 算法进行匹配时,其匹配过程如下:
从上图中可以看到,目标串指针从字符 a 走到字符 f 时已经得知模式串 T 的前五个字符互不相等,然而在 BF 算法中,后序的几个步骤依然要去做一些无用的比较操作。因此,我们需要将上述匹配过程优化为如下过程:
即仅保留上图中蓝色虚线框所示的部分即可,以提升算法效率。
2.1.2 例子2
再来看如下示例,目标串 S("abcababca") 和模式串 T("abcabx"),当采用 BF 算法进行匹配时,其匹配过程如下所示:
在上图中的第二步中,即遍历到模式串的最后一个字符时,已经可以看到在模式串 T 中的前三个字符并不相等,因此我们可以采用例子 1 的优化手段,直接省略到上图中的第三步和第四步,得到下图:
我们再来分析上图中的第五步和第六步,由于在第二步时已经知道串 "abcab" 和目标串的前 5 个字符是一一匹配的了,那么此时再在第五步和第六步中去匹配模式串 T 的前两个字符也是一种无用操作,因此可以继续对其进行优化,得到下图:
最终的优化结果如上图所示,只需去执行蓝色虚线框所示的部分即可。
2.2 next数组
从上述两个例子中,可以得知,KMP 算法的核心思想,就是字符失配后,目标串的 i 不做回退,只回退模式串的 j,由于在任意一个字符匹配时都有可能失配,所以 KMP 算法的关键就是给模式串计算出一个 next 数组,其中存储的时当前字符失配时,j 要回退到的位置,同理,也就是存储的当前字符前面的子串的公共前后缀的长度。
由于 next 数组存储的是当前位置字符失配时应当回退的位置,因此其长度就等于模式串 T 的长度。我们假设 j 是模式串 T 所对应的字符下标,k 是当前位置字符适配时应当回退的位置,即第 j 个字符前面字符串的最长公共前后缀的长度。
考虑当 j = 0 时,即模式串的首字母,如果在匹配的过程中首字母都不相同,那么就应该将指向目标串的指针向后移动,因此我们设定 next[0] = -1,来作为移动目标串指针的标志。
而当 j 位于如下图所示的位置,且满足 \(P_0...P_{k-1}=P_{j-k}...P_{j-1}\) 时,即前后缀对应的字符相等时,此时有 next[j] = k:
那么根据上述条件,我们来求解 next[j+1] 的值,其分为两种情况:
情况一:当满足 \(P_k=P_j\) 时,如下图所示,那么此时有 next[j+1] = k + 1;
情况二:当满足 \(P_k\neq P_j\) 时,如下图所示,为了找寻最长公共前后缀,此时应该回退 next 数组,直到找到一个和 \(P_j\) 相等的元素:
而对于 \(P_k\) 而言,它也满足下图所示的条件,其也存在最长公共前后缀,即图中的黄色部分,而其应该回退的位置即为图中的蓝色部分,所以对于上述情况,我们直接让其回退到 next[k] 即可。
3.3 代码实现
KMP 算法的代码实现如下:
vector<int> getNext(const string& str) {
vector<int> next(str.size(), -1);
// j用来遍历字符串 k表示公共前后缀的长度
int j = 0, k = -1;
while (j < str.size() - 1) {
if (k == -1 || str[k] == str[j]) {
next[j++] = k++;
} else {
k = next[k];
}
}
return next;
}
int kmp(const string& s, const string& t) {
int i = 0, j = 0;
vector<int> next = getNext(t);
while (i < s.size() && j < static_cast<int>(t.size())) {
if (j == -1 || s[i] == s[j]) {
i++;
j++;
} else {
j = next[j];
}
}
return (j == t.size()) ? (i - j) : -1;
}
3.4 算法优化
考虑如下情况,目标串 S("abcabdef") 和模式串 T("abcabc"),通过上面的 next 数组分析,我们可以轻易地写出模式串 T 相应的 next 数组: -1,0,0,0,1,2。它们的匹配过程中如下所示:
可以看到,当模式串 T 匹配到最后一个字符时发生了失配,此时通过 next 数组进行回退,通过 next 数组看到应当回退到第 2 个元素,但是回退后可以看到,该字符依然是字符 c,而回退前的字符也是 c,所以此时肯定是匹配失败的,应当继续向前回退,此时回退的位置则继续查询 next 数组即可。
因此,如上便是 KMP 算法所应该优化的点,即在求解 next 数组的过程中,直接对其进行优化,优化后的求解 next 数组的代码如下:
vector<int> getNext(const string& str) {
vector<int> next(str.size(), -1);
// j用来遍历字符串 k表示公共前后缀的长度
int j = 0, k = -1;
while (j < str.size() - 1) {
if (k == -1 || str[k] == str[j]) {
j++;
k++;
// 算法优化
if (str[k] == str[j]) {
next[j] = next[k];
} else {
next[j] = k;
}
} else {
k = next[k];
}
}
return next;
}
那么优化后,模式串 T("abcabc") 对应的 next 数组就变成了 -1,0,0,-1,0,0。
综上所述,假设目标串的长度为 n,模式串的长度为 m,那么 KMP 算法的时间复杂度就是 \(O(m+n)\)。
标签:字符,BF,匹配,模式,next,算法,KMP,回退 From: https://www.cnblogs.com/tuilk/p/17114816.html