哈希处理字符串匹配

时间：2023-05-29 11:34:17浏览次数：57

标签：匹配 MAX unsigned long 哈希字符串看做

问题 A: 【哈希和哈希表】子串查找

时间限制: 1 Sec 内存限制: 128 MB
提交: 65 解决: 18
[提交] [状态] [讨论版] [命题人:admin]

题目描述

这是一道模板题。
给定一个字符串A和一个字符串B，求B在A中的出现次数。A和B中的字符均为英语大写字母或小写字母。
A中不同位置出现的B可重叠。

输入

输入共两行，分别是字符串A和字符串B。

输出

输出一个整数，表示B在A中的出现次数。

样例输入

zyzyzyz zyz

样例输出

提示

1≤A,B的长度≤106，A、B仅包含大小写字母。

[提交][状态]

【哈希与字符串】

对于字符串“521”，也完全可以看做是数字 521，要检查两个数字字符串是不是相同，只需要检测看做数字时是不是相同。若直接字符串比较，时间O(n)，若看做数字再比较，时间O(1);

对于字符串“abc”，我们完全可以把a看做1，b看做2.....，不要看做0，避免前导0的影响，对应成一个数字之后，比较时间就从O(n)降到了O(1)!，这就是哈希的魅力啊。这种方式就是把字符串看做一个k进制整数，称为该字符串的哈希值，通过数值比较大小是最快的，但是呢，字符串的长度有时特别长，整型变量难以存储大数，所以我们把它模除M再存储，即我们一般用的哈希值是模除M之后的值。但是这样就不可避免的会有冲突，一定会存在某个哈希值模除M后恰好等于了另一个字符串的哈希值。

对于k和M的选取，大部分文章都强调选择大素数！但是很少给出证明。这里有一篇的观点是尽量大就可以：javascript:void(0) 然后这个知乎回答里好像挺有道理：https://www.zhihu.com/question/20806796/answer/21359160

然后是我个人理解，M越大越好，其次k与M要互质！通过OJ交题，确实是这样才能AC。既然k要与M互质，那直接去素数最好了。有时候可能还会进行除法，就不得不用逆元了，那么M就必须是素数才有逆元。

【分析】

任选一个进制k=97，M=2^64，用unsigned long long 的自然溢出可以完成这个模除。

求出串B的哈希值，然后在A中进行窗口滚动，和每一个长度等于B长度的子串哈希值进行比较，相等的即为字符串相同。

【代码】

#include<bits/stdc++.h>
using namespace std;
typedef long long ll;
typedef unsigned long long ull;
const int MAX=1e6+5;

const int base=95;
char a[MAX],b[MAX];
unsigned long long getval(char ch)
{
    if(ch>='a'&&ch<='z')return ch-'a'+1;
    return ch-'A'+27;
}

ull sum[MAX];
int main()
{
    scanf("%s%s",a,b);
    int n=strlen(b),m=strlen(a);
    sum[0]=getval(a[0]);
    for(int i=1;i<m;i++)sum[i]=sum[i-1]*base+getval(a[i]); //前缀值
    ull ha=0,hb=0,f=1;
    for(int i=0;i<n;i++)f=f*base;//当前最大上限
    for(int i=0;i<n;i++)
        ha=(ha*base+getval(b[i]));
    int ans=0;
    for(int i=0;i<m-n+1;i++)
    {
        if(ha==sum[i+n-1]-sum[i-1]*f)ans++;
    }
    printf("%d\n",ans);
    return 0;
}

标签：匹配,MAX,unsigned,long,哈希,字符串,看做
From： https://blog.51cto.com/u_16125110/6369246

MySQL 将字符串转为整数
1、CAST(eprAStype)1）type为 SIGNEDSELECTCAST("-12"ASSIGNED);效果如下：2）type为UNSIGNEDSELECTCAST("-12"ASUNSIGNED);效果如下：2、CONVERT(expr,type)SELECTCONVERT('123',SIGNED);额外补充1、CAST和CONVERT两个函数中的type取值可以为：SIGNED，UNS......
upc 6597: Don't Be a Subsequence （字符串的最短不匹配子序列 dp）
6597:Don'tBeaSubsequence时间限制:1Sec 内存限制:128MB提交:237 解决:45[提交][状态][讨论版][命题人:admin] 题目描述AsubsequenceofastringSisastringthatcanbeobtainedbydeletingzeroormorecharactersfromSwithoutchangingtheor......
upc 6445: 棋盘V （网络流费用流解决匹配问题）
6445:棋盘V时间限制:1Sec 内存限制:128MB提交:325 解决:31[提交][状态][讨论版][命题人:admin]题目描述有一块棋盘，棋盘的边长为100000，行和列的编号为1到100000。棋盘上有n个特殊格子，任意两个格子的位置都不相同。现在小K要猜哪些格子是特殊格子。她知道所有格子......
java8 stream匹配 anyMatch，allMatch，noneMatch
anyMatch：判断的条件里，任意一个元素成功，返回trueallMatch：判断条件里的元素，所有的都是，返回truenoneMatch：与allMatch相反，判断条件里的元素，所有的都不是，返回truecount方法，跟List接口中的.size()一样，返回的都是这个集合流的元素的长度，不同的是，流是集合的一个高级工厂，中间操作是工厂里......
二进制数据与16进制字符串相互转化方法
二进制数据转化为16进制字符串（中间加的‘：'还有‘；'是为了查看下标，也可以自行去掉）：publicstaticStringbytesToHexString(byte[]src){StringBuilderstringBuilder=newStringBuilder();if(src==null||src.length<=0){returnnull;}for(inti=0;i<src.length;......
shell正则匹配捕获引用进行IP匹配
在服务器上加了一个服务检测机制，用到正则来匹配IP和捕获分组。shell和其他语言一样也可以使用正则分组捕获，不过不能使用$1或1这样的形式来捕获分组，可以通过数组${BASH_REMATCH}来获得，如${BASH_REMATCH[1]}，${BASH_REMATCH[N]}简单的测试如下所示：#!/bin/baship="121.0.2.2"if[......
linux 中 grep命令匹配空格和制表符
001、匹配空格[root@PC1test4]#lsa.txt[root@PC1test4]#cata.txt##测试数据1_aabb2_ccdd3_eeff4_gghhkk[root@PC1test4]#sed-nla.txt##显示出空格和制表符1_aabb$2_ccdd$3_eeff$4_gg\thh\tkk$[root@PC1test4]#grep"......
什么是一致性哈希？一致性哈希是如何工作的？如何设计一致性哈希？
如果你有n个缓存服务器，一个常见的负载均衡方式是使用以下的哈希方法：服务器索引=哈希(键)%N，其中N是服务器池的大小。让我们通过一个例子来说明这是如何工作的。如表5-1所示，我们有4台服务器和8个字符串键及其哈希值。为了获取存储某个键的服务器，我们执行模运算f(键)%4......
python Levenshtein—计算字符串相似性
参考：https://maxbachmann.github.io/Levenshtein/Levenshtein距离，也称编辑距离，是一种字符串度量，用于衡量两个序列之间的差异。通俗地说，两个字符串之间的Levenshtein距离是将一个字符串更改为另一个字符串所需的最小单字符编辑（插入、删除或替换）次数。pythonLevenshtein中包括......
hashmap怎么解决哈希冲突问题？红黑树和AVL树有何区别？
链地址法hashmap是一种基于数组和链表（或红黑树）的数据结构，它可以通过hash函数将任意长度的键映射到一个固定长度的索引，从而实现快速的存取操作。但是，由于hash函数的结果是有限的，而键的数量是无限的，所以可能存在不同的键映射到同一个索引的情况，这就叫做哈希冲突。为了解决哈希冲突，has......

哈希处理字符串匹配

问题 A: 【哈希和哈希表】子串查找

相关文章

赞助商

阅读排行

哈希处理字符串匹配

问题 A: 【 哈希和哈希表】子串查找

相关文章

赞助商

阅读排行

问题 A: 【哈希和哈希表】子串查找