首页 > 其他分享 >SUBLEX - Lexicographical Substring Search

SUBLEX - Lexicographical Substring Search

时间:2023-05-18 12:13:50浏览次数:40  
标签:子串 Search SUBLEX 后缀 Substring int -- sa include

来一发 \(SA\) 做法。

题目见 SUBLEX - Lexicographical Substring Search

P2408 不同子串个数 当中找到的灵感,统计不同子串个数时候,实际上是用总串数减去重复的串数。

那么针对这道题,查找排名第 \(k\) 小的串,想想我们的后缀数组,不正是满足字典序从小到大排列?现在我们已经拥有了后缀数组,考虑:子串的大小与后缀数组统计的信息有什么关联?

不难发现,其实排名为 \(i\) 的后缀中,以 \(sa_i\) 为起点(也就是这个后缀的起点)向后延伸,串的大小是递增的,也就是说,每个后缀的前缀大小单调递增。并且可以保证,这些串一定不比以 \(sa_{i+1}\) 为起点的串大。而且我们事先统计了 \(height\) 数组,也就可以看作重复的子串,这些在查找第 \(k\) 小的串的过程中直接记录贡献即可。那么如何查找?

求第 \(k\) 小的串,我们就把 \(k\) 握在手里,每次找到一个小串,都给 \(k\) 减去 \(1\),并且不要忘了减去重复的部分,这些在前面已经统计过了。考虑到一个个减去太慢了,可以判断一下剩下的 \(k\) 是否比该后缀的长度大,若大,就直接减去这个后缀的长度,继续查找下一个串,否则以 \(sa_i\) 为起点,输出一个长度为 \(k\) 的串,这便是答案。注意,如果找遍了所有子串都没有找到第 \(k\) 大的串,就输出空字符。

那么我们就有了成熟的思路,见代码:

#include<iostream>
#include<cstring>
#include<cstdio>
#include<string>
#include<cmath>
using namespace std;
const int M = 1000050;

int n, m, l, t, p;
char s[M];
int y[M],x[M],c[M],sa[M],rk[M],height[M];

void get_sa(){
    for(int i=1;i<=n;++i) ++c[x[i]=s[i]];
    for(int i=2;i<=m;++i) c[i]+=c[i-1];
    for(int i=n;i>=1;--i) sa[c[x[i]]--]=i;
    for(int k=1;k<=n;k<<=1){
        int num=0;
        for(int i=n-k+1;i<=n;++i) y[++num]=i;
        for(int i=1;i<=n;++i) if(sa[i]>k) y[++num]=sa[i]-k;
        for(int i=1;i<=m;++i) c[i]=0;
        for(int i=1;i<=n;++i) ++c[x[i]];
        for(int i=2;i<=m;++i) c[i]+=c[i-1];
        for(int i=n;i>=1;--i) sa[c[x[y[i]]]--]=y[i],y[i]=0;
        swap(x,y);
        x[sa[1]]=1;
        num=1;
        for(int i=2;i<=n;++i){
            if(y[sa[i]]==y[sa[i-1]]&&y[sa[i]+k]==y[sa[i-1]+k])
                x[sa[i]]=num;
            else
                x[sa[i]]=++num;
        }
        if(num==n)break;
        m=num;
    }
}

void get_lcp(){
    int k=0;
    for(int i=1;i<=n;++i)rk[sa[i]]=i;
    for(int i=1;i<=n;++i){
        if(rk[i]==1)continue;
        if(k)--k;
        int j=sa[rk[i]-1];
        while(j+k<=n&&i+k<=n&&s[i+k]==s[j+k])++k;
        height[rk[i]]=k;
    }
}

int main(){
    scanf("%s",s+1);
    n=strlen(s+1);
    m=122;
    get_sa();
    get_lcp();
    scanf("%d",&t);
    for(int q=1;q<=t;q++){
		scanf("%d",&p);
		bool flag=0;
		for(int i=1;i<=n;i++){
            if(n-sa[i]+1-height[i]<p)//该后缀的长度记为这次的贡献
                p-=n-sa[i]+1-height[i];
            else {
                for(int j=0;j<=height[i]+p-1;j++)
                    printf("%c", s[sa[i]+j]);
                    //第p大的串一定诞生在这个后缀里
                    //只需要考虑输出前p个字符
				printf("\n");
				flag=1;
				break;
            }
        }
        if(!flag)printf(" \n");
	}
    return 0;
}

标签:子串,Search,SUBLEX,后缀,Substring,int,--,sa,include
From: https://www.cnblogs.com/iruiforever/p/17411525.html

相关文章

  • vue自定义组件——search-box
    github地址:https://github.com/lxmghct/my-vue-components组件介绍props:value/v-model:检索框的值,default:''boxStyle:检索框的样式,default:'position:fixed;top:0px;right:100px;'highlightColor:高亮颜色,default:'rgb(246,186,130)'......
  • 【Python】Centos7安装dirsearch
    一、升级Openssl1.1.1 1、官网下载源码:https://www.openssl.org/2、安装#./config--prefix=/datas/soft/openssl-1.1.1no-zlib#make#makeinstall3、新版配置#ln-s/datas/soft/openssl-1.1.1/include/openssl/usr/include/openssl#ln-s/datas/soft/openss......
  • filebeat日志收集到elasticsearch
    filebeat是轻量级日志收集框架,go语言开发。需要在每个日志收集的终端部署,配置日志文件路径。可以将日志收集到es,logstash,这里以收集到es为例。配置主要分为input和out两块。解压后有filebeat.yml配置文件,主要针对该文件进行配置。-type:log#日志文件位置paths:-/data......
  • GridSearchCV中的scoring
    说明scoring参数输入形式包括字符串、可调用对象或评分函数。以下是常用的评分规则示例:使用预定义的字符串指定评分规则:'accuracy':准确率(分类问题)'precision':精确率(分类问题)'recall':召回率(分类问题)'f1':F1分数(分类问题)'r2':R2分数(回归问题)'mean_squared_error':均方误差(......
  • 使用NEST简单操作Elasticsearch
    .NetCore中使用NEST简单操作Elasticsearch C#中访问Elasticsearch主要通过两个包NEST和Elasticsearch.Net,NEST用高级语法糖封装了Elasticsearch.Net可以通过类Linq的方式进行操作,而Elasticsearch.Net相比之下更为原始直接非常自由。注意:ES的8.X以上的版本有新的包Elastic.C......
  • 使用 Easysearch,日志存储少一半
    在海量日志存储场景中,索引膨胀率是一个关键指标,直接影响存储成本和查询性能。它表示原始数据与索引数据在磁盘上所占空间的比率。较高的索引膨胀率不仅增加了存储成本,而且可能会影响查询速度,尤其是在I/O密集型的查询中。因此,我们需要密切关注和优化索引膨胀率。接下来,我们将比较......
  • ElasticSearch 8.x 实战
    ElasticSearch8.x实战Github地址:ElasticSearch仿京东搜索项目实现爬虫爬取数据:获取请求返回的页面信息,筛选出我们想要的数据就可以了,直接使用jsoup包pom.xml导入依赖<!--解析网页--><!--https://mvnrepository.com/artifact/org.jsoup/jsoup--><dependency>......
  • elasticsearch安装
    一:下载地址https://www.elastic.co/cn/downloads/ 二:下载后上传到服务器 三:文件解压tar-zxvfelasticsearch-7.9.3-linux-x86_64.tar.gz 四:修改elasticsearch.yml #集群名,节点之间要保持一致cluster.name:my-application#节点名,集群内要唯一node.name:......
  • elasticsearch脚本查询
    脚本查询概念Scripting是Elasticsearch支持的一种专门用于复杂场景下支持自定义编程的强大的脚本功能,ES支持多种脚本语言,如painless,其语法类似于Java,也有注释、关键字、类型、变量、函数等,其就要相对于其他脚本高出几倍的性能,并且安全可靠,可以用于内联和存储脚本。支持的......
  • 解决docker search influxdb 报错Error response from daemon: Get "https://index.do
    解决dockersearchinfluxdb报错Errorresponsefromdaemon:Get"https://index.docker.io/v1/search?q=influxdb&n=25":dialtcp:lookupindex.docker.ioon192.168.12.2:53:readudp192.168.12.128:39189->192.168.12.2:53:i/otimeoutdockerpull&......