SUBLEX - Lexicographical Substring Search

时间：2023-05-18 12:13:50浏览次数：45

标签：子串 Search SUBLEX 后缀 Substring int -- sa include

来一发 \(SA\) 做法。

题目见 SUBLEX - Lexicographical Substring Search

从 P2408 不同子串个数当中找到的灵感，统计不同子串个数时候，实际上是用总串数减去重复的串数。

那么针对这道题，查找排名第 \(k\) 小的串，想想我们的后缀数组，不正是满足字典序从小到大排列？现在我们已经拥有了后缀数组，考虑：子串的大小与后缀数组统计的信息有什么关联？

不难发现，其实排名为 \(i\) 的后缀中，以 \(sa_i\) 为起点（也就是这个后缀的起点）向后延伸，串的大小是递增的，也就是说，每个后缀的前缀大小单调递增。并且可以保证，这些串一定不比以 \(sa_{i+1}\) 为起点的串大。而且我们事先统计了 \(height\) 数组，也就可以看作重复的子串，这些在查找第 \(k\) 小的串的过程中直接记录贡献即可。那么如何查找？

求第 \(k\) 小的串，我们就把 \(k\) 握在手里，每次找到一个小串，都给 \(k\) 减去 \(1\)，并且不要忘了减去重复的部分，这些在前面已经统计过了。考虑到一个个减去太慢了，可以判断一下剩下的 \(k\) 是否比该后缀的长度大，若大，就直接减去这个后缀的长度，继续查找下一个串，否则以 \(sa_i\) 为起点，输出一个长度为 \(k\) 的串，这便是答案。注意，如果找遍了所有子串都没有找到第 \(k\) 大的串，就输出空字符。

那么我们就有了成熟的思路，见代码：

#include<iostream>
#include<cstring>
#include<cstdio>
#include<string>
#include<cmath>
using namespace std;
const int M = 1000050;

int n, m, l, t, p;
char s[M];
int y[M],x[M],c[M],sa[M],rk[M],height[M];

void get_sa(){
    for(int i=1;i<=n;++i) ++c[x[i]=s[i]];
    for(int i=2;i<=m;++i) c[i]+=c[i-1];
    for(int i=n;i>=1;--i) sa[c[x[i]]--]=i;
    for(int k=1;k<=n;k<<=1){
        int num=0;
        for(int i=n-k+1;i<=n;++i) y[++num]=i;
        for(int i=1;i<=n;++i) if(sa[i]>k) y[++num]=sa[i]-k;
        for(int i=1;i<=m;++i) c[i]=0;
        for(int i=1;i<=n;++i) ++c[x[i]];
        for(int i=2;i<=m;++i) c[i]+=c[i-1];
        for(int i=n;i>=1;--i) sa[c[x[y[i]]]--]=y[i],y[i]=0;
        swap(x,y);
        x[sa[1]]=1;
        num=1;
        for(int i=2;i<=n;++i){
            if(y[sa[i]]==y[sa[i-1]]&&y[sa[i]+k]==y[sa[i-1]+k])
                x[sa[i]]=num;
            else
                x[sa[i]]=++num;
        }
        if(num==n)break;
        m=num;
    }
}

void get_lcp(){
    int k=0;
    for(int i=1;i<=n;++i)rk[sa[i]]=i;
    for(int i=1;i<=n;++i){
        if(rk[i]==1)continue;
        if(k)--k;
        int j=sa[rk[i]-1];
        while(j+k<=n&&i+k<=n&&s[i+k]==s[j+k])++k;
        height[rk[i]]=k;
    }
}

int main(){
    scanf("%s",s+1);
    n=strlen(s+1);
    m=122;
    get_sa();
    get_lcp();
    scanf("%d",&t);
    for(int q=1;q<=t;q++){
		scanf("%d",&p);
		bool flag=0;
		for(int i=1;i<=n;i++){
            if(n-sa[i]+1-height[i]<p)//该后缀的长度记为这次的贡献
                p-=n-sa[i]+1-height[i];
            else {
                for(int j=0;j<=height[i]+p-1;j++)
                    printf("%c", s[sa[i]+j]);
                    //第p大的串一定诞生在这个后缀里
                    //只需要考虑输出前p个字符
				printf("\n");
				flag=1;
				break;
            }
        }
        if(!flag)printf(" \n");
	}
    return 0;
}

标签：子串,Search,SUBLEX,后缀,Substring,int,--,sa,include
From： https://www.cnblogs.com/iruiforever/p/17411525.html

vue自定义组件——search-box
github地址:https://github.com/lxmghct/my-vue-components组件介绍props:value/v-model:检索框的值,default:''boxStyle:检索框的样式,default:'position:fixed;top:0px;right:100px;'highlightColor:高亮颜色,default:'rgb(246,186,130)'......
【Python】Centos7安装dirsearch
一、升级Openssl1.1.1 1、官网下载源码：https://www.openssl.org/2、安装#./config--prefix=/datas/soft/openssl-1.1.1no-zlib#make#makeinstall3、新版配置#ln-s/datas/soft/openssl-1.1.1/include/openssl/usr/include/openssl#ln-s/datas/soft/openss......
filebeat日志收集到elasticsearch
filebeat是轻量级日志收集框架，go语言开发。需要在每个日志收集的终端部署，配置日志文件路径。可以将日志收集到es，logstash，这里以收集到es为例。配置主要分为input和out两块。解压后有filebeat.yml配置文件，主要针对该文件进行配置。-type:log#日志文件位置paths:-/data......
GridSearchCV中的scoring
说明scoring参数输入形式包括字符串、可调用对象或评分函数。以下是常用的评分规则示例：使用预定义的字符串指定评分规则：'accuracy'：准确率（分类问题）'precision'：精确率（分类问题）'recall'：召回率（分类问题）'f1'：F1分数（分类问题）'r2'：R2分数（回归问题）'mean_squared_error'：均方误差（......
使用NEST简单操作Elasticsearch
.NetCore中使用NEST简单操作Elasticsearch C#中访问Elasticsearch主要通过两个包NEST和Elasticsearch.Net，NEST用高级语法糖封装了Elasticsearch.Net可以通过类Linq的方式进行操作，而Elasticsearch.Net相比之下更为原始直接非常自由。注意：ES的8.X以上的版本有新的包Elastic.C......
使用 Easysearch，日志存储少一半
在海量日志存储场景中，索引膨胀率是一个关键指标，直接影响存储成本和查询性能。它表示原始数据与索引数据在磁盘上所占空间的比率。较高的索引膨胀率不仅增加了存储成本，而且可能会影响查询速度，尤其是在I/O密集型的查询中。因此，我们需要密切关注和优化索引膨胀率。接下来，我们将比较......
ElasticSearch 8.x 实战
ElasticSearch8.x实战Github地址：ElasticSearch仿京东搜索项目实现爬虫爬取数据：获取请求返回的页面信息，筛选出我们想要的数据就可以了，直接使用jsoup包pom.xml导入依赖<dependency>......
elasticsearch安装
一：下载地址https://www.elastic.co/cn/downloads/ 二：下载后上传到服务器三：文件解压tar-zxvfelasticsearch-7.9.3-linux-x86_64.tar.gz 四：修改elasticsearch.yml #集群名，节点之间要保持一致cluster.name:my-application#节点名，集群内要唯一node.name:......
elasticsearch脚本查询
脚本查询概念Scripting是Elasticsearch支持的一种专门用于复杂场景下支持自定义编程的强大的脚本功能，ES支持多种脚本语言，如painless，其语法类似于Java,也有注释、关键字、类型、变量、函数等，其就要相对于其他脚本高出几倍的性能，并且安全可靠，可以用于内联和存储脚本。支持的......
解决docker search influxdb 报错Error response from daemon: Get "https://index.do
解决dockersearchinfluxdb报错Errorresponsefromdaemon:Get"https://index.docker.io/v1/search?q=influxdb&n=25":dialtcp:lookupindex.docker.ioon192.168.12.2:53:readudp192.168.12.128:39189->192.168.12.2:53:i/otimeoutdockerpull&......

SUBLEX - Lexicographical Substring Search

相关文章

赞助商

阅读排行