首页 > 其他分享 >openGauss 全文索引

openGauss 全文索引

时间:2024-03-30 09:58:50浏览次数:21  
标签:词素 全文索引 token 文档 openGauss 词典

全文索引

可获得性

本特性自openGauss 1.1.0版本开始引入。

特性简介

openGauss中提供的全文索引功能可以对文档进行预处理,并且可以使后续的搜索更快速。

客户价值

openGauss 全文索引功能提供了查询可读性文档的能力,并且通过查询相关度将结果进行排序。

特性描述

构建全文索引的预处理过程包括:

  • 将文档解析成token。

    为每个文档标记不同类别的token是非常有必要的,例如:数字、文字、复合词、电子邮件地址,这样就可以做不同的处理。原则上token的类别依赖于具体的应用,但对于大多数的应用来说,可以使用一组预定义的token类。

  • 将token转换为词素。

    词素像token一样是一个字符串,但它已经标准化处理,这样同一个词的不同形式是一样的。例如,标准化通常包括:将大写字母折成小写字母、删除后缀(如英语中的s或者es)。这将允许通过搜索找到同一个词的不同形式,不需要繁琐地输入所有可能的变形样式。同时,这一步通常会删除停用词。这些停用词通常因为太常见而对搜索无用。(总之,token是文档文本的原片段,而词素被认为是有用的索引和搜索词。)openGauss使用词典执行这一步,且提供了各种标准的词典。

  • 保存搜索优化后的预处理文档。

    比如,每个文档可以呈现为标准化词素的有序组合。伴随词素,通常还需要存储词素位置信息以用于邻近排序。因此文档包含的查询词越密集其排序越高。词典能够对token如何标准化做到细粒度控制。使用合适的词典,可以定义不被索引的停用词。

特性增强

无。

特性约束

openGauss的全文检索功能当前限制约束是:

  • 每个分词长度必须小于2KB。
  • tsvector结构(分词+位置)的长度必须小于1MB。
  • tsvector的位置值必须大于0,且小于等于16,383。
  • 每个分词在文档中位置数必须小于256,若超过将舍弃后面的位置信息。

依赖关系

无。

标签:词素,全文索引,token,文档,openGauss,词典
From: https://www.cnblogs.com/renxyz/p/18105109

相关文章

  • openGauss 使用kubernetes部署分布式数据库
    使用kubernetes部署分布式数据库可获得性本特性自openGauss2.1.0版本开始引入。特性简介一键式部署分布式数据库。客户价值快速完成分布式数据库搭建,验证和使用分布式能力。特性描述通过patroni实现计划内switchover和故障场景自动failover,通过haproxy实现openGauss主备......
  • openGauss 全量迁移gs_mysync
    全量迁移gs_mysync可获得性本特性自openGauss5.0.0版本开始引入。特性简介gs_mysync工具是一个基于Python语言的MySQL到openGauss的复制工具。该工具提供了初始全量数据及对象(视图、触发器、函数、存储过程)的复制能力,可实现数据及对象从MySQL迁移至openGauss。对于数据的全量......
  • openGauss 全密态数据库等值查询
    全密态数据库等值查询可获得性本特性自openGauss1.1.0版本开始引入。特性简介密态数据库意在解决数据全生命周期的隐私保护问题,使得系统无论在何种业务场景和环境下,数据在传输、运算以及存储的各个环节始终都处于密文状态。当数据拥有者在客户端完成数据加密并发送给服务端后......
  • openGauss 全局临时表
    全局临时表可获得性本特性自openGauss1.1.0版本开始引入。特性简介临时表顾名思义是不保证持久化的表,其生命周期一般跟session或者事务绑定,可以方便用于表达处理过程中的一些临时数据存放,加速查询。客户价值提升临时表的表达能力和易用性。特性描述全局临时表的元数据对......
  • openGauss 企业级增强特性
    企业级增强特性数据分区数据分区是数据库产品普遍具备的功能。在openGauss中,数据分区是对数据按照用户指定的策略对数据做的水平分表,将表按照指定范围划分为多个数据互不重叠的部分(Partition)。openGauss支持:范围分区(RangePartitioning)功能,即根据表的一列或者多列,将要插入表......
  • openGauss 慢SQL诊断
    慢SQL诊断可获得性本特性自openGauss1.1.0版本开始引入。重构前慢SQL相关视图已废弃,包括dbe_perf.gs_slow_query_info、dbe_perf.gs_slow_query_history、dbe_perf.global_slow_query_hisotry、dbe_perf.global_slow_query_info。本特性自openGauss3.1.0版本支持备机。......
  • openGauss 内置stack工具
    内置stack工具可获得性本特性自3.0.0版本开始引入。特性简介stack工具是获取数据库中各线程的调用栈的工具,用于辅助数据库运维人员定位死锁、hang等问题。客户价值提供函数级别的调用栈信息,提升数据库内核运维人员分析、定位死锁、hang等问题的效率。特性描述可以通过函数......
  • openGauss 慢SQL发现
    慢SQL发现可获得性本特性自openGauss1.1.0版本开始引入。特性简介本功能是一个SQL语句执行时间预测工具,通过模板化方法,实现在不获取SQL语句执行计划的前提下,依据语句逻辑相似度与历史执行记录,预测SQL语句的执行时间。客户价值工具不需要用户提供SQL执行计划,对数据库性能不......
  • openGauss 慢SQL根因分析
    慢SQL根因分析可获得性本特性自openGauss3.0.0开始引入。特性简介慢SQL一直是数据运维中的痛点问题,如何有效诊断慢SQL根因是当前一大难题,工具结合openGauss自身特点融合了现网DBA慢SQL诊断经验,该工具可以支持慢SQL根因15+,能同时按照可能性大小输出多个根因并提供针对性的建议......
  • openGauss 逻辑复制
    逻辑复制可获得性本特性自openGauss1.0.0版本开始引入。特性简介openGauss提供逻辑解码功能,将物理日志反解析为逻辑日志。通过DRS等逻辑复制工具将逻辑日志转化为SQL语句,到对端数据库回放,达到异构数据库同步数据的功能。目前支持openGauss数据库与MySQL数据库、Oracle数据库......