全文索引

可获得性

本特性自openGauss 1.1.0版本开始引入。

特性简介

openGauss中提供的全文索引功能可以对文档进行预处理，并且可以使后续的搜索更快速。

客户价值

openGauss 全文索引功能提供了查询可读性文档的能力，并且通过查询相关度将结果进行排序。

特性描述

构建全文索引的预处理过程包括：

将文档解析成token。

为每个文档标记不同类别的token是非常有必要的，例如：数字、文字、复合词、电子邮件地址，这样就可以做不同的处理。原则上token的类别依赖于具体的应用，但对于大多数的应用来说，可以使用一组预定义的token类。
将token转换为词素。

词素像token一样是一个字符串，但它已经标准化处理，这样同一个词的不同形式是一样的。例如，标准化通常包括：将大写字母折成小写字母、删除后缀（如英语中的s或者es）。这将允许通过搜索找到同一个词的不同形式，不需要繁琐地输入所有可能的变形样式。同时，这一步通常会删除停用词。这些停用词通常因为太常见而对搜索无用。（总之，token是文档文本的原片段，而词素被认为是有用的索引和搜索词。）openGauss使用词典执行这一步，且提供了各种标准的词典。
保存搜索优化后的预处理文档。

比如，每个文档可以呈现为标准化词素的有序组合。伴随词素，通常还需要存储词素位置信息以用于邻近排序。因此文档包含的查询词越密集其排序越高。词典能够对token如何标准化做到细粒度控制。使用合适的词典，可以定义不被索引的停用词。

特性增强

无。

特性约束

openGauss的全文检索功能当前限制约束是：

每个分词长度必须小于2KB。
tsvector结构（分词+位置）的长度必须小于1MB。
tsvector的位置值必须大于0，且小于等于16,383。
每个分词在文档中位置数必须小于256，若超过将舍弃后面的位置信息。

依赖关系

无。

标签：词素,全文索引,token,文档,openGauss,词典
From： https://www.cnblogs.com/renxyz/p/18105109

openGauss 使用kubernetes部署分布式数据库
使用kubernetes部署分布式数据库可获得性本特性自openGauss2.1.0版本开始引入。特性简介一键式部署分布式数据库。客户价值快速完成分布式数据库搭建，验证和使用分布式能力。特性描述通过patroni实现计划内switchover和故障场景自动failover，通过haproxy实现openGauss主备......
openGauss 全量迁移gs_mysync
全量迁移gs_mysync可获得性本特性自openGauss5.0.0版本开始引入。特性简介gs_mysync工具是一个基于Python语言的MySQL到openGauss的复制工具。该工具提供了初始全量数据及对象（视图、触发器、函数、存储过程）的复制能力，可实现数据及对象从MySQL迁移至openGauss。对于数据的全量......
openGauss 全密态数据库等值查询
全密态数据库等值查询可获得性本特性自openGauss1.1.0版本开始引入。特性简介密态数据库意在解决数据全生命周期的隐私保护问题，使得系统无论在何种业务场景和环境下，数据在传输、运算以及存储的各个环节始终都处于密文状态。当数据拥有者在客户端完成数据加密并发送给服务端后......
openGauss 全局临时表
全局临时表可获得性本特性自openGauss1.1.0版本开始引入。特性简介临时表顾名思义是不保证持久化的表，其生命周期一般跟session或者事务绑定，可以方便用于表达处理过程中的一些临时数据存放，加速查询。客户价值提升临时表的表达能力和易用性。特性描述全局临时表的元数据对......
openGauss 企业级增强特性
企业级增强特性数据分区数据分区是数据库产品普遍具备的功能。在openGauss中，数据分区是对数据按照用户指定的策略对数据做的水平分表，将表按照指定范围划分为多个数据互不重叠的部分（Partition）。openGauss支持：范围分区（RangePartitioning）功能，即根据表的一列或者多列，将要插入表......
openGauss 慢SQL诊断
慢SQL诊断可获得性本特性自openGauss1.1.0版本开始引入。重构前慢SQL相关视图已废弃，包括dbe_perf.gs_slow_query_info、dbe_perf.gs_slow_query_history、dbe_perf.global_slow_query_hisotry、dbe_perf.global_slow_query_info。本特性自openGauss3.1.0版本支持备机。......
openGauss 内置stack工具
内置stack工具可获得性本特性自3.0.0版本开始引入。特性简介stack工具是获取数据库中各线程的调用栈的工具，用于辅助数据库运维人员定位死锁、hang等问题。客户价值提供函数级别的调用栈信息，提升数据库内核运维人员分析、定位死锁、hang等问题的效率。特性描述可以通过函数......
openGauss 慢SQL发现
慢SQL发现可获得性本特性自openGauss1.1.0版本开始引入。特性简介本功能是一个SQL语句执行时间预测工具，通过模板化方法，实现在不获取SQL语句执行计划的前提下，依据语句逻辑相似度与历史执行记录，预测SQL语句的执行时间。客户价值工具不需要用户提供SQL执行计划，对数据库性能不......
openGauss 慢SQL根因分析
慢SQL根因分析可获得性本特性自openGauss3.0.0开始引入。特性简介慢SQL一直是数据运维中的痛点问题，如何有效诊断慢SQL根因是当前一大难题，工具结合openGauss自身特点融合了现网DBA慢SQL诊断经验，该工具可以支持慢SQL根因15+，能同时按照可能性大小输出多个根因并提供针对性的建议......
openGauss 逻辑复制
逻辑复制可获得性本特性自openGauss1.0.0版本开始引入。特性简介openGauss提供逻辑解码功能，将物理日志反解析为逻辑日志。通过DRS等逻辑复制工具将逻辑日志转化为SQL语句，到对端数据库回放，达到异构数据库同步数据的功能。目前支持openGauss数据库与MySQL数据库、Oracle数据库......

openGauss 全文索引