首页 > 其他分享 >解读数仓常用模糊查询的优化方法

解读数仓常用模糊查询的优化方法

时间:2022-11-15 14:23:56浏览次数:57  
标签:数仓 Scan text t1 解读 索引 c1 查询

摘要:本文讲解了GaussDB(DWS)上模糊查询常用的性能优化方法,通过创建索引,能够提升多种场景下模糊查询语句的执行速度。

本文分享自华为云社区《GaussDB(DWS) 模糊查询性能优化》,作者: 黎明的风 。

在使用GaussDB(DWS)时,通过like进行模糊查询,有时会遇到查询性能慢的问题。

(一)LIKE模糊查询

通常的查询语句如下:

select * from t1 where c1 like 'A123%';

当表t1的数据量大时,使用like进行模糊查询,查询的速度非常慢。

通过explain查看该语句生成的查询计划:

test=# explain select * from t1 where c1 like 'A123%';
                                 QUERY PLAN 
-----------------------------------------------------------------------------
  id |          operation           | E-rows | E-memory | E-width | E-costs 
 ----+------------------------------+--------+----------+---------+---------
 1 | ->  Streaming (type: GATHER) | 1 | | 8 | 16.25 
 2 | ->  Seq Scan on t1        | 1 | 1MB      | 8 | 10.25 
 Predicate Information (identified by plan id)
 ---------------------------------------------
 2 --Seq Scan on t1
         Filter: (c1 ~~ 'A123%'::text)

查询计划显示对表t1进行了全表扫描,因此在表t1数据量大的时候执行速度会比较慢。

上面查询的模糊匹配条件 'A123%',我们称它为后模糊匹配。这种场景,可以通过建立一个BTREE索引来提升查询性能。

建立索引时需要根据字段数据类型设置索引对应的operator,对于text,varchar和char分别设置和text_pattern_ops,varchar_pattern_ops和bpchar_pattern_ops。

例如上面例子里的c1列的类型为text,创建索引时增加text_pattern_ops,建立索引的语句如下:

CREATE INDEX ON t1 (c1 text_pattern_ops);

增加索引后打印查询计划:

test=# explain select * from t1 where c1 like 'A123%';
                                       QUERY PLAN 
----------------------------------------------------------------------------------------
  id |                operation                | E-rows | E-memory | E-width | E-costs 
 ----+-----------------------------------------+--------+----------+---------+---------
 1 | ->  Streaming (type: GATHER)            | 1 | | 8 | 14.27 
 2 | -> Index Scan using t1_c1_idx on t1 | 1 | 1MB      | 8 | 8.27 
             Predicate Information (identified by plan id)             
 ----------------------------------------------------------------------
 2 --Index Scan using t1_c1_idx on t1
 Index Cond: ((c1 ~>=~ 'A123'::text) AND (c1 ~<~ 'A124'::text))
         Filter: (c1 ~~ 'A123%'::text)

在创建索引后,可以看到语句执行时会使用到前面创建的索引,执行速度会变快。

前面遇到的问题使用的查询条件是后缀的模糊查询,如果使用的是前缀的模糊查询,我们可以看一下查询计划是否有使用到索引。

test=# explain select * from t1 where c1 like '%A123';
                                 QUERY PLAN 
-----------------------------------------------------------------------------
  id |          operation           | E-rows | E-memory | E-width | E-costs 
 ----+------------------------------+--------+----------+---------+---------
 1 | ->  Streaming (type: GATHER) | 1 | | 8 | 16.25 
 2 | ->  Seq Scan on t1        | 1 | 1MB      | 8 | 10.25 
 Predicate Information (identified by plan id)
 ---------------------------------------------
 2 --Seq Scan on t1
         Filter: (c1 ~~ '%A123'::text)

如上图所示,当查询条件变成前缀的模糊查询,之前建的索引将不能使用到,查询执行时进行了全表的扫描。

这种情况,我们可以使用翻转函数(reverse),建立一个索引来支持前模糊的查询,建立索引的语句如下:

CREATE INDEX ON t1 (reverse(c1) text_pattern_ops);

将查询语句的条件采用reverse函数进行改写之后,输出查询计划:

test=# explain select * from t1 where reverse(c1) like 'A123%';
                                        QUERY PLAN 
------------------------------------------------------------------------------------------
  id |           operation           | E-rows | E-memory | E-width | E-costs 
 ----+-------------------------------+--------+----------+---------+---------
 1 | ->  Streaming (type: GATHER)  | 5 | | 8 | 14.06 
 2 | ->  Bitmap Heap Scan on t1 | 5 | 1MB      | 8 | 8.06 
 3 | ->  Bitmap Index Scan   | 5 | 1MB      | 0 | 4.28 
                      Predicate Information (identified by plan id)                      
 ----------------------------------------------------------------------------------------
 2 --Bitmap Heap Scan on t1
         Filter: (reverse(c1) ~~ 'A123%'::text)
 3 --Bitmap Index Scan
 Index Cond: ((reverse(c1) ~>=~ 'A123'::text) AND (reverse(c1) ~<~ 'A124'::text))

语句经过改写后,可以走索引, 查询性能得到提升。

(二)指定collate来创建索引

如果使用默认的index ops class时,要使b-tree索引支持模糊的查询,就需要在查询和建索引时都指定collate="C"。

注意:索引和查询条件的collate都一致的情况下才能使用索引。

创建索引的语句为:

CREATE INDEX ON t1 (c1 collate "C");

查询语句的where条件中需要增加collate的设置:

test=# explain select * from t1 where c1 like 'A123%' collate "C";
                                       QUERY PLAN 
----------------------------------------------------------------------------------------
  id |                operation                | E-rows | E-memory | E-width | E-costs 
 ----+-----------------------------------------+--------+----------+---------+---------
 1 | ->  Streaming (type: GATHER)            | 1 | | 8 | 14.27 
 2 | -> Index Scan using t1_c1_idx on t1 | 1 | 1MB      | 8 | 8.27 
           Predicate Information (identified by plan id)           
 ------------------------------------------------------------------
 2 --Index Scan using t1_c1_idx on t1
 Index Cond: ((c1 >= 'A123'::text) AND (c1 < 'A124'::text))
         Filter: (c1 ~~ 'A123%'::text COLLATE "C")

(三)GIN倒排索引

GIN(Generalized Inverted Index)通用倒排索引。设计为处理索引项为组合值的情况,查询时需要通过索引搜索出出现在组合值中的特定元素值。例如,文档是由多个单词组成,需要查询出文档中包含的特定单词。

下面举例说明GIN索引的使用方法:

create table gin_test_data(id int, chepai varchar(10), shenfenzheng varchar(20), duanxin text) distribute by hash (id);
create index chepai_idx on gin_test_data using gin(to_tsvector('ngram', chepai)) with (fastupdate=on); 

上述语句在车牌的列上建立了一个GIN倒排索引。

如果要根据车牌进行模糊查询,可以使用下面的语句:

select count(*) from gin_test_data where to_tsvector('ngram', chepai) @@ to_tsquery('ngram', '湘F');

这个语句的查询计划如下:

test=# explain select count(*) from gin_test_data where to_tsvector('ngram', chepai) @@ to_tsquery('ngram', '湘F'); 
                                           QUERY PLAN 
------------------------------------------------------------------------------------------------
  id |                   operation                    | E-rows | E-memory | E-width | E-costs 
 ----+------------------------------------------------+--------+----------+---------+---------
 1 | ->  Aggregate | 1 | | 8 | 18.03 
 2 | ->  Streaming (type: GATHER)                | 1 | | 8 | 18.03 
 3 | ->  Aggregate | 1 | 1MB      | 8 | 12.03 
 4 | ->  Bitmap Heap Scan on gin_test_data | 1 | 1MB      | 0 | 12.02 
 5 | ->  Bitmap Index Scan              | 1 | 1MB      | 0 | 8.00 
                         Predicate Information (identified by plan id)                         
 ----------------------------------------------------------------------------------------------
 4 --Bitmap Heap Scan on gin_test_data
         Recheck Cond: (to_tsvector('ngram'::regconfig, (chepai)::text) @@ '''湘f'''::tsquery)
 5 --Bitmap Index Scan
 Index Cond: (to_tsvector('ngram'::regconfig, (chepai)::text) @@ '''湘f'''::tsquery)

查询中使用了倒排索引,因此有比较的好的执行性能。

 

点击关注,第一时间了解华为云新鲜技术~

标签:数仓,Scan,text,t1,解读,索引,c1,查询
From: https://www.cnblogs.com/huaweiyun/p/16892264.html

相关文章

  • 详细解读 React useCallback & useMemo
    前言阅读本文章需要对Reacthooks中useState和useEffect有基础的了解。我的这篇文章内有大致介绍在React项目中全量使用Hooks。useCallbackuseCallback的作......
  • 023.ManyToOne对象关联查询
    1.在GoodsDetail.java中添加少的一方的实体privateGoodsgoods;2.在goods_detail.xml中进行对象关联的描述<resultMapid="rmGoodsDetail"type="com.imooc.m......
  • Mysql-分页查询
    --从0开始查询,查询3条数据;SELECT*fromstuLIMIT0,3;--每页显示3条数据,查询第1页的数据;SELECT*fromstuLIMIT0,3;--每页显示3条数据,查询第2页的数据;SELECT......
  • Flask 学习-96.Flask-SQLAlchemy 判断查询结果是否存在的几种方式
    前言在查询的时候,经常需要先判断是否存在结果,再进行下一步操作。这里总结了判断查询结果是否存在的几种方式count()统计个数count()方法返回记录条数,使用示例withap......
  • sql server 数据库系统表及表结构查询
    sysobjects表结构:列名数据类型描述namesysname对象名,常用列idint对象标识号xtypechar(2)对象类型,常用列。xtype 可以是下列对象类型中的......
  • sqlserver FOR XML查询参数path的实例
     SQLSERVER中XML查询:FORXML指定PATH前言在SQLSERVER中,XML查询可以指定RAW,AUTO,EXPLICIT,PATH。本文用一些实例介绍SQLSERVER中指定PATH的XML查询。PA......
  • Hive查询的18种方式,你都学会了吗?
    持之以恒,贵在坚持,每天进步一点点!前言        大家一定对Hive不陌生吧!Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查......
  • SQL Server 时间查询
    日期查询datepart参考值年yy,yyyy季度qq,q月mm,m年中的日dy,y日dd,d周wk,ww星期dw,w小时hh分钟mi,n秒ss,s毫秒......
  • 数仓基础知识的超全概括(建议收藏)!
    ​大家好,我是 梦想家 !周一,我想和大家分享一些数仓基础知识的小集锦,希望能对你有些帮助~1、什么是数据仓库?权威定义:数据仓库是一个面向主题的、集成的、相对稳定的、反映历......
  • Flask 学习-95.Flask-SQLAlchemy 查询今天当天的数据
    前言查询今天的数据,或者查询某一天的数据SQLDATE()function使我们能够从特定的历史或当前时间戳值访问日期值。DATE()函数Date()函数返回从传递的datetime表达式中提......