首页 > 其他分享 >索引优化百万数据量

索引优化百万数据量

时间:2023-11-10 19:34:26浏览次数:45  
标签:phone -- 索引 user 数据量 test id 百万

-- 新建一个查询,复制以下语句,执行即可。通过存储过程创建100万数据
CREATE TABLE `test_user_memory` (
`id` int(11) NOT NULL AUTO_INCREMENT comment '主键id',
`user_id` varchar(36) NOT NULL comment '用户id',
`user_name` varchar(30) NOT NULL comment '用户名称',
`phone` varchar(20) NOT NULL comment '手机号码',
`lan_id` int(9) NOT NULL comment '本地网',
`region_id` int(9) NOT NULL comment '区域',
`create_time` datetime NOT NULL comment '创建时间',
PRIMARY KEY (`id`),
KEY `idx_user_id` (`user_id`)
) ENGINE=MEMORY DEFAULT CHARSET=utf8mb4;

 


CREATE TABLE `test_user` (
`id` int(11) NOT NULL AUTO_INCREMENT comment '主键id',
`user_id` varchar(36) NOT NULL comment '用户id',
`user_name` varchar(30) NOT NULL comment '用户名称',
`phone` varchar(20) NOT NULL comment '手机号码',
`lan_id` int(9) NOT NULL comment '本地网',
`region_id` int(9) NOT NULL comment '区域',
`create_time` datetime NOT NULL comment '创建时间',
PRIMARY KEY (`id`),
KEY `idx_user_id` (`user_id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4;

 


set global log_bin_trust_function_creators=1;

#生成n个随机数字
DELIMITER $$
CREATE FUNCTION randNum(n int) RETURNS VARCHAR(255)
BEGIN
DECLARE chars_str varchar(20) DEFAULT '0123456789';
DECLARE return_str varchar(255) DEFAULT '';
DECLARE i INT DEFAULT 0;
WHILE i n DO
SET return_str = concat(return_str,substring(chars_str , FLOOR(1 + RAND()10 ),1));
SET i = i +1;
END WHILE;
RETURN return_str;
END $$
DELIMITER;

 

 

#生成随机手机号码
# 定义常用的手机头 130 131 132 133 134 135 136 137 138 139 186 187 189 151 157
#SET starts = 1+floor(rand()15)4; 截取字符串的开始是从 1、5、9、13 ...开始的。floor(rand()15)的取值范围是0~14
#SET head = substring(bodys,starts,3);在字符串bodys中从starts位置截取三位

DELIMITER $$
CREATE FUNCTION generatePhone() RETURNS varchar(20)
BEGIN
DECLARE head char(3);
DECLARE phone varchar(20);
DECLARE bodys varchar(100) default 130 131 132 133 134 135 136 137 138 139 186 187 189 151 157;
DECLARE starts int;
SET starts = 1+floor(rand()15)4;
SET head = trim(substring(bodys,starts,3));
SET phone = trim(concat(head,randNum(8)));
RETURN phone;
END $$
DELIMITER ;

 

 

#创建随机字符串和随机时间的函数
DELIMITER $$
CREATE FUNCTION `randStr`(n INT) RETURNS varchar(255) CHARSET utf8mb4
DETERMINISTIC
BEGIN
DECLARE chars_str varchar(100) DEFAULT 'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ0123456789';
DECLARE return_str varchar(255) DEFAULT '' ;
DECLARE i INT DEFAULT 0;
WHILE i n DO
SET return_str = concat(return_str, substring(chars_str, FLOOR(1 + RAND() 62), 1));
SET i = i + 1;
END WHILE;
RETURN return_str;
END$$
DELIMITER;

 


# 创建插入内存表数据存储过程 入参n是多少就插入多少条数据
DELIMITER $$
CREATE PROCEDURE `add_test_user_memory`(IN n int)
BEGIN
DECLARE i INT DEFAULT 1;
WHILE (i = n) DO
INSERT INTO test_user_memory (user_id, user_name, phone, lan_id,region_id, create_time) VALUES (uuid(), randStr(20), generatePhone(), FLOOR(RAND() 1000), FLOOR(RAND() 100), NOW());
SET i = i + 1;
END WHILE;
END $$
DELIMITER ;

 

#循环从内存表获取数据插入普通表
#参数描述 n表示循环调用几次;count表示每次插入内存表和普通表的数据量
DELIMITER $$
CREATE PROCEDURE `add_test_user_memory_to_outside`(IN n int, IN count int)
BEGIN
DECLARE i INT DEFAULT 1;
WHILE (i = n) DO
CALL add_test_user_memory(count);
INSERT INTO test_user SELECT FROM test_user_memory;
delete from test_user_memory;
SET i = i + 1;
END WHILE;
END $$
DELIMITER ;



CALL add_test_user_memory_to_outside(100,10000);

执行完毕,test_user表插入了100万数据!


如果建立的是复合索引,索引的顺序要按照建立时的顺序。如a,b,c三个字段构成符合索引,那么where条件一定要按照abc的顺序编写,才能最大效率用到此索引。(桥头-桥身-桥尾 : 前面中断,即后面无效,无法通行)
alter table test_user add index index_phone_landId_regionId(phone,lan_id,region_id);
-- 再次执行上述的查询语句 结果 耗时: 0.003ms远远小于之前的0.905
SELECT SQL_NO_CACHE * from test_user a where a.phone='13647715321' and a.lan_id=756 and a.region_id= 47;

-- 执行没有索引情况下的查询语句,结果耗时 时间: 0.905ms SQL_NO_CACHE是指不适用缓存
SELECT SQL_NO_CACHE * from test_user a where a.phone='13647715321' and a.lan_id=756 and a.region_id= 47;

-- 现在对phone、lan_id、region_id三个字段添加一个复合索引
alter table test_user add index index_phone_landId_regionId(phone,lan_id,region_id);
-- 再次执行上述的查询语句 结果 耗时: 0.003ms远远小于之前的0.905
SELECT SQL_NO_CACHE * from test_user a where a.phone='13647715321' and a.lan_id=756 and a.region_id= 47;


-- 可以用EXPLAIN来对语句进行查看。
-- key_len 是在不损失精度的基础上,越小越好 (粗略值)
-- ref 是指用了三个常量去查找
-- rows 是指查找了多少行,也是越小越好
EXPLAIN SELECT SQL_NO_CACHE * from test_user a where a.phone='13647715321' and a.lan_id=756 and a.region_id= 47;

-- 也可以直接查看sql执行的时间来对索引进行辨别。
-- 正常的a、b、c顺序, 时间: 0.001ms
EXPLAIN SELECT SQL_NO_CACHE * from test_user a where a.phone='13647715321' and a.lan_id=756 and a.region_id= 47;

-- b、c 没有用a,破坏了索引,用EXPLAIN可以看到没有用到索引 时间: 1.389ms
EXPLAIN SELECT SQL_NO_CACHE * from test_user a where a.lan_id=756 and a.region_id= 47;

-- a、c 用到了索引,只是效率没有最大化,可以用EXPLAIN看到,只有a,即phone字段用到了。 另外两个字段索引无效。 时间: 0.001ms
EXPLAIN SELECT SQL_NO_CACHE * from test_user a where a.phone='13647715321' and a.region_id= 47;

-- a、b 的话一样,用到了2/3 ,没有最大化使用 时间: 0.001ms
EXPLAIN SELECT SQL_NO_CACHE * from test_user a where a.phone='13647715321' and a.lan_id=756;

-- b、c 由于没有'桥头',所以没有索引的使用。 时间: 0.850ms
EXPLAIN SELECT SQL_NO_CACHE * from test_user a where a.lan_id=756 and a.region_id= 47;


-- 索引的使用与where语句中字段出现的顺序无关,只与是否使用到索引相关字段有关。如下的两个语句都会使用到索引。
EXPLAIN SELECT SQL_NO_CACHE * from test_user a where a.phone='13923169519' and a.lan_id=262;
EXPLAIN SELECT SQL_NO_CACHE * from test_user a where a.lan_id=262 and a.phone='13923169519';

-- 2、以下用法会导致索引失效
-- 计算,如:+、-、*、/、!=、<>、is null、is not null、or
-- 函数,如:sum()、round()等等
-- 手动/自动类型转换,如:id = “1”,本来是数字,给写成字符串了
EXPLAIN SELECT SQL_NO_CACHE a.* from test_user a where a.phone='13647715321' and a.lan_id=756 and a.region_id= 47;
-- 改一个!= 直接没有索引 时间: 1.538ms
EXPLAIN SELECT SQL_NO_CACHE a.* from test_user a where a.phone!='13647715321' and a.lan_id=756 and a.region_id= 47;


3、索引不要放在范围查询右边
比如复合索引:a->b->c,当 where a=“xxx” and b>10 and c=“xxx”,这时候只能用到 a 和 b,c 用不到索引,
因为在范围之后索引都失效(和 B+树结构有关)

4、减少 select * 的使用

5、-- like 模糊搜索
-- 失效情况
-- like “%张三%”
-- like “%张三”
-- 解决方案
-- 使用覆盖索引,即 like 字段是 select 的查询字段。 type=index
-- 如:select name from table where name like “%张三%”;
-- 使用 like “张三%”
EXPLAIN SELECT SQL_NO_CACHE a.* from test_user a where a.phone like '133%'; -- 走索引
EXPLAIN SELECT SQL_NO_CACHE a.* from test_user a where a.phone like '1%'; -- 不走索引
EXPLAIN SELECT SQL_NO_CACHE a.* from test_user a where a.phone like '%133%'; -- 不走索引
EXPLAIN SELECT SQL_NO_CACHE a.* from test_user a where a.phone like '%133'; -- 不走索引
EXPLAIN SELECT SQL_NO_CACHE a.phone from test_user a where a.phone like '%133%'; -- 走索引

 

标签:phone,--,索引,user,数据量,test,id,百万
From: https://www.cnblogs.com/muxilaoshi/p/17824878.html

相关文章

  • 前端开发进阶:前端开发中如何高效渲染大数据量?
    在日常工作中,有时会遇到一次性往页面中插入大量数据的场景,在数栈的离线开发(以下简称离线)产品中,就有类似的场景。本文将通过分享一个实际场景中的前端开发思路,介绍当遇到大量数据时,如何实现高效的数据渲染,以达到提升页面性能和用户体验的目的。渲染大数据量时遇到的问题在离线的数据......
  • AntDB-M高性能设计之hash索引动态rehash
    AntDB-M支持hash索引、btree索引等索引类型,hash索引以hash表的方式实现,一个简单的hash表示意图如图1所示。hash桶下的元素节点为单向或者双向链表,数据行上某一个或者某几个字段组成索引,通过hash函数对索引字段的值进行运算,映射到某个hash桶下,hash桶下的元素节点存储了数据行的行号......
  • MySQL的存储函数、MySQL的触发器、MySQL的索引
    MySQL的存储函数概述MySQL存储函数(自定义函数),函数一般用于计算和返回一个值,可以将经常需要使用的计算或功能写成一个函数。存储函数和存储过程一样,都是在数据库中定义一些SQL语句的集合。存储函数与存储过程的区别:存储函数有且只有一个返回值,而存储过程可以有多个返回值,也可以没......
  • 使用数据库索引的优点与缺点
    优点:使用索引可快速访问数据库表中的特定信息。索引是对数据库表中一列或多列的值进行排序的一种结构,作为通用规则,只有当经常查询索引列中的数据时,才需要在表上创建索引。索引占用磁盘空间,并且降低添加、删除和更新行的速度。在多数情况下,索引用于数据检索的速度优势大大超过它的......
  • oracle强制使用索引
    如下例子,Dim_Material_Info有6万条记录,建了索引IDX_DIM_MATERIAL_INFO_1: 但不知道什么原因,没有用上索引IDX_DIM_MATERIAL_INFO_1,造成查询速度很慢。 改造后的查询sql如下,强制使用索引:select/*+index(xIDX_DIM_MATERIAL_INFO_1)*/a.*From......
  • 《离散数学》双语专业词汇表 名词术语中英文索引
    《离散数学》双语专业词汇表set:集合subset:子集element,member:成员,元素well-defined:良定,完全确定brace:花括号representation:表示sensible:有意义的rationalnumber:有理数emptyset:空集Venndiagram:文氏图contain(in):包含(于)universalset:全集finite(infinite)set:有限(无限)集......
  • 空间索引
    空间索引空间索引的实现方式:Rtree和其变种树GIST-Tree、quad-tree(四叉树)、bin(网格索引)所有的空间索引都是先插入数据,把数据在内部数据结构进行划分,方便查找。boostR-treeR-tree的创建有多种算法和参数,要选择最符合场景的rtree的第一个参数value,必须要是能提取出index......
  • Oracle中B-tree索引的访问方法(十一)-- 索引的分裂行为
    索引的分裂行为当某个索引块中要插入新的索引条目,但其中又没有可用空间时,就会发生索引的分裂。根据分裂发生所在的索引块类型的不同,可以分为在根块上发生的分裂,在分支块上发生的分裂和在叶子块上发生的分裂。下面,就这三种情况做分别介绍。从前面的实验中,我们已经看到,大约每个索引块......
  • django的paginator都是假分页,数据量大很卡
    paginator使用defget(self,request,*args,**kwargs):rs_data={'count':0,'items':[]}page=int(self.request.GET.get('page',1))page_size=int(self.request......
  • JAVA多线程并发查询百万数据的内存占用问题?
    在Java中使用多线程并发查询百万数据时,内存占用是一个需要考虑的重要问题。以下是一些解决该问题的方案:分批查询:将数据分成较小的批次进行查询,而不是一次性加载全部数据。这样可以减少每个线程需要处理的数据量,降低内存占用。可以将查询结果分组或按需加载,以保持内存占用的合理范......