MySQL索引设计原则 您所在的位置:网站首页 建立索引的字段 MySQL索引设计原则

MySQL索引设计原则

2023-06-28 02:25| 来源: 网络整理| 查看: 265

一、数据准备 第1步:创建数据库、创建表 CREATE DATABASE atguigudb1; USE atguigudb1; #1.创建学生表和课程表 CREATE TABLE `student_info` ( `id` INT ( 11 ) NOT NULL AUTO_INCREMENT, `student_id` INT NOT NULL, `name` VARCHAR ( 20 ) DEFAULT NULL, `course_id` INT NOT NULL, `class_id` INT ( 11 ) DEFAULT NULL, `create_time` DATETIME DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP, PRIMARY KEY ( `id` ) ) ENGINE = INNODB AUTO_INCREMENT = 1 DEFAULT CHARSET = utf8; CREATE TABLE `course` ( `id` INT ( 11 ) NOT NULL AUTO_INCREMENT, `course_id` INT NOT NULL, `course_name` VARCHAR ( 40 ) DEFAULT NULL, PRIMARY KEY ( `id` ) ) ENGINE = INNODB AUTO_INCREMENT = 1 DEFAULT CHARSET = utf8; 第2步:环境检查

利用MySQL进行主从复制,主机会将写操作记录在bin-log日志中。从机读取bin-log日志,执行语句来同步数据。如果使用函数来操作数据,会导致从机和主键操作时间不一致。所以,默认情况下,mysql不开启创建函数设置。因此我们需要检查环境。

查看mysql是否允许创建函数:

show variables like 'log_bin_trust_function_creators';

命令开启:允许创建函数设置:

set global log_bin_trust_function_creators=1; # 不加global只是当前窗口有效。

mysqld重启,上述参数又会消失。永久方法:

windows下:my.ini中[mysqld]下加上:log_bin_trust_function_creators=1linux下:/etc/my.cnf中[mysqld]下加上:log_bin_trust_function_creators=1 第3步:创建模拟数据必须的存储函数 #函数1:创建随机产生字符串函数 DELIMITER // CREATE FUNCTION rand_string ( n INT ) RETURNS VARCHAR ( 255 ) #该函数会返回一个字符串 BEGIN DECLARE chars_str VARCHAR ( 100 ) DEFAULT 'abcdefghijklmnopqrstuvwxyzABCDEFJHIJKLMNOPQRSTUVWXYZ'; DECLARE return_str VARCHAR ( 255 ) DEFAULT ''; DECLARE i INT DEFAULT 0; WHILE i select @@sql_mode; +-------------------------------------------------------------------------------------------------------------------------------------------+ | @@sql_mode | +-------------------------------------------------------------------------------------------------------------------------------------------+ | ONLY_FULL_GROUP_BY,STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_AUTO_CREATE_USER,NO_ENGINE_SUBSTITUTION | +-------------------------------------------------------------------------------------------------------------------------------------------+ 1 row in set (0.00 sec) mysql> k

重新执行SQL:

select student_id, count(*) as num from student_info group by student_id order by create_time limit 10;

得到的结果:

+------------+-----+ | student_id | num | +------------+-----+ | 179451 | 11 | | 119525 | 6 | | 18656 | 5 | | 169505 | 12 | | 87575 | 4 | | 158683 | 4 | | 142 | 9 | | 47141 | 8 | | 52873 | 6 | | 3952 | 6 | +------------+-----+ 10 rows in set (3.51 sec)

可以看到速度是非常慢的。通过EXPLAIN分析一下:

explain select student_id, count(*) as num from student_info group by student_id order by create_time limit 10;

得到的结果:

+----+-------------+--------------+------------+-------+---------------+---------+... | id | select_type | table | partitions | type | possible_keys | key |... +----+-------------+--------------+------------+-------+---------------+---------+... | 1 | SIMPLE | student_info | NULL | index | idx_sid |idx_sid | ... +----+-------------+--------------+------------+-------+---------------+---------+... 1 row in set, 1 warning (0.00 sec)

虽然我们创建了两个索引,但是实际上只用到了一个。这是因为语句的执行会先执行from,再执行group by,先用上了student_id,create_time索引没有使用上。

所以我们尝试使用联合索引:

alter table student_info add index idx_sid_ct(student_id,create_time);

再看一下执行结果:

select student_id, count(*) as num from student_info group by student_id order by create_time limit 10; +------------+-----+ | student_id | num | +------------+-----+ | 3952 | 6 | | 124349 | 4 | | 118976 | 7 | | 138265 | 4 | | 124642 | 5 | | 89124 | 9 | | 179451 | 11 | | 119525 | 6 | | 18656 | 5 | | 169505 | 12 | +------------+-----+ 10 rows in set (0.30 sec)

一个3.51sec,一个0.30 sec,可以看到差距还是非常大的。用EXPLAIN分析一下:

explain select student_id, count(*) as num from student_info group by student_id order by create_time limit 10; +----+-------------+--------------+------------+-------+--------------------+------------+... | id | select_type | table | partitions | type | possible_keys | key |... +----+-------------+--------------+------------+-------+--------------------+------------+... | 1 | SIMPLE | student_info | NULL | index | idx_sid,idx_sid_ct | idx_sid_ct |... +----+-------------+--------------+------------+-------+--------------------+------------+... 1 row in set, 1 warning (0.00 sec)

可以看到使用到了联合索引。因此,对于经常 GROUP BY 和 ORDER BY 的列,可以创建联合索引加快查询速度。同时要注意到,由于索引的最左匹配原则,创建联合索引时需要按照group by的字段,再order by的字段的顺序创建索引。

4. UPDATE、DELETE的WHERE条件列

我们先看一下对数据进行UPDATE的情况:把name为ETHDVR对应的student_id进行修改,没有对name进行索引时:

update student_info set student_id = 10002 where name = 'ETHDVR'; Query OK, 3 rows affected (0.56 sec)

创建索引:

alter table student_info add index idx_name(name);

再执行一次:

update student_info set student_id = 10003 where name = 'kmJuft'; Query OK, 3 rows affected (0.00 sec)

可以看到速度的提升还是非常大的。这是为什么呢?因为执行更新或删除时需要先根据where条件列检索,创建了索引的字段会更快被检索到,这样就能大幅提升效率。同时,如果进行更新的字段是非索引字段,效率会进一步提升,因为非索引字段不需要维护索引。

5. DISTINCT 字段创建索引

有时候我们需要对某个字段进行去重,使用 DISTINCT,那么对这个字段创建索引,也会提升查询效率。

比如,我们想要查询课程表中不同的 student_id 都有哪些,如果我们不适用 student_id 的索引,执行SQL 语句:

SELECT DISTINCT(student_id) FROM `student_info` use index();

运行结果:197959 rows in set (0.79 sec)

如果我们使用 student_id 索引,再执行 SQL 语句:

select distinct(student_id) from student_info use index(idx_sid);

运行结果:197959 rows in set (0.29 sec)

你能看到 SQL 查询效率有了提升,同时显示出来的 student_id 还是按照递增的顺序进行展示的。这是因为索引会对数据按照某种顺序进行排序,所以在去重的时候也会快很多。

6. 多表JOIN连接操作时,创建索引注意事项

首先, 连接表的数量尽量不要超过 3 张 ,因为每增加一张表就相当于增加了一次嵌套的循环,数量级增

长会非常快,严重影响查询的效率。

其次,对 WHERE 条件创建索引,因为 WHERE 才是对数据条件的过滤。如果在数据量非常大的情况下,

没有 WHERE 条件过滤是非常可怕的。

最后,对用于连接的字段创建索引,并且该字段在多张表中的类型必须一致。比如 course_id 在 student_info 表和 course 表中都为 int(11) 类型,而不能一个为 int 另一个为 varchar 类型。

举个例子,首先我们在不使用name字段的索引,执行SQL语句:

SELECT c.course_id, name, s.student_id, course_name FROM student_info s ignore index(idx_name) JOIN course c ON s.course_id = c.course_id WHERE name = '462eed7ac6e791292a79';

执行结果:

Empty set (0.23 sec)

使用name字段的索引:

Empty set (0.00 sec) 7. 使用列的类型小的创建索引

这里说的类型大小就是该类型表示的数据范围大小。

这是因为:

数据类型越小,在查询时进行的比较操作越快数据类型越小,索引占用的空间就越小,就能降低磁盘I/O带来的消耗。 8. 使用字符串前缀创建索引

假设我们的字符串很长,那存储一个字符串就需要占用很大的存储空间。在我们需要为这个字符串列建立索引时,那就意味着在对应的B+树中有这么两个问题:

B+树索引中的记录需要把该列的完整字符串存储起来,更费时。而且字符串越长,在索引中占用的存储空间越大。如果B+树索引中索引列存储的字符串很长,那在做字符串比较时会占用更多的时间。

我们可以通过截取字段的前面一部分内容建立索引,这个就叫前缀索引。这样在查找记录时虽然不能精确的定位到记录的位置,但是能定位到相应前缀所在的位置,然后根据前缀相同的记录的主键值回表查询完整的字符串值。既节约空间,又减少了字符串的比较时间,还大体能解决排序的问题。

例如,TEXT和BLOG类型的字段,进行全文检索会很浪费时间,如果只检索字段前面的若干字符,这样可以提高检索速度。

创建一张商户表,只包含地址字段,因为地址字段比较长,所以我们想在地址字段上建立前缀索引:

create table shop(address varchar(120) not null);

问题是,截取多少呢?

alter table shop add index(address(???));

截取得多了,达不到节省索引存储空间的目的;截取得少了,重复内容太多,字段的散列度(选择性)会降低。怎么计算不同的长度的选择性呢?

先看一下字段在全部数据中的选择度公式:

select count(distinct address) / count(*) from shop;

不同长度的选择度的公式:

count(distinct left(列名, 索引长度))/count(*)

观察不同长度的选择度:

select count(distinct left(address,10)) / count(*) as sub10, -- 截取前10个字符的选择度 count(distinct left(address,15)) / count(*) as sub11, -- 截取前15个字符的选择度 count(distinct left(address,20)) / count(*) as sub12, -- 截取前20个字符的选择度 count(distinct left(address,25)) / count(*) as sub13 -- 截取前25个字符的选择度 from shop;

当然这里有优雅的方式,可以直接生成从1到10的选择度,可以通过修改limit获得任意长度字符的选择度。

SELECT R, COUNT(DISTINCT LEFT(address, R)) / COUNT(*) FROM ( SELECT @rownum:=@rownum+1 AS R FROM (SELECT @rownum:=0) r, shop limit 10 ) AS derived, address GROUP BY R;

于是我们就可以参照上述结果,选择适合的长度。如果选择度高达90%以上,就可以选择该长度。

【强制】在 varchar 字段上建立索引时,必须指定索引长度,没必要对全字段建立索引,根据实际文本区分度决定索引长度即可。

说明:索引的长度与区分度是一对矛盾体,一般对字符串类型数据,长度为 20 的索引,区分度会高达90%以上,可以使用 count(distinct left(列名, 索引长度))/count(*)的区分度来确定。

引申另一个问题:索引列前缀对排序的影响

如果使用了索引列前缀,比如,只把address列的前5个字符放到了二级索引中:

alter table shop add index(address(5));

我们表中有一些数据

aaaaa123 aaaaa012 aaaaa000

我们想按照address进行排序

select * from shop order by address limit 3;

试想一下,如果索引列前缀能够帮助我们排序,由于它只能对前5个字符创建了索引,后面的字符会被它忽略,所以在它眼里,这三个数据是一样的。那么就无法正常排序了,因此,使用索引列前缀的方式无法支持使用索引排序,但我们要求有序,就只能使用文件排序了。

同时执行计划也能证明我们的想法,

mysql> explain select * from shop order by address; +----+-------------+-------+...+----------------+ | id | select_type | table |...| Extra | +----+-------------+-------+...+----------------+ | 1 | SIMPLE | shop |...| Using filesort | +----+-------------+-------+...+----------------+ 1 row in set, 1 warning (0.00 sec)

可以看到使用的就是文件排序。

9. 区分度高(散列性高)的列适合作为索引

列的重复度越低越适合建立索引。可以使用select count(distinct c1)/count(*) from t1,计算区分度,思想和上面的一样。

10. 使用最频繁的列放到联合索引的左侧

这样也可以较少的建立一些索引。同时,由于"最左前缀原则",可以增加联合索引的使用率。

11. 在多个字段都要创建索引的情况下,联合索引优于单值索引 索引太多维护麻烦 三、限制索引的数目

在实际工作中,我们也需要平衡,索引的数据不是越多越好。我们需要限制每张表上的索引数量,建议单张表的索引数量不超过6个。原因如下:

索引越多,占用的磁盘空间越大修改表中的数据会调整和更新索引,影响性能优化器在优化查询时,会对每一个用到的索引进行评估,索引越多会增加优化器生成执行计划的时间,减低查询性能 四、哪些情况不适合创建索引 1. 在where用不到的字段,不要设置索引

浪费

2. 数据量小的表最好不要使用索引

对查询效率的影响并不大,没必要。

3. 有大量重复数据的列上不要建立索引

字段中如果有大量重复数据,也不需要创建索引,因为不但不会提高查询效率,反而会严重降低数据更新速度。

下面举个例子:

假设有一个学生表,学生总数为 100 万人,男性只有 10 个人,也就是占总人口的 10 万分之 1。学生表 student_gender 结构如下。其中数据表中的 student_gender 字段取值为 0 或 1,0 代表女性,1 代表男性。

CREATE TABLE student_gender( student_id INT(11) NOT NULL, student_name VARCHAR(50) NOT NULL, student_gender TINYINT(1) NOT NULL, PRIMARY KEY(student_id) )ENGINE = INNODB AUTO_INCREMENT=1;

创建存储过程,

CREATE DEFINER=`root`@`%` PROCEDURE `insert_student`( max_num INT,gender INT ) BEGIN DECLARE i INT DEFAULT 0; SET autocommit = 0; #设置手动提交事务 REPEAT #循环 SET i = i + 1; #赋值 INSERT INTO student_gender (student_name ,student_gender ) VALUES (rand_string(6),gender); UNTIL i = max_num END REPEAT; COMMIT; #提交事务 END

调用存储过程,

call insert_student(999990,0); call insert_student(10,1);

如果我们要筛选出这个学生表中的女性,可以使用:

SELECT * FROM student_gender WHERE student_gender = 0;

999990条数据,查询时间0.932s

接下来我们创建索引,

alter table student_gender add index idx_gender(student_gender);

999990条数据,查询时间2.207s

意想不到,加了索引去查询,却更加耗时了。这是为什么呢?很明显,由于数据重复量多,查询非聚簇索引后还要回表查询,想比直接查询更加耗时,因此对于字段中有大量重复数据的,还是不要添加索引。

4. 避免对经常更新的表创建过多的索引

第一层含义:频繁更新的字段不一定要创建索引。因为在更新数据的时候,也需要更新索引。如果索引太多,在更新索引的时候也会造成负担,从而影响效率。

第二层含义:避免对经常更新的表创建过多的索引,并且索引中的列尽可能少。此时,虽然提高了查询速度,同时却会降低更新表的速度。

5. 不建议用无序的值作为索引

例如身份证,UUID(在索引比较时需要转为ASCII,并且插入时可能会造成页分裂)、MD5、HASH、无序长字符串等。

6. 删除不再使用或者很少使用的索引

表中的数据被大量更新,或者数据的使用方式被改变后,原有的一些索引可能不再需要。数据库管理员应当定期找出这些索引,将它们删除,从而减少索引对更新操作的影响。

7. 不要定义冗余或重复的索引

1. 冗余索引

举例:建表语句如下

CREATE TABLE person_info( id INT UNSIGNED NOT NULL AUTO_INCREMENT, name VARCHAR(100) NOT NULL, birthday DATE NOT NULL, phone_number CHAR(11) NOT NULL, country varchar(100) NOT NULL, PRIMARY KEY (id), KEY idx_name_birthday_phone_number (name(10), birthday, phone_number), KEY idx_name (name(10)) );

我们知道,通过idx_name_birthday_phone_number索引就可以对 name 列进行快速搜索,再创建一个专门针对 name 列的索引就算是一个冗余索引 ,维护这个索引只会增加维护的成本,并不会对搜索有什么好处。

2. 重复索引

另一种情况,我们可能会对某个列重复建立索引 ,比方说这样:

CREATE TABLE repeat_index_demo ( col1 INT PRIMARY KEY, col2 INT, UNIQUE uk_idx_c1 (col1), INDEX idx_c1 (col1) );

我们看到,col1 既是主键、又给它定义为一个唯一索引,还给它定义了一个普通索引,可是主键本身就会生成聚簇索引,所以定义的唯一索引和普通索引是重复的,这种情况要避免。

参考资料 MySQL数据库教程天花板,mysql安装到mysql高级,强!硬!


【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有