MySQL索引设计原则

2023-06-28 02:25| 来源: 网络整理| 查看: 265

一、数据准备第1步：创建数据库、创建表 CREATE DATABASE atguigudb1; USE atguigudb1; #1.创建学生表和课程表 CREATE TABLE `student_info` ( `id` INT ( 11 ) NOT NULL AUTO_INCREMENT, `student_id` INT NOT NULL, `name` VARCHAR ( 20 ) DEFAULT NULL, `course_id` INT NOT NULL, `class_id` INT ( 11 ) DEFAULT NULL, `create_time` DATETIME DEFAULT CURRENT_TIMESTAMP ON UPDATE CURRENT_TIMESTAMP, PRIMARY KEY ( `id` ) ) ENGINE = INNODB AUTO_INCREMENT = 1 DEFAULT CHARSET = utf8; CREATE TABLE `course` ( `id` INT ( 11 ) NOT NULL AUTO_INCREMENT, `course_id` INT NOT NULL, `course_name` VARCHAR ( 40 ) DEFAULT NULL, PRIMARY KEY ( `id` ) ) ENGINE = INNODB AUTO_INCREMENT = 1 DEFAULT CHARSET = utf8; 第2步：环境检查

利用MySQL进行主从复制，主机会将写操作记录在bin-log日志中。从机读取bin-log日志，执行语句来同步数据。如果使用函数来操作数据，会导致从机和主键操作时间不一致。所以，默认情况下，mysql不开启创建函数设置。因此我们需要检查环境。

查看mysql是否允许创建函数：

show variables like 'log_bin_trust_function_creators';

命令开启：允许创建函数设置：

set global log_bin_trust_function_creators=1; # 不加global只是当前窗口有效。

mysqld重启，上述参数又会消失。永久方法：

windows下：my.ini中[mysqld]下加上：log_bin_trust_function_creators=1linux下：/etc/my.cnf中[mysqld]下加上：log_bin_trust_function_creators=1 第3步：创建模拟数据必须的存储函数 #函数1：创建随机产生字符串函数 DELIMITER // CREATE FUNCTION rand_string ( n INT ) RETURNS VARCHAR ( 255 ) #该函数会返回一个字符串 BEGIN DECLARE chars_str VARCHAR ( 100 ) DEFAULT 'abcdefghijklmnopqrstuvwxyzABCDEFJHIJKLMNOPQRSTUVWXYZ'; DECLARE return_str VARCHAR ( 255 ) DEFAULT ''; DECLARE i INT DEFAULT 0; WHILE i select @@sql_mode; +-------------------------------------------------------------------------------------------------------------------------------------------+ | @@sql_mode | +-------------------------------------------------------------------------------------------------------------------------------------------+ | ONLY_FULL_GROUP_BY,STRICT_TRANS_TABLES,NO_ZERO_IN_DATE,NO_ZERO_DATE,ERROR_FOR_DIVISION_BY_ZERO,NO_AUTO_CREATE_USER,NO_ENGINE_SUBSTITUTION | +-------------------------------------------------------------------------------------------------------------------------------------------+ 1 row in set (0.00 sec) mysql> k

重新执行SQL：

select student_id, count(*) as num from student_info group by student_id order by create_time limit 10;

得到的结果：

+------------+-----+ | student_id | num | +------------+-----+ | 179451 | 11 | | 119525 | 6 | | 18656 | 5 | | 169505 | 12 | | 87575 | 4 | | 158683 | 4 | | 142 | 9 | | 47141 | 8 | | 52873 | 6 | | 3952 | 6 | +------------+-----+ 10 rows in set (3.51 sec)

可以看到速度是非常慢的。通过EXPLAIN分析一下：

explain select student_id, count(*) as num from student_info group by student_id order by create_time limit 10;

得到的结果：

虽然我们创建了两个索引，但是实际上只用到了一个。这是因为语句的执行会先执行from，再执行group by，先用上了student_id，create_time索引没有使用上。

所以我们尝试使用联合索引：

alter table student_info add index idx_sid_ct(student_id,create_time);

再看一下执行结果：

select student_id, count(*) as num from student_info group by student_id order by create_time limit 10; +------------+-----+ | student_id | num | +------------+-----+ | 3952 | 6 | | 124349 | 4 | | 118976 | 7 | | 138265 | 4 | | 124642 | 5 | | 89124 | 9 | | 179451 | 11 | | 119525 | 6 | | 18656 | 5 | | 169505 | 12 | +------------+-----+ 10 rows in set (0.30 sec)

一个3.51sec，一个0.30 sec，可以看到差距还是非常大的。用EXPLAIN分析一下：

可以看到使用到了联合索引。因此，对于经常 GROUP BY 和 ORDER BY 的列，可以创建联合索引加快查询速度。同时要注意到，由于索引的最左匹配原则，创建联合索引时需要按照group by的字段，再order by的字段的顺序创建索引。

4. UPDATE、DELETE的WHERE条件列

我们先看一下对数据进行UPDATE的情况：把name为ETHDVR对应的student_id进行修改，没有对name进行索引时：

update student_info set student_id = 10002 where name = 'ETHDVR'; Query OK, 3 rows affected (0.56 sec)

创建索引：

alter table student_info add index idx_name(name);

再执行一次：

update student_info set student_id = 10003 where name = 'kmJuft'; Query OK, 3 rows affected (0.00 sec)

可以看到速度的提升还是非常大的。这是为什么呢？因为执行更新或删除时需要先根据where条件列检索，创建了索引的字段会更快被检索到，这样就能大幅提升效率。同时，如果进行更新的字段是非索引字段，效率会进一步提升，因为非索引字段不需要维护索引。

5. DISTINCT 字段创建索引

有时候我们需要对某个字段进行去重，使用 DISTINCT，那么对这个字段创建索引，也会提升查询效率。

比如，我们想要查询课程表中不同的 student_id 都有哪些，如果我们不适用 student_id 的索引，执行SQL 语句：

SELECT DISTINCT(student_id) FROM `student_info` use index();

运行结果：197959 rows in set (0.79 sec)

如果我们使用 student_id 索引，再执行 SQL 语句：

select distinct(student_id) from student_info use index(idx_sid);

运行结果：197959 rows in set (0.29 sec)

你能看到 SQL 查询效率有了提升，同时显示出来的 student_id 还是按照递增的顺序进行展示的。这是因为索引会对数据按照某种顺序进行排序，所以在去重的时候也会快很多。

6. 多表JOIN连接操作时，创建索引注意事项

首先，连接表的数量尽量不要超过 3 张，因为每增加一张表就相当于增加了一次嵌套的循环，数量级增

长会非常快，严重影响查询的效率。

其次，对 WHERE 条件创建索引，因为 WHERE 才是对数据条件的过滤。如果在数据量非常大的情况下，

没有 WHERE 条件过滤是非常可怕的。

最后，对用于连接的字段创建索引，并且该字段在多张表中的类型必须一致。比如 course_id 在 student_info 表和 course 表中都为 int(11) 类型，而不能一个为 int 另一个为 varchar 类型。

举个例子，首先我们在不使用name字段的索引，执行SQL语句：

SELECT c.course_id, name, s.student_id, course_name FROM student_info s ignore index(idx_name) JOIN course c ON s.course_id = c.course_id WHERE name = '462eed7ac6e791292a79';

执行结果：

Empty set (0.23 sec)

使用name字段的索引：

Empty set (0.00 sec) 7. 使用列的类型小的创建索引

这里说的类型大小就是该类型表示的数据范围大小。

这是因为：

数据类型越小，在查询时进行的比较操作越快数据类型越小，索引占用的空间就越小，就能降低磁盘I/O带来的消耗。 8. 使用字符串前缀创建索引

假设我们的字符串很长，那存储一个字符串就需要占用很大的存储空间。在我们需要为这个字符串列建立索引时，那就意味着在对应的B+树中有这么两个问题：

B+树索引中的记录需要把该列的完整字符串存储起来，更费时。而且字符串越长，在索引中占用的存储空间越大。如果B+树索引中索引列存储的字符串很长，那在做字符串比较时会占用更多的时间。

我们可以通过截取字段的前面一部分内容建立索引，这个就叫前缀索引。这样在查找记录时虽然不能精确的定位到记录的位置，但是能定位到相应前缀所在的位置，然后根据前缀相同的记录的主键值回表查询完整的字符串值。既节约空间，又减少了字符串的比较时间，还大体能解决排序的问题。

例如，TEXT和BLOG类型的字段，进行全文检索会很浪费时间，如果只检索字段前面的若干字符，这样可以提高检索速度。

创建一张商户表，只包含地址字段，因为地址字段比较长，所以我们想在地址字段上建立前缀索引：

create table shop(address varchar(120) not null);

问题是，截取多少呢？

alter table shop add index(address(???));

截取得多了，达不到节省索引存储空间的目的；截取得少了，重复内容太多，字段的散列度（选择性）会降低。怎么计算不同的长度的选择性呢？

先看一下字段在全部数据中的选择度公式：

select count(distinct address) / count(*) from shop;

不同长度的选择度的公式：

count(distinct left(列名, 索引长度))/count(*)

观察不同长度的选择度：

select count(distinct left(address,10)) / count(*) as sub10, -- 截取前10个字符的选择度 count(distinct left(address,15)) / count(*) as sub11, -- 截取前15个字符的选择度 count(distinct left(address,20)) / count(*) as sub12, -- 截取前20个字符的选择度 count(distinct left(address,25)) / count(*) as sub13 -- 截取前25个字符的选择度 from shop;

当然这里有优雅的方式，可以直接生成从1到10的选择度，可以通过修改limit获得任意长度字符的选择度。

SELECT R, COUNT(DISTINCT LEFT(address, R)) / COUNT(*) FROM ( SELECT @rownum:=@rownum+1 AS R FROM (SELECT @rownum:=0) r, shop limit 10 ) AS derived, address GROUP BY R;

于是我们就可以参照上述结果，选择适合的长度。如果选择度高达90%以上，就可以选择该长度。

【强制】在 varchar 字段上建立索引时，必须指定索引长度，没必要对全字段建立索引，根据实际文本区分度决定索引长度即可。

说明：索引的长度与区分度是一对矛盾体，一般对字符串类型数据，长度为 20 的索引，区分度会高达90%以上，可以使用 count(distinct left(列名, 索引长度))/count(*)的区分度来确定。

引申另一个问题：索引列前缀对排序的影响

如果使用了索引列前缀，比如，只把address列的前5个字符放到了二级索引中：

alter table shop add index(address(5));

我们表中有一些数据

aaaaa123 aaaaa012 aaaaa000

我们想按照address进行排序

select * from shop order by address limit 3;

试想一下，如果索引列前缀能够帮助我们排序，由于它只能对前5个字符创建了索引，后面的字符会被它忽略，所以在它眼里，这三个数据是一样的。那么就无法正常排序了，因此，使用索引列前缀的方式无法支持使用索引排序，但我们要求有序，就只能使用文件排序了。

同时执行计划也能证明我们的想法，

可以看到使用的就是文件排序。

9. 区分度高（散列性高）的列适合作为索引

列的重复度越低越适合建立索引。可以使用select count(distinct c1)/count(*) from t1，计算区分度，思想和上面的一样。

10. 使用最频繁的列放到联合索引的左侧

这样也可以较少的建立一些索引。同时，由于"最左前缀原则"，可以增加联合索引的使用率。

11. 在多个字段都要创建索引的情况下，联合索引优于单值索引索引太多维护麻烦三、限制索引的数目

在实际工作中，我们也需要平衡，索引的数据不是越多越好。我们需要限制每张表上的索引数量，建议单张表的索引数量不超过6个。原因如下：

索引越多，占用的磁盘空间越大修改表中的数据会调整和更新索引，影响性能优化器在优化查询时，会对每一个用到的索引进行评估，索引越多会增加优化器生成执行计划的时间，减低查询性能四、哪些情况不适合创建索引 1. 在where用不到的字段，不要设置索引

浪费

2. 数据量小的表最好不要使用索引

对查询效率的影响并不大，没必要。

3. 有大量重复数据的列上不要建立索引

字段中如果有大量重复数据，也不需要创建索引，因为不但不会提高查询效率，反而会严重降低数据更新速度。

下面举个例子：

假设有一个学生表，学生总数为 100 万人，男性只有 10 个人，也就是占总人口的 10 万分之 1。学生表 student_gender 结构如下。其中数据表中的 student_gender 字段取值为 0 或 1，0 代表女性，1 代表男性。

CREATE TABLE student_gender( student_id INT(11) NOT NULL, student_name VARCHAR(50) NOT NULL, student_gender TINYINT(1) NOT NULL, PRIMARY KEY(student_id) )ENGINE = INNODB AUTO_INCREMENT=1;

创建存储过程，

CREATE DEFINER=`root`@`%` PROCEDURE `insert_student`( max_num INT,gender INT ) BEGIN DECLARE i INT DEFAULT 0; SET autocommit = 0; #设置手动提交事务 REPEAT #循环 SET i = i + 1; #赋值 INSERT INTO student_gender (student_name ,student_gender ) VALUES (rand_string(6),gender); UNTIL i = max_num END REPEAT; COMMIT; #提交事务 END

调用存储过程，

call insert_student(999990,0); call insert_student(10,1);

如果我们要筛选出这个学生表中的女性，可以使用：

SELECT * FROM student_gender WHERE student_gender = 0;

999990条数据，查询时间0.932s

接下来我们创建索引，

alter table student_gender add index idx_gender(student_gender);

999990条数据，查询时间2.207s

意想不到，加了索引去查询，却更加耗时了。这是为什么呢？很明显，由于数据重复量多，查询非聚簇索引后还要回表查询，想比直接查询更加耗时，因此对于字段中有大量重复数据的，还是不要添加索引。

4. 避免对经常更新的表创建过多的索引

第一层含义：频繁更新的字段不一定要创建索引。因为在更新数据的时候，也需要更新索引。如果索引太多，在更新索引的时候也会造成负担，从而影响效率。

第二层含义：避免对经常更新的表创建过多的索引，并且索引中的列尽可能少。此时，虽然提高了查询速度，同时却会降低更新表的速度。

5. 不建议用无序的值作为索引

例如身份证，UUID（在索引比较时需要转为ASCII，并且插入时可能会造成页分裂）、MD5、HASH、无序长字符串等。

6. 删除不再使用或者很少使用的索引

表中的数据被大量更新，或者数据的使用方式被改变后，原有的一些索引可能不再需要。数据库管理员应当定期找出这些索引，将它们删除，从而减少索引对更新操作的影响。

7. 不要定义冗余或重复的索引

1. 冗余索引

举例：建表语句如下

CREATE TABLE person_info( id INT UNSIGNED NOT NULL AUTO_INCREMENT, name VARCHAR(100) NOT NULL, birthday DATE NOT NULL, phone_number CHAR(11) NOT NULL, country varchar(100) NOT NULL, PRIMARY KEY (id), KEY idx_name_birthday_phone_number (name(10), birthday, phone_number), KEY idx_name (name(10)) );

我们知道，通过idx_name_birthday_phone_number索引就可以对 name 列进行快速搜索，再创建一个专门针对 name 列的索引就算是一个冗余索引，维护这个索引只会增加维护的成本，并不会对搜索有什么好处。

2. 重复索引

另一种情况，我们可能会对某个列重复建立索引，比方说这样：

CREATE TABLE repeat_index_demo ( col1 INT PRIMARY KEY, col2 INT, UNIQUE uk_idx_c1 (col1), INDEX idx_c1 (col1) );

我们看到，col1 既是主键、又给它定义为一个唯一索引，还给它定义了一个普通索引，可是主键本身就会生成聚簇索引，所以定义的唯一索引和普通索引是重复的，这种情况要避免。

参考资料 MySQL数据库教程天花板，mysql安装到mysql高级，强！硬！

【本文地址】

公司简介

联系我们