深入理解MySQL索引原理

博主： wuqiyin
发布时间：2022 年 08 月 03 日
1588 次浏览
暂无评论
13582字数
分类： Mysql

表索引的目的

索引就是为表建立目录
索引的目的是防止全表扫描
索引的存储形式是由存储引擎决定的

索引分类

数据结构上分

从数据结构上，mysql的索引大致可以分为：

B+Tree索引，适合范围查找
Hash索引，适用于精准匹配
full-index全文索引，一般用于类似百度的关键词搜索
R-tree索引，一般用于GS地理坐标

但是需要注意的是：并不是每一种存储引擎支持这四种索引。

innodb中的B+Tree

InnoDB 只有一个文件（.ibd文件），那索引放在哪里呢？在InnoDB 里面，它是以主键为索引来组织数据的存储的，所以索引文件和数据文件是同一个文件，都在.ibd文件里面。在InnoDB的主键索引的叶子节点上，它直接存储了我们的数据。

先创建一张商品表，id 为主键，如下：

CREATE TABLE `product`  (
  `id` int(11) NOT NULL,
  `product_no` varchar(20)  DEFAULT NULL,
  `name` varchar(255) DEFAULT NULL,
  `price` decimal(10, 2) DEFAULT NULL,
  PRIMARY KEY (`id`) USING BTREE
) CHARACTER SET = utf8 COLLATE = utf8_general_ci ROW_FORMAT = Dynamic;

商品表里，有这些行数据：

这些行数据，存储在 B+Tree 索引时是长什么样子的？

B+Tree 是一种多叉树，叶子节点才存放数据，非叶子节点只存放索引，而且每个节点里的数据是按主键顺序存放的。每一层父节点的索引值都会出现在下层子节点的索引值中，因此在叶子节点中，包括了所有的索引值信息，并且每一个叶子节点都指向下一个叶子节点，形成一个链表。

主键索引的 B+Tree 如图所示：

通过主键查询商品数据的过程

比如，我们执行了下面这条查询语句，这条语句使用了主键索引查询 id 号为 5 的商品。查询过程是这样的，B+Tree 会自顶向下逐层进行查找：

将 5 与根节点的索引数据 (1，10，20) 比较，5 在 1 和 10 之间，所以根据 B+Tree的搜索逻辑，找到第二层的索引数据 (1，4，7)；
在第二层的索引数据 (1，4，7)中进行查找，因为 5 在 4 和 7 之间，所以找到第三层的索引数据（4，5，6）；
在叶子节点的索引数据（4，5，6）中进行查找，然后我们找到了索引值为 5 的行数据。

数据库的索引和数据都是存储在硬盘的，我们可以把读取一个节点当作一次磁盘 I/O 操作。那么上面的整个查询过程一共经历了 3 个节点，也就是进行了 3 次 I/O 操作。

B+Tree 存储千万级的数据只需要 3-4 层高度就可以满足，这意味着从千万级的表查询目标数据最多需要 3-4 次磁盘 I/O，所以 B+Tree 相比于 B 树和二叉树来说，最大的优势在于查询效率很高，因为即使在数据量很大的情况，查询一个数据的磁盘 I/O 依然维持在 3-4次 。

通过二级索引查询商品数据的过程

主键索引的 B+Tree 和二级索引的 B+Tree 区别如下：

主键索引的 B+Tree 的叶子节点存放的是实际数据，所有完整的用户记录都存放在主键索引的 B+Tree 的叶子节点里；
二级索引的 B+Tree 的叶子节点存放的是主键值，而不是实际数据。

我这里将前面的商品表中的 product_no （商品编码）字段设置为二级索引，那么二级索引的 B+Tree 如下图，其中非叶子的 key 值是 product_no（图中橙色部分），叶子节点存储的数据是主键值（图中绿色部分）。

如果我用 product_no 二级索引查询商品，如下查询语句：

select * from product where product_no = '0002';

会先检二级索引中的 B+Tree 的索引值（商品编码，product_no），找到对应的叶子节点，然后获取主键值，然后再通过主键索引中的 B+Tree 树查询到对应的叶子节点，然后获取整行数据。这个过程叫「回表」，也就是说要查两个 B+Tree 才能查到数据。如下图：

不过，当查询的数据是能在二级索引的 B+Tree 的叶子节点里查询到，这时就不用再查主键索引查，比如下面这条查询语句：

select id from product where product_no = '0002';

这种在二级索引的 B+Tree 就能查询到结果的过程就叫作「覆盖索引」，也就是只需要查一个 B+Tree 就能找到数据。

为什么 MySQL InnoDB 选择 B+tree 作为索引的数据结构？

前面已经讲了 B+Tree 的索引原理，现在就来回答一下 B+Tree 相比于 B 树(也就是B-Tree,B_tree)、二叉树或 Hash 索引结构的优势在哪儿？
1、B+Tree vs B Tree
B+Tree 只在叶子节点存储数据，而 B 树的非叶子节点也要存储数据，所以 B+Tree 的单个节点的数据量更小，在相同的磁盘 I/O 次数下，就能查询更多的节点。

另外，B+Tree 叶子节点采用的是双链表连接，有顺序，适合 MySQL 中常见的基于范围的顺序查找，而 B 树无法做到这一点。
2、B+Tree vs 二叉树
对于有 N 个叶子节点的 B+Tree，其搜索复杂度为O(logdN)，其中 d 表示节点允许的最大子节点个数为 d 个。

在实际的应用当中， d 值是大于100的，这样就保证了，即使数据达到千万级别时，B+Tree 的高度依然维持在 3~4 层左右，也就是说一次数据查询操作只需要做 3~4 次的磁盘 I/O 操作就能查询到目标数据。

而二叉树的每个父节点的儿子节点个数只能是 2 个，意味着其搜索复杂度为 O(logN)，这已经比 B+Tree 高出不少，因此二叉树检索到目标数据所经历的磁盘 I/O 次数要更多
3、B+Tree vs Hash
Hash 在做等值查询的时候效率贼快，搜索复杂度为 O(1)。

但是 Hash 表不适合做范围查询，它更适合做等值的查询，这也是 B+Tree 索引要比 Hash 表索引有着更广泛的适用场景的原因。

TIPS：官方建议使用自增长的主键作为索引：

插入操作，修改索引文件的代价很小，局部从算就好了
如果修改name这样的B+tree索引文件，代价很大，要全局重算

myisam中的B+tree

在MyISAM里面，另外有两个文件：

MYD文件，D代表Data，是MyISAM的数据文件，存放数据记录。
MYI文件，I代表Index，是MyISAM的索引文件，存放索引，比如我们在id字段上面创建了一个主键索引，那么主键索引就是在这个索引文件里面。

也就是说，在MyISAM里面，索引和数据是两个独立的文件。那我们怎么根据索引找到数据呢

MyISAM的B+Tree 里面，叶子节点存储的是数据文件对应的磁盘地址(不管是主键索引还是其它索引，存的都是地址，非聚集的)。所以从索引文件.MYI中找到键值后，会到数据文件.MYD中获取相应的数据记录。

按字段特性分类

从字段特性的角度来看，索引分为主键索引、唯一索引、普通索引、前缀索引。

主键索引

主键索引就是建立在主键字段上的索引，通常在创建表的时候一起创建，一张表最多只有一个主键索引，索引列的值不允许有空值。

唯一索引

唯一索引建立在 UNIQUE 字段上的索引，一张表可以有多个唯一索引，索引列的值必须唯一，但是允许有空值。

普通索引

普通索引就是建立在普通字段上的索引，既不要求字段为主键，也不要求字段为 UNIQUE。

前缀索引

前缀索引是指对字符类型字段的前几个字符建立的索引，而不是在整个字段上建立的索引，前缀索引可以建立在字段类型为 char、 varchar、binary、varbinary 的列上。
使用前缀索引的目的是为了减少索引占用的存储空间，提升查询效率。

按字段个数分类

从字段个数的角度来看，索引分为单列索引、联合索引（复合索引）。

单列索引

建立在单列上的索引称为单列索引，比如主键索引；

联合索引

通过将多个字段组合成一个索引，该索引就被称为联合索引。
比如，将商品表中的 product_no 和 name 字段组合成联合索引(product_no, name)，创建联合索引的方式如下：

CREATE INDEX index_product_no_name ON product(product_no, name);

联合索引(product_no, name) 的 B+Tree 示意图如下：

可以看到，联合索引的非叶子节点用两个字段的值作为 B+Tree 的 key 值。当在联合索引查询数据时，先按 product_no 字段比较，在 product_no 相同的情况下再按 name 字段比较。

也就是说，联合索引查询的 B+Tree 是先按 product_no 进行排序，然后再 product_no 相同的情况再按 name 字段排序。

因此，使用联合索引时，存在 最左匹配原则 ，也就是按照最左优先的方式进行索引的匹配。在使用联合索引进行查询的时候，如果不遵循「最左匹配原则」，联合索引会失效，这样就无法利用到索引快速查询的特性了。

比如，如果创建了一个 (a, b, c) 联合索引，如果查询条件是以下这几种，就可以匹配上联合索引：

where a=1；
where a=1 and b=2 and c=3；
where a=1 and b=2；

需要注意的是，因为有查询优化器，所以 a 字段在 where 子句的顺序并不重要。

但是，如果查询条件是以下这几种，因为不符合最左匹配原则，所以就无法匹配上联合索引，联合索引就会失效:

where b=2；
where c=3；
where b=2 and c=3；

上面这些查询条件之所以会失效，是因为(a, b, c) 联合索引，是先按 a 排序，在 a 相同的情况再按 b 排序，在 b 相同的情况再按 c 排序。所以，b 和 c 是全局无序，局部相对有序的，这样在没有遵循最左匹配原则的情况下，是无法利用到索引的。

我这里举联合索引（a，b）的例子，该联合索引的 B+ Tree 如下：

可以看到，a 是全局有序的（1, 2, 2, 3, 4, 5, 6, 7 ,8），而 b 是全局是无序的（12，7，8，2，3，8，10，5，2）。因此，直接执行where b = 2这种查询条件没有办法利用联合索引的，利用索引的前提是索引里的 key 是有序的。

只有在 a 相同的情况才，b 才是有序的，比如 a 等于 2 的时候，b 的值为（7，8），这时就是有序的，这个有序状态是局部的，因此，执行where a = 2 and b = 7是 a 和 b 字段能用到联合索引的，也就是联合索引生效了。

使用联合索引进行范围查询

联合索引有一些特殊情况，并不是查询过程使用了联合索引查询，就代表联合索引中的所有字段都用到了联合索引进行索引查询，也就是可能存在部分字段用到联合索引的 B+Tree，部分字段没有用到联合索引的 B+Tree 的情况。

这种特殊情况就发生在范围查询。联合索引的最左匹配原则会一直向右匹配直到遇到「范围查询」就会停止匹配。也就是范围查询的字段可以用到联合索引，但是在范围查询字段的后面的字段无法用到联合索引。

范围查询有很多种，那到底是哪些范围查询会导致联合索引的最左匹配原则会停止匹配呢？
接下来，举例几个范围查例子。

Q1: select * from t_table where a > 1 and b = 2，联合索引（a, b）哪一个字段用到了联合索引的 B+Tree？

由于联合索引（二级索引）是先按照 a 字段的值排序的，所以符合 a > 1 条件的二级索引记录肯定是相邻，于是在进行索引扫描的时候，可以定位到符合 a > 1 条件的第一条记录，然后沿着记录所在的链表向后扫描，直到某条记录不符合 a > 1 条件位置。所以 a 字段可以在联合索引的 B+Tree 中进行索引查询。

但是在符合 a > 1 条件的二级索引记录的范围里，b 字段的值是无序的。比如前面图的联合索引的 B+ Tree 里，下面这三条记录的 a 字段的值都符合 a > 1 查询条件，而 b 字段的值是无序的：

a 字段值为 5 的记录，该记录的 b 字段值为 8；
a 字段值为 6 的记录，该记录的 b 字段值为 10；
a 字段值为 7 的记录，该记录的 b 字段值为 5；

因此，我们不能根据查询条件 b = 2 来进一步减少需要扫描的记录数量（b 字段无法利用联合索引进行索引查询的意思）。
所以在执行 Q1 这条查询语句的时候，对应的扫描区间是 (2, + ∞)，形成该扫描区间的边界条件是 a > 1，与 b = 2 无关。
因此，Q1 这条查询语句只有 a 字段用到了联合索引进行索引查询，而 b 字段并没有使用到联合索引。

我们也可以在执行计划中的 key_len 知道这一点，在使用联合索引进行查询的时候，通过 key_len 我们可以知道优化器具体使用了多少个字段的搜索条件来形成扫描区间的边界条件。

举例个例子，a 和 b 都是 int 类型且不为 NULL 的字段，那么 Q1 这条查询语句执行计划如下，可以看到 key_len 为 4 字节（如果字段允许为 NULL，就在字段类型占用的字节数上加 1，也就是 5 字节），说明只有 a 字段用到了联合索引进行索引查询，而且可以看到，即使 b 字段没用到联合索引，key 为 idx_a_b，说明 Q1 查询语句使用了 idx_a_b 联合索引。

通过 Q1 查询语句我们可以知道，a 字段使用了 > 进行范围查询，联合索引的最左匹配原则在遇到 a 字段的范围查询（ >）后就停止匹配了，因此 b 字段并没有使用到联合索引。

Q2: select * from t_table where a >= 1 and b = 2，联合索引（a, b）哪一个字段用到了联合索引的 B+Tree？

Q2 和 Q1 的查询语句很像，唯一的区别就是 a 字段的查询条件「大于等于」。

由于联合索引（二级索引）是先按照 a 字段的值排序的，所以符合 >= 1 条件的二级索引记录肯定是相邻，于是在进行索引扫描的时候，可以定位到符合 >= 1 条件的第一条记录，然后沿着记录所在的链表向后扫描，直到某条记录不符合 a>= 1 条件位置。所以 a 字段可以在联合索引的 B+Tree 中进行索引查询。

虽然在符合 a>= 1 条件的二级索引记录的范围里，b 字段的值是「无序」的，但是对于符合 a = 1 的二级索引记录的范围里，b 字段的值是「有序」的（因为对于联合索引，是先按照 a 字段的值排序，然后在 a 字段的值相同的情况下，再按照 b 字段的值进行排序）。

于是，在确定需要扫描的二级索引的范围时，当二级索引记录的 a 字段值为 1 时，可以通过 b = 2 条件减少需要扫描的二级索引记录范围（b 字段可以利用联合索引进行索引查询的意思）。也就是说，从符合 a = 1 and b = 2 条件的第一条记录开始扫描，而不需要从第一个 a 字段值为 1 的记录开始扫描。

所以，Q2 这条查询语句 a 和 b 字段都用到了联合索引进行索引查询。

我们也可以在执行计划中的 key_len 知道这一点。执行计划如下，可以看到 key_len 为 8 字节，说明优化器使用了 2 个字段的查询条件来形成扫描区间的边界条件，也就是 a 和 b 字段都用到了联合索引进行索引查询。

通过 Q2 查询语句我们可以知道，虽然 a 字段使用了 >= 进行范围查询，但是联合索引的最左匹配原则并没有在遇到 a 字段的范围查询（ >=）后就停止匹配了，b 字段还是可以用到了联合索引的。

Q3: SELECT * FROM t_table WHERE a BETWEEN 2 AND 8 AND b = 2，联合索引（a, b）哪一个字段用到了联合索引的 B+Tree？

Q3 查询条件中 a BETWEEN 2 AND 8 的意思是查询 a 字段的值在 2 和 8 之间的记录。不同的数据库对 BETWEEN ... AND 处理方式是有差异的。在 MySQL 中，BETWEEN 包含了 value1 和 value2 边界值，类似于 >= and =<。而有的数据库则不包含 value1 和 value2 边界值（类似于 > and <）。

这里我们只讨论 MySQL。由于 MySQL 的 BETWEEN 包含 value1 和 value2 边界值，所以类似于 Q2 查询语句，因此 Q3 这条查询语句 a 和 b 字段都用到了联合索引进行索引查询。

通过 Q3 查询语句我们可以知道，虽然 a 字段使用了 BETWEEN 进行范围查询，但是联合索引的最左匹配原则并没有在遇到 a 字段的范围查询（ BETWEEN）后就停止匹配了，b 字段还是可以用到了联合索引的。

Q4: SELECT * FROM t_user WHERE name like 'j%' and age = 22，联合索引（name, age）哪一个字段用到了联合索引的 B+Tree？

由于联合索引（二级索引）是先按照 name 字段的值排序的，所以前缀为 ‘j’ 的 name 字段的二级索引记录都是相邻的，于是在进行索引扫描的时候，可以定位到符合前缀为 ‘j’ 的 name 字段的第一条记录，然后沿着记录所在的链表向后扫描，直到某条记录的 name 前缀不为 ‘j’ 为止。

所以 a 字段可以在联合索引的 B+Tree 中进行索引查询，形成的扫描区间是['j','k')。注意， j 是闭区间。如下图：

虽然在符合前缀为 ‘j’ 的 name 字段的二级索引记录的范围里，age 字段的值是「无序」的，但是对于符合 name = j 的二级索引记录的范围里，age字段的值是「有序」的（因为对于联合索引，是先按照 name 字段的值排序，然后在 name 字段的值相同的情况下，再按照 age 字段的值进行排序）。

于是，在确定需要扫描的二级索引的范围时，当二级索引记录的 name 字段值为 ‘j’ 时，可以通过 age = 22 条件减少需要扫描的二级索引记录范围（age 字段可以利用联合索引进行索引查询的意思）。也就是说，从符合 name = 'j' and age = 22 条件的第一条记录时开始扫描，而不需要从第一个 name 为 j 的记录开始扫描。如下图的右边：

所以，Q4 这条查询语句 a 和 b 字段都用到了联合索引进行索引查询。
我们也可以在执行计划中的 key_len 知道这一点。本次例子中：

name 字段的类型是 varchar(30) 且不为 NULL，数据库表使用了 utf8mb4 字符集，一个字符集为 utf8mb4 的字符是 4 个字节，因此 name 字段的实际数据最多占用的存储空间长度是 120 字节（30 x 4），然后因为 name 是变长类型的字段，需要再加 2，也就是 name 的 key_len 为 122。
age 字段的类型是 int 且不为 NULL，key_len 为 4。

Q4 查询语句的执行计划如下，可以看到 key_len 为 126 字节，name 的 key_len 为 122，age 的 key_len 为 4，说明优化器使用了 2 个字段的查询条件来形成扫描区间的边界条件，也就是 name 和 age 字段都用到了联合索引进行索引查询。

通过 Q4 查询语句我们可以知道，虽然 name 字段使用了 like 前缀匹配进行范围查询，但是联合索引的最左匹配原则并没有在遇到 name 字段的范围查询（ like 'j%'）后就停止匹配了，age 字段还是可以用到了联合索引的。

综上所示，联合索引的最左匹配原则，在遇到范围查询（如 >、<）的时候，就会停止匹配，也就是范围查询的字段可以用到联合索引，但是在范围查询字段的后面的字段无法用到联合索引。注意，对于 >=、<=、BETWEEN、like 前缀匹配的范围查询，并不会停止匹配，前面我也用了四个例子说明了。

索引下推

现在我们知道，对于联合索引（a, b），在执行 select * from table where a > 1 and b = 2 语句的时候，只有 a 字段能用到索引，那在联合索引的 B+Tree 找到第一个满足条件的主键值（ID 为 2）后，还需要判断其他条件是否满足（看 b 是否等于 2），那是在联合索引里判断？还是回主键索引去判断呢？

在 MySQL 5.6 之前，只能从 ID2 （主键值）开始一个个回表，到「主键索引」上找出数据行，再对比 b 字段值。
而 MySQL 5.6 引入的索引下推优化（index condition pushdown)，可以在联合索引遍历过程中，对联合索引中包含的字段先做判断，直接过滤掉不满足条件的记录，减少回表次数。

当你的查询语句的执行计划里，出现了 Extra 为 Using index condition，那么说明使用了索引下推的优化。

索引区分度

另外，建立联合索引时的字段顺序，对索引效率也有很大影响。越靠前的字段被用于索引过滤的概率越高，实际开发工作中建立联合索引时，要把区分度大的字段排在前面，这样区分度大的字段越有可能被更多的 SQL 使用到。

区分度就是某个字段 column 不同值的个数「除以」表的总行数，计算公式如下：

比如，性别的区分度就很小，不适合建立索引或不适合排在联合索引列的靠前的位置，而 UUID 这类字段就比较适合做索引或排在联合索引列的靠前的位置。

因为如果索引的区分度很小，假设字段的值分布均匀，那么无论搜索哪个值都可能得到一半的数据。在这些情况下，还不如不要索引，因为 MySQL 还有一个查询优化器，查询优化器发现某个值出现在表的数据行中的百分比（惯用的百分比界线是"30%"）很高的时候，它一般会忽略索引，进行全表扫描。

联合索引进行排序

这里出一个题目，针对针对下面这条 SQL，你怎么通过索引来提高查询效率呢？

select * from order where status = 1 order by create_time asc

有的同学会认为，单独给 status 建立一个索引就可以了。

但是更好的方式给 status 和 create_time 列建立一个联合索引，因为这样可以避免 MySQL 数据库发生文件排序。

因为在查询时，如果只用到 status 的索引，但是这条语句还要对 create_time 排序，这时就要用文件排序 filesort，也就是在 SQL 执行计划中，Extra 列会出现 Using filesort。

所以，要利用索引的有序性，在 status 和 create_time 列建立联合索引，这样根据 status 筛选后的数据就是按照 create_time 排好序的，避免在文件排序，提高了查询效率。

数据物理顺序上划分

除了 聚集索引 ，其它索引都属于 辅助索引 （Secondary Index），也被称为 二级索引或非聚簇索引 。创建的主键索引和二级索引默认使用的是 B+Tree 索引。

聚集索引
二级辅助索引

什么叫做聚集索引？

就是索引键值的逻辑顺序跟表数据行的物理存储顺序是一致的（好比页码和书本内容，页码就是聚集索引）。在InnoDB里面，是通过聚集索引组织表来组织表数据的，所以一张表有且仅有一个聚集索引，这棵B+树的叶子节点上存放着具体数据内容。通常是用自增加主键id作为聚集索引，这样值不会重复，并且逻辑顺序和物理顺序是一致的。

那如果一张表没有主键怎么办？

如果有主键，默认会使用主键作为聚簇索引的索引键（key）
如果没有主键，就选择第一个不包含 NULL 值的唯一列作为聚簇索引的索引键（key）；
在上面两个都没有的情况下，InnoDB 将自动生成一个隐式自增 id 列作为聚簇索引的索引键（key）；

聚集索引是如何提高查询效率的？

因为物理顺序和索引列的逻辑顺序是一样的，所以对于范围查找，只需要先找到第一个数据，然后按顺序取出数据，直到值等于末尾的哪个数据为止，可以减少磁盘的io操作。

聚集索引和非聚集区别？

物理存储顺序和磁盘顺序是否一致
innodb的数据是直接放在聚集索引的叶子节点上的，非聚集索引叶子节点上只存放主键id

所以，在查询时使用了二级索引，如果查询的数据能在二级索引里查询的到，那么就不需要回表，这个过程就是覆盖索引。如果查询的数据不在二级索引里，就会先检索二级索引，找到对应的叶子节点，获取到主键值后，然后再检索主键索引，就能查询到数据了，这个过程就是回表。

B+Tree索引

mysql中的innodb和myisam采用的就是B+tree索引
B+Tree索引采用 树形链表结构 建立数据目录

Btree索引使用技巧

数值字段索引

查看sql的执行计划explain，首先给id创建btree索引：

-- innodb和myisam默认都是btree索引
alter table t_content add index idx_uid (`uid`);

btree索引是支持精准匹配的，精准匹配id = 1的数据，执行如下语句会发现key字段是idx_uid

explain select * from t_content where id =1;

btree索引，支持范围匹配，执行如下语句会发现key字段是idx_uid

explain select * from t_content where id > 1 and id < 100;

查询优化器会自动进行类型转换，但仍然建议使用与定义相符的类型，因为转换过程也需要消耗资源，执行如下语句会发现key字段是idx_uid

explain select * from t_content where id ="1";

有时候会想要查询10开头的数字，这么写的话就没办法使用索引了，因为字段是数字类型，查询却是字符串类型，没办法使用索引

explain select * from t_content where id like "10%";

字符串字段索引

给字符串字段创建索引

alter table t_content add index idx_url(`url`);

字符串字段btree索引允许进行“前缀查询”，如下可以用到索引idx_url

-- 这种即使建立了索引，由于选择性太低，几乎所有的网址都是http开头的，所以mysql干脆不走索引
explain select * from t_content where url like "http%";
-- 这种就会用到索引
explain select * from t_content where url like "https://www.pdfqupu.com/arch/1.html%";

后缀查询和模糊匹配，btree均不支持，以下查询无法用到idx_url索引

-- 后缀查询
explain select * from t_content where url like "%pdfqupu.com";
-- 模糊匹配 
explain select * from t_content where url like "%pdfqupu%";

使用like查询很难进行sql优化，所以对于字符串查询要求高的，最好用elasticseach进行查询

复合索引

创建多字段索引，右侧的索引要依赖于左侧的索引，左侧前头的字段最好选择要高，比如主键，每一行都不一样，这样效率才会高

alter table t_content add index idx_content(id,source_id);

符合索引的查询条件必须包含左侧列，如下包含了左侧列id，所以会用到idx_content索引

explain select * from t_content where id = 100;

直接写右侧列，将导致索引无法使用

explain select * from t_content where source_id = 100;

不等

<>，和not in，将导致不使用索引,无论怎么优化，都不会使用索引

explain select * from t_content where source_id <> 100;

这种有个变通，这也要看实际情况，如果结果的数据太多，mysql会觉得还不如全表扫描。

explain select * from t_content where source_id < 100 and source > 100;

最后修改：2024 年 03 月 02 日

如果觉得我的文章对你有用，请随意赞赏

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

评论 *

私密评论

名称 *

🎲

邮箱 *

地址

深入理解MySQL索引原理

wuqiyin • 2022 年 08 月 03 日

<h2>表索引的目的</h2>
<ol>
<li>索引就是为表建立目录</li>
<li>索引的目的是防止全表扫描</li>
<li>索引的存储形式是由存储引擎决定的</li>
</ol>
<h2>索引分类</h2>
<h3>数据结构上分</h3>
从数据结构上，mysql的索引大致可以分为：
<ol>
<li>B+Tree索引，适合范围查找</li>
<li>Hash索引，适用于精准匹配</li>
<li>full-index全文索引，一般用于类似百度的关键词搜索</li>
<li>R-tree索引，一般用于GS地理坐标</li>
</ol>
但是需要注意的是：并不是每一种存储引擎支持这四种索引。 
<h4>innodb中的B+Tree</h4>
InnoDB 只有一个文件（.ibd文件），那索引放在哪里呢？在InnoDB 里面，它是以主键为索引来组织数据的存储的，所以索引文件和数据文件是同一个文件，都在.ibd文件里面。在InnoDB的主键索引的叶子节点上，它直接存储了我们的数据。
先创建一张商品表，id 为主键，如下：
<pre><code class="language-sql">CREATE TABLE `product` (
 `id` int(11) NOT NULL,
 `product_no` varchar(20) DEFAULT NULL,
 `name` varchar(255) DEFAULT NULL,
 `price` decimal(10, 2) DEFAULT NULL,
 PRIMARY KEY (`id`) USING BTREE
) CHARACTER SET = utf8 COLLATE = utf8_general_ci ROW_FORMAT = Dynamic;</code></pre>
商品表里，有这些行数据： 
<img src="https://www.xiaoqiuyinboke.cn/usr/uploads/2022/10/2464816913.png" alt="l9gu52gy.png" loading="lazy" style="">
<blockquote>
这些行数据，存储在 B+Tree 索引时是长什么样子的？
</blockquote>
B+Tree 是一种多叉树，叶子节点才存放数据，非叶子节点只存放索引，而且每个节点里的数据是按主键顺序存放的。每一层父节点的索引值都会出现在下层子节点的索引值中，因此在叶子节点中，包括了所有的索引值信息，并且每一个叶子节点都指向下一个叶子节点，形成一个链表。
主键索引的 B+Tree 如图所示： 
<img src="https://www.xiaoqiuyinboke.cn/usr/uploads/2022/10/1116647248.png" alt="l9gu6dht.png" loading="lazy" style="">
<blockquote>
通过主键查询商品数据的过程
</blockquote>
比如，我们执行了下面这条查询语句，这条语句使用了主键索引查询 id 号为 5 的商品。查询过程是这样的，B+Tree 会自顶向下逐层进行查找：
<ol>
<li>将 5 与根节点的索引数据 (1，10，20) 比较，5 在 1 和 10 之间，所以根据 B+Tree的搜索逻辑，找到第二层的索引数据 (1，4，7)；</li>
<li>在第二层的索引数据 (1，4，7)中进行查找，因为 5 在 4 和 7 之间，所以找到第三层的索引数据（4，5，6）；</li>
<li>在叶子节点的索引数据（4，5，6）中进行查找，然后我们找到了索引值为 5 的行数据。</li>
</ol>
数据库的索引和数据都是存储在硬盘的，我们可以把读取一个节点当作一次磁盘 I/O 操作。那么上面的整个查询过程一共经历了 3 个节点，也就是进行了 3 次 I/O 操作。
B+Tree 存储千万级的数据只需要 3-4 层高度就可以满足，这意味着从千万级的表查询目标数据最多需要 3-4 次磁盘 I/O，所以 B+Tree 相比于 B 树和二叉树来说，最大的优势在于查询效率很高，因为即使在数据量很大的情况，查询一个数据的磁盘 I/O 依然维持在 3-4次 。
<blockquote>
通过二级索引查询商品数据的过程
</blockquote>
主键索引的 B+Tree 和二级索引的 B+Tree 区别如下：
<ul>
<li>主键索引的 B+Tree 的叶子节点存放的是实际数据，所有完整的用户记录都存放在主键索引的 B+Tree 的叶子节点里；</li>
<li>二级索引的 B+Tree 的叶子节点存放的是主键值，而不是实际数据。</li>
</ul>
我这里将前面的商品表中的 product_no （商品编码）字段设置为二级索引，那么二级索引的 B+Tree 如下图，其中非叶子的 key 值是 product_no（图中橙色部分），叶子节点存储的数据是主键值（图中绿色部分）。 
<img src="https://www.xiaoqiuyinboke.cn/usr/uploads/2022/10/1009053086.png" alt="l9gu9um3.png" loading="lazy" style="">
如果我用 product_no 二级索引查询商品，如下查询语句：
<pre><code class="language-sql">select * from product where product_no = '0002';</code></pre>
会先检二级索引中的 B+Tree 的索引值（商品编码，product_no），找到对应的叶子节点，然后获取主键值，然后再通过主键索引中的 B+Tree 树查询到对应的叶子节点，然后获取整行数据。这个过程叫「回表」，也就是说要查两个 B+Tree 才能查到数据。如下图： 
<img src="https://www.xiaoqiuyinboke.cn/usr/uploads/2022/10/3514623562.png" alt="l9guci5k.png" loading="lazy" style="">
不过，当查询的数据是能在二级索引的 B+Tree 的叶子节点里查询到，这时就不用再查主键索引查，比如下面这条查询语句：
<pre><code class="language-sql">select id from product where product_no = '0002';</code></pre>
这种在二级索引的 B+Tree 就能查询到结果的过程就叫作「覆盖索引」，也就是只需要查一个 B+Tree 就能找到数据。
<blockquote>
为什么 MySQL InnoDB 选择 B+tree 作为索引的数据结构？
</blockquote>
前面已经讲了 B+Tree 的索引原理，现在就来回答一下 B+Tree 相比于 B 树(也就是B-Tree,B_tree)、二叉树或 Hash 索引结构的优势在哪儿？ 
1、B+Tree vs B Tree 
B+Tree 只在叶子节点存储数据，而 B 树 的非叶子节点也要存储数据，所以 B+Tree 的单个节点的数据量更小，在相同的磁盘 I/O 次数下，就能查询更多的节点。
另外，B+Tree 叶子节点采用的是双链表连接，有顺序，适合 MySQL 中常见的基于范围的顺序查找，而 B 树无法做到这一点。 
2、B+Tree vs 二叉树 
对于有 N 个叶子节点的 B+Tree，其搜索复杂度为O(logdN)，其中 d 表示节点允许的最大子节点个数为 d 个。
在实际的应用当中， d 值是大于100的，这样就保证了，即使数据达到千万级别时，B+Tree 的高度依然维持在 3~4 层左右，也就是说一次数据查询操作只需要做 3~4 次的磁盘 I/O 操作就能查询到目标数据。
而二叉树的每个父节点的儿子节点个数只能是 2 个，意味着其搜索复杂度为 O(logN)，这已经比 B+Tree 高出不少，因此二叉树检索到目标数据所经历的磁盘 I/O 次数要更多 
3、B+Tree vs Hash 
Hash 在做等值查询的时候效率贼快，搜索复杂度为 O(1)。
但是 Hash 表不适合做范围查询，它更适合做等值的查询，这也是 B+Tree 索引要比 Hash 表索引有着更广泛的适用场景的原因。
<blockquote>
TIPS：官方建议使用自增长的主键作为索引：
</blockquote>
<ol>
<li>插入操作，修改索引文件的代价很小，局部从算就好了</li>
<li>如果修改name这样的B+tree索引文件，代价很大，要全局重算</li>
</ol>
<h4>myisam中的B+tree</h4>
在MyISAM里面，另外有两个文件：
<ul>
<li>MYD文件，D代表Data，是MyISAM的数据文件，存放数据记录。</li>
<li>MYI文件，I代表Index，是MyISAM的索引文件，存放索引，比如我们在id字段上面创建了一个主键索引，那么主键索引就是在这个索引文件里面。</li>
</ul>
<blockquote>
也就是说，在MyISAM里面，索引和数据是两个独立的文件。那我们怎么根据索引找到数据呢
</blockquote>
MyISAM的B+Tree 里面，叶子节点存储的是数据文件对应的磁盘地址(不管是主键索引还是其它索引，存的都是地址，非聚集的)。所以从索引文件.MYI中找到键值后，会到数据文件.MYD中获取相应的数据记录。 
<img src="https://www.xiaoqiuyinboke.cn/usr/uploads/2022/08/1739043545.png" alt="l6doypei.png" loading="lazy" style="">
<h3>按字段特性分类</h3>
从字段特性的角度来看，索引分为主键索引、唯一索引、普通索引、前缀索引。
<h4>主键索引</h4>
主键索引就是建立在主键字段上的索引，通常在创建表的时候一起创建，一张表最多只有一个主键索引，索引列的值不允许有空值。
<h4>唯一索引</h4>
唯一索引建立在 UNIQUE 字段上的索引，一张表可以有多个唯一索引，索引列的值必须唯一，但是允许有空值。
<h4>普通索引</h4>
普通索引就是建立在普通字段上的索引，既不要求字段为主键，也不要求字段为 UNIQUE。
<h4>前缀索引</h4>
前缀索引是指对字符类型字段的前几个字符建立的索引，而不是在整个字段上建立的索引，前缀索引可以建立在字段类型为 char、 varchar、binary、varbinary 的列上。 
使用前缀索引的目的是为了减少索引占用的存储空间，提升查询效率。
<h3>按字段个数分类</h3>
从字段个数的角度来看，索引分为单列索引、联合索引（复合索引）。
<h4>单列索引</h4>
建立在单列上的索引称为单列索引，比如主键索引；
<h4>联合索引</h4>
通过将多个字段组合成一个索引，该索引就被称为联合索引。 
比如，将商品表中的 product_no 和 name 字段组合成联合索引(product_no, name)，创建联合索引的方式如下：
<pre><code class="language-sql">CREATE INDEX index_product_no_name ON product(product_no, name);</code></pre>
联合索引(product_no, name) 的 B+Tree 示意图如下： 
<img src="https://www.xiaoqiuyinboke.cn/usr/uploads/2022/10/2051409676.png" alt="l9hwdfcp.png" loading="lazy" style=""> 
可以看到，联合索引的非叶子节点用两个字段的值作为 B+Tree 的 key 值。当在联合索引查询数据时，先按 product_no 字段比较，在 product_no 相同的情况下再按 name 字段比较。
也就是说，联合索引查询的 B+Tree 是先按 product_no 进行排序，然后再 product_no 相同的情况再按 name 字段排序。
因此，使用联合索引时，存在 最左匹配原则 ，也就是按照最左优先的方式进行索引的匹配。在使用联合索引进行查询的时候，如果不遵循「最左匹配原则」，联合索引会失效，这样就无法利用到索引快速查询的特性了。
比如，如果创建了一个 (a, b, c) 联合索引，如果查询条件是以下这几种，就可以匹配上联合索引：
<pre><code class="language-sql">where a=1；
where a=1 and b=2 and c=3；
where a=1 and b=2；</code></pre>
需要注意的是，因为有查询优化器，所以 a 字段在 where 子句的顺序并不重要。
但是，如果查询条件是以下这几种，因为不符合最左匹配原则，所以就无法匹配上联合索引，联合索引就会失效:
<pre><code class="language-sql">where b=2；
where c=3；
where b=2 and c=3；</code></pre>
上面这些查询条件之所以会失效，是因为(a, b, c) 联合索引，是先按 a 排序，在 a 相同的情况再按 b 排序，在 b 相同的情况再按 c 排序。所以，b 和 c 是全局无序，局部相对有序的，这样在没有遵循最左匹配原则的情况下，是无法利用到索引的。
我这里举联合索引（a，b）的例子，该联合索引的 B+ Tree 如下： 
<img src="https://www.xiaoqiuyinboke.cn/usr/uploads/2022/10/2002846342.png" alt="l9hwn15t.png" loading="lazy" style=""> 
可以看到，a 是全局有序的（1, 2, 2, 3, 4, 5, 6, 7 ,8），而 b 是全局是无序的（12，7，8，2，3，8，10，5，2）。因此，直接执行where b = 2这种查询条件没有办法利用联合索引的，利用索引的前提是索引里的 key 是有序的。
只有在 a 相同的情况才，b 才是有序的，比如 a 等于 2 的时候，b 的值为（7，8），这时就是有序的，这个有序状态是局部的，因此，执行where a = 2 and b = 7是 a 和 b 字段能用到联合索引的，也就是联合索引生效了。
<h5>使用联合索引进行范围查询</h5>
联合索引有一些特殊情况， 并不是查询过程使用了联合索引查询，就代表联合索引中的所有字段都用到了联合索引进行索引查询，也就是可能存在部分字段用到联合索引的 B+Tree，部分字段没有用到联合索引的 B+Tree 的情况 。
这种特殊情况就发生在范围查询。联合索引的最左匹配原则会一直向右匹配直到遇到「范围查询」就会停止匹配。也就是范围查询的字段可以用到联合索引，但是在范围查询字段的后面的字段无法用到联合索引。
范围查询有很多种，那到底是哪些范围查询会导致联合索引的最左匹配原则会停止匹配呢？ 
接下来，举例几个范围查例子。
<blockquote>
Q1: select * from t_table where a &gt; 1 and b = 2，联合索引（a, b）哪一个字段用到了联合索引的 B+Tree？
</blockquote>
由于联合索引（二级索引）是先按照 a 字段的值排序的，所以符合 a &gt; 1 条件的二级索引记录肯定是相邻，于是在进行索引扫描的时候，可以定位到符合 a &gt; 1 条件的第一条记录，然后沿着记录所在的链表向后扫描，直到某条记录不符合 a &gt; 1 条件位置。所以 a 字段可以在联合索引的 B+Tree 中进行索引查询。
但是在符合 a &gt; 1 条件的二级索引记录的范围里，b 字段的值是无序的。比如前面图的联合索引的 B+ Tree 里，下面这三条记录的 a 字段的值都符合 a &gt; 1 查询条件，而 b 字段的值是无序的：
<ul>
<li>a 字段值为 5 的记录，该记录的 b 字段值为 8；</li>
<li>a 字段值为 6 的记录，该记录的 b 字段值为 10；</li>
<li>a 字段值为 7 的记录，该记录的 b 字段值为 5；</li>
</ul>
因此，我们不能根据查询条件 b = 2 来进一步减少需要扫描的记录数量（b 字段无法利用联合索引进行索引查询的意思）。 
所以在执行 Q1 这条查询语句的时候，对应的扫描区间是 (2, + ∞)，形成该扫描区间的边界条件是 a &gt; 1，与 b = 2 无关。 
因此，Q1 这条查询语句只有 a 字段用到了联合索引进行索引查询，而 b 字段并没有使用到联合索引。
我们也可以在执行计划中的 key_len 知道这一点，在使用联合索引进行查询的时候，通过 key_len 我们可以知道优化器具体使用了多少个字段的搜索条件来形成扫描区间的边界条件。
举例个例子 ，a 和 b 都是 int 类型且不为 NULL 的字段，那么 Q1 这条查询语句执行计划如下，可以看到 key_len 为 4 字节（如果字段允许为 NULL，就在字段类型占用的字节数上加 1，也就是 5 字节），说明只有 a 字段用到了联合索引进行索引查询，而且可以看到，即使 b 字段没用到联合索引，key 为 idx_a_b，说明 Q1 查询语句使用了 idx_a_b 联合索引。
<img src="https://www.xiaoqiuyinboke.cn/usr/uploads/2022/10/961059055.png" alt="l9hxlm3w.png" loading="lazy" style="">
通过 Q1 查询语句我们可以知道，a 字段使用了 &gt; 进行范围查询，联合索引的最左匹配原则在遇到 a 字段的范围查询（ &gt;）后就停止匹配了，因此 b 字段并没有使用到联合索引。
<blockquote>
Q2: select * from t_table where a &gt;= 1 and b = 2，联合索引（a, b）哪一个字段用到了联合索引的 B+Tree？
</blockquote>
Q2 和 Q1 的查询语句很像，唯一的区别就是 a 字段的查询条件「大于等于」。
由于联合索引（二级索引）是先按照 a 字段的值排序的，所以符合 &gt;= 1 条件的二级索引记录肯定是相邻，于是在进行索引扫描的时候，可以定位到符合 &gt;= 1 条件的第一条记录，然后沿着记录所在的链表向后扫描，直到某条记录不符合 a&gt;= 1 条件位置。所以 a 字段可以在联合索引的 B+Tree 中进行索引查询。
虽然在符合 a&gt;= 1 条件的二级索引记录的范围里，b 字段的值是「无序」的，但是对于符合 a = 1 的二级索引记录的范围里，b 字段的值是「有序」的（因为对于联合索引，是先按照 a 字段的值排序，然后在 a 字段的值相同的情况下，再按照 b 字段的值进行排序）。
于是，在确定需要扫描的二级索引的范围时，当二级索引记录的 a 字段值为 1 时，可以通过 b = 2 条件减少需要扫描的二级索引记录范围（b 字段可以利用联合索引进行索引查询的意思）。也就是说，从符合 a = 1 and b = 2 条件的第一条记录开始扫描，而不需要从第一个 a 字段值为 1 的记录开始扫描。
所以，Q2 这条查询语句 a 和 b 字段都用到了联合索引进行索引查询。
我们也可以在执行计划中的 key_len 知道这一点。执行计划如下，可以看到 key_len 为 8 字节，说明优化器使用了 2 个字段的查询条件来形成扫描区间的边界条件，也就是 a 和 b 字段都用到了联合索引进行索引查询。 
<img src="https://www.xiaoqiuyinboke.cn/usr/uploads/2022/10/654777072.png" alt="l9hxoyca.png" loading="lazy" style="">
通过 Q2 查询语句我们可以知道，虽然 a 字段使用了 &gt;= 进行范围查询，但是联合索引的最左匹配原则并没有在遇到 a 字段的范围查询（ &gt;=）后就停止匹配了，b 字段还是可以用到了联合索引的。
<blockquote>
Q3: SELECT * FROM t_table WHERE a BETWEEN 2 AND 8 AND b = 2，联合索引（a, b）哪一个字段用到了联合索引的 B+Tree？
</blockquote>
Q3 查询条件中 a BETWEEN 2 AND 8 的意思是查询 a 字段的值在 2 和 8 之间的记录。不同的数据库对 BETWEEN ... AND 处理方式是有差异的。在 MySQL 中，BETWEEN 包含了 value1 和 value2 边界值，类似于 &gt;= and =&lt;。而有的数据库则不包含 value1 和 value2 边界值（类似于 &gt; and &lt;）。
这里我们只讨论 MySQL。由于 MySQL 的 BETWEEN 包含 value1 和 value2 边界值，所以类似于 Q2 查询语句，因此 Q3 这条查询语句 a 和 b 字段都用到了联合索引进行索引查询。
我们也可以在执行计划中的 key_len 知道这一点。执行计划如下，可以看到 key_len 为 8 字节，说明优化器使用了 2 个字段的查询条件来形成扫描区间的边界条件，也就是 a 和 b 字段都用到了联合索引进行索引查询。 
<img src="https://www.xiaoqiuyinboke.cn/usr/uploads/2022/10/3389413303.png" alt="l9hxpk9i.png" loading="lazy" style="">
通过 Q3 查询语句我们可以知道，虽然 a 字段使用了 BETWEEN 进行范围查询，但是联合索引的最左匹配原则并没有在遇到 a 字段的范围查询（ BETWEEN）后就停止匹配了，b 字段还是可以用到了联合索引的。
<blockquote>
Q4: SELECT * FROM t_user WHERE name like 'j%' and age = 22，联合索引（name, age）哪一个字段用到了联合索引的 B+Tree？
</blockquote>
由于联合索引（二级索引）是先按照 name 字段的值排序的，所以前缀为 ‘j’ 的 name 字段的二级索引记录都是相邻的， 于是在进行索引扫描的时候，可以定位到符合前缀为 ‘j’ 的 name 字段的第一条记录，然后沿着记录所在的链表向后扫描，直到某条记录的 name 前缀不为 ‘j’ 为止。
所以 a 字段可以在联合索引的 B+Tree 中进行索引查询，形成的扫描区间是['j','k')。注意， j 是闭区间。如下图： 
<img src="https://www.xiaoqiuyinboke.cn/usr/uploads/2022/10/247080485.png" alt="l9hxq7c5.png" loading="lazy" style="">
虽然在符合前缀为 ‘j’ 的 name 字段的二级索引记录的范围里，age 字段的值是「无序」的，但是对于符合 name = j 的二级索引记录的范围里，age字段的值是「有序」的（因为对于联合索引，是先按照 name 字段的值排序，然后在 name 字段的值相同的情况下，再按照 age 字段的值进行排序）。
于是，在确定需要扫描的二级索引的范围时，当二级索引记录的 name 字段值为 ‘j’ 时，可以通过 age = 22 条件减少需要扫描的二级索引记录范围（age 字段可以利用联合索引进行索引查询的意思）。也就是说，从符合 name = 'j' and age = 22 条件的第一条记录时开始扫描，而不需要从第一个 name 为 j 的记录开始扫描 。如下图的右边： 
<img src="https://www.xiaoqiuyinboke.cn/usr/uploads/2022/10/1249206363.png" alt="l9hxqldh.png" loading="lazy" style="">
所以，Q4 这条查询语句 a 和 b 字段都用到了联合索引进行索引查询。 
我们也可以在执行计划中的 key_len 知道这一点。本次例子中：
<ul>
<li>name 字段的类型是 varchar(30) 且不为 NULL，数据库表使用了 utf8mb4 字符集，一个字符集为 utf8mb4 的字符是 4 个字节，因此 name 字段的实际数据最多占用的存储空间长度是 120 字节（30 x 4），然后因为 name 是变长类型的字段，需要再加 2，也就是 name 的 key_len 为 122。</li>
<li>age 字段的类型是 int 且不为 NULL，key_len 为 4。</li>
</ul>
Q4 查询语句的执行计划如下，可以看到 key_len 为 126 字节，name 的 key_len 为 122，age 的 key_len 为 4，说明优化器使用了 2 个字段的查询条件来形成扫描区间的边界条件，也就是 name 和 age 字段都用到了联合索引进行索引查询。 
<img src="https://www.xiaoqiuyinboke.cn/usr/uploads/2022/10/431636227.png" alt="l9hxra0p.png" loading="lazy" style="">
通过 Q4 查询语句我们可以知道，虽然 name 字段使用了 like 前缀匹配进行范围查询，但是联合索引的最左匹配原则并没有在遇到 name 字段的范围查询（ like 'j%'）后就停止匹配了，age 字段还是可以用到了联合索引的。
综上所示，联合索引的最左匹配原则，在遇到范围查询（如 &gt;、&lt;）的时候，就会停止匹配，也就是范围查询的字段可以用到联合索引，但是在范围查询字段的后面的字段无法用到联合索引。注意，对于 &gt;=、&lt;=、BETWEEN、like 前缀匹配的范围查询，并不会停止匹配，前面我也用了四个例子说明了。
<h5>索引下推</h5>
现在我们知道，对于联合索引（a, b），在执行 select * from table where a &gt; 1 and b = 2 语句的时候，只有 a 字段能用到索引，那在联合索引的 B+Tree 找到第一个满足条件的主键值（ID 为 2）后，还需要判断其他条件是否满足（看 b 是否等于 2），那是在联合索引里判断？还是回主键索引去判断呢？
<ul>
<li>在 MySQL 5.6 之前，只能从 ID2 （主键值）开始一个个回表，到「主键索引」上找出数据行，再对比 b 字段值。</li>
<li>而 MySQL 5.6 引入的索引下推优化（index condition pushdown)， 可以在联合索引遍历过程中，对联合索引中包含的字段先做判断，直接过滤掉不满足条件的记录，减少回表次数。</li>
</ul>
当你的查询语句的执行计划里，出现了 Extra 为 Using index condition，那么说明使用了索引下推的优化。
<h5>索引区分度</h5>
另外，建立联合索引时的字段顺序，对索引效率也有很大影响。越靠前的字段被用于索引过滤的概率越高，实际开发工作中建立联合索引时，要把区分度大的字段排在前面，这样区分度大的字段越有可能被更多的 SQL 使用到。
区分度就是某个字段 column 不同值的个数「除以」表的总行数，计算公式如下： 
<img src="https://www.xiaoqiuyinboke.cn/usr/uploads/2022/10/3578485873.png" alt="l9hxv0na.png" loading="lazy" style="">
比如，性别的区分度就很小，不适合建立索引或不适合排在联合索引列的靠前的位置，而 UUID 这类字段就比较适合做索引或排在联合索引列的靠前的位置。
因为如果索引的区分度很小，假设字段的值分布均匀，那么无论搜索哪个值都可能得到一半的数据。在这些情况下，还不如不要索引，因为 MySQL 还有一个查询优化器，查询优化器发现某个值出现在表的数据行中的百分比（惯用的百分比界线是"30%"）很高的时候，它一般会忽略索引，进行全表扫描。
<h5>联合索引进行排序</h5>
这里出一个题目，针对针对下面这条 SQL，你怎么通过索引来提高查询效率呢？
<pre><code class="language-sql">select * from order where status = 1 order by create_time asc</code></pre>
有的同学会认为，单独给 status 建立一个索引就可以了。
但是更好的方式给 status 和 create_time 列建立一个联合索引，因为这样可以避免 MySQL 数据库发生文件排序。
因为在查询时，如果只用到 status 的索引，但是这条语句还要对 create_time 排序，这时就要用文件排序 filesort，也就是在 SQL 执行计划中，Extra 列会出现 Using filesort。
所以，要利用索引的有序性，在 status 和 create_time 列建立联合索引，这样根据 status 筛选后的数据就是按照 create_time 排好序的，避免在文件排序，提高了查询效率。
<h3>数据物理顺序上划分</h3>
除了 聚集索引 ，其它索引都属于 辅助索引 （Secondary Index），也被称为 二级索引或非聚簇索引 。创建的主键索引和二级索引默认使用的是 B+Tree 索引。
<ol>
<li>聚集索引</li>
<li>二级辅助索引</li>
</ol>
<blockquote>
什么叫做聚集索引？
</blockquote>
就是索引键值的逻辑顺序跟表数据行的物理存储顺序是一致的（好比页码和书本内容，页码就是聚集索引）。在InnoDB里面，是通过聚集索引组织表来组织表数据的，所以一张表有且仅有一个聚集索引，这棵B+树的叶子节点上存放着具体数据内容。通常是用自增加主键id作为聚集索引，这样值不会重复，并且逻辑顺序和物理顺序是一致的。
<blockquote>
那如果一张表没有主键怎么办？
</blockquote>
<ul>
<li>如果有主键，默认会使用主键作为聚簇索引的索引键（key）</li>
<li>如果没有主键，就选择第一个不包含 NULL 值的唯一列作为聚簇索引的索引键（key）；</li>
<li>在上面两个都没有的情况下，InnoDB 将自动生成一个隐式自增 id 列作为聚簇索引的索引键（key）；</li>
</ul>
<blockquote>
聚集索引是如何提高查询效率的？
</blockquote>
因为物理顺序和索引列的逻辑顺序是一样的，所以对于范围查找，只需要先找到第一个数据，然后按顺序取出数据，直到值等于末尾的哪个数据为止，可以减少磁盘的io操作。
<blockquote>
聚集索引和非聚集区别？
</blockquote>
<ol>
<li>物理存储顺序和磁盘顺序是否一致</li>
<li>innodb的数据是直接放在聚集索引的叶子节点上的，非聚集索引叶子节点上只存放主键id</li>
</ol>
所以，在查询时使用了二级索引，如果查询的数据能在二级索引里查询的到，那么就不需要回表，这个过程就是覆盖索引。如果查询的数据不在二级索引里，就会先检索二级索引，找到对应的叶子节点，获取到主键值后，然后再检索主键索引，就能查询到数据了，这个过程就是回表。
<h2>B+Tree索引</h2>
<ol>
<li>mysql中的innodb和myisam采用的就是B+tree索引</li>
<li>B+Tree索引采用 树形链表结构 建立数据目录</li>
</ol>
<h2>Btree索引使用技巧</h2>
<h3>数值字段索引</h3>
查看sql的执行计划explain，首先给id创建btree索引：
<pre><code class="language-sql">-- innodb和myisam默认都是btree索引
alter table t_content add index idx_uid (`uid`);</code></pre>
btree索引是支持精准匹配的，精准匹配id = 1的数据，执行如下语句会发现key字段是idx_uid
<pre><code class="language-sql">explain select * from t_content where id =1;</code></pre>
btree索引，支持范围匹配，执行如下语句会发现key字段是idx_uid
<pre><code class="language-sql">explain select * from t_content where id &gt; 1 and id &lt; 100;</code></pre>
查询优化器会自动进行类型转换，但仍然建议使用与定义相符的类型，因为转换过程也需要消耗资源，执行如下语句会发现key字段是idx_uid
<pre><code class="language-sql">explain select * from t_content where id ="1";</code></pre>
有时候会想要查询10开头的数字，这么写的话就没办法使用索引了，因为字段是数字类型，查询却是字符串类型，没办法使用索引
<pre><code class="language-sql">explain select * from t_content where id like "10%";</code></pre>
<h3>字符串字段索引</h3>
给字符串字段创建索引
<pre><code class="language-sql">alter table t_content add index idx_url(`url`);</code></pre>
字符串字段btree索引允许进行“前缀查询”，如下可以用到索引idx_url
<pre><code class="language-sql">-- 这种即使建立了索引，由于选择性太低，几乎所有的网址都是http开头的，所以mysql干脆不走索引
explain select * from t_content where url like "http%";
-- 这种就会用到索引
explain select * from t_content where url like "https://www.pdfqupu.com/arch/1.html%";</code></pre>
后缀查询和模糊匹配，btree均不支持，以下查询无法用到idx_url索引
<pre><code class="language-sql">-- 后缀查询
explain select * from t_content where url like "%pdfqupu.com";
-- 模糊匹配 
explain select * from t_content where url like "%pdfqupu%";</code></pre>
使用like查询很难进行sql优化，所以对于字符串查询要求高的，最好用elasticseach进行查询
<h3>复合索引</h3>
创建多字段索引，右侧的索引要依赖于左侧的索引，左侧前头的字段最好选择要高，比如主键，每一行都不一样，这样效率才会高
<pre><code class="language-sql">alter table t_content add index idx_content(id,source_id);</code></pre>
符合索引的查询条件必须包含左侧列，如下包含了左侧列id，所以会用到idx_content索引
<pre><code class="language-sql">explain select * from t_content where id = 100;</code></pre>
直接写右侧列，将导致索引无法使用
<pre><code class="language-sql">explain select * from t_content where source_id = 100;</code></pre>
<h3>不等</h3>
&lt;&gt;，和not in，将导致不使用索引,无论怎么优化，都不会使用索引
<pre><code class="language-sql">explain select * from t_content where source_id &lt;&gt; 100;</code></pre>
这种有个变通，这也要看实际情况，如果结果的数据太多，mysql会觉得还不如全表扫描。
<pre><code class="language-sql">explain select * from t_content where source_id &lt; 100 and source &gt; 100;</code></pre>

表索引的目的

索引分类

数据结构上分

innodb中的B+Tree

myisam中的B+tree

按字段特性分类

主键索引

唯一索引

普通索引

前缀索引

按字段个数分类

单列索引

联合索引

使用联合索引进行范围查询

索引下推

索引区分度

联合索引进行排序

数据物理顺序上划分

B+Tree索引

Btree索引使用技巧

数值字段索引

字符串字段索引

复合索引

不等

发表评论 取消回复 使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款

深入理解MySQL索引原理

发表评论取消回复
使用cookie技术保留您的个人信息以便您下次快速评论，继续评论表示您已同意该条款