索引的设计原则

原创 flyinsky323 2023-08-07

518

索引设计原则：

1、代码先行，索引后上

等到主体业务功能开发完毕，把涉及到该表相关sql都要拿出来分析之后再建立索引。

2、联合索引尽量覆盖条件

比如可以设计一个或者两三个联合索引(尽量少建单值索引)，让每一个联合索引都尽量去包含sql语句里的where、order by、group by的字段，还要确保这些联合索引的字段顺序尽量满足sql查询的最左前缀原则。

3、不要在小基数字段上建立索引

索引基数是指这个字段在表里总共有多少个不同的值，比如一张表总共100万行记录，其中有个性别字段，其值不是男就是女，那么该字段的基数就是2。

如果对这种小基数字段建立索引的话，还不如全表扫描了，因为你的索引树里就包含男和女两种值，根本没法进行快速的二分查找，那用索引就没有太大的意义了。

一般建立索引，尽量使用那些基数比较大的字段，就是值比较多的字段，那么才能发挥出B+树快速二分查找的优势来。

4、长字符串我们可以采用前缀索引

尽量对字段类型较小的列设计索引，比如说什么tinyint之类的，因为字段类型较小的话，占用磁盘空间也会比较小，此时你在搜索的时候性能也会比较好一点。

当然，这个所谓的字段类型小一点的列，也不是绝对的，很多时候你就是要针对varchar(255)这种字段建立索引，哪怕多占用一些磁盘空间也是有必要的。

对于这种varchar(255)的大字段可能会比较占用磁盘空间，可以稍微优化下，比如针对这个字段的前20个字符建立索引，就是说，对这个字段里的每个值的前20个字符放在索引树里，类似于 KEY index(name(20),age,position)

此时你在where条件里搜索的时候，如果是根据name字段来搜索，那么此时就会先到索引树里根据name字段的前20个字符去搜索，定位到之后前20个字符的前缀匹配的部分数据之后，再回到聚簇索引提取出来完整的name字段值进行比对。

但是假如你要是order by name，那么此时你的name因为在索引树里仅仅包含了前20个字符，所以这个排序是没法用上索引的， group by也是同理

5、where与order by冲突时优先where

在where和order by出现索引设计冲突时，到底是针对where去设计索引，还是针对order by设计索引？到底是让where去用上索引，还是让order by用上索引?

一般这种时候往往都是让where条件去使用索引来快速筛选出来一部分指定的数据，接着再进行排序。

因为大多数情况基于索引进行where筛选往往可以最快速度筛选出你要的少部分数据，然后做排序的成本可能会小很多。

举个例子

有 employees表，name, age, sex, position 列，有联合索引（name, age, sex, position）,

sex : 性别，取值0 或1

有如下查询: select id from employees where name = 'zhangsan' and age = 18 and position = 'dev' 因为跳过了 sex 字段，position 无法利用索引

因为 sex 只有两个取值，我们在查询语句上把 sex 的值全部枚举出来， 如下:

select id from employees where name = 'zhangsan' and age = 18 and sex in (0, 1) and position = 'dev'

这样一来就可以利用全部索引了。

再举个例子

加入我们要查询最近一周登录的用户，首先想到的是 last_login_time > {一周之前的时间}

这是一个范围查询，在后面的所有字段便无法利用索引了，我们可以再设计一个字段，recent_login_flag(tinyint) 标识是否最近登录过。用定时任务定期更新该字段的值。这样就由范围查询变成了等值查询，数据可能不是太及时变化，就看业务是否允许了。

总之就是想办法最大限度的利用索引。

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者