InnoBD使用的B+树索引模型,所以数据都是存储在B+树中的。
每一个索引在InnoDB里面对应一棵B+树。
假如我们有一个主键列为Id的表,表中有字段A,在A上有索引。
create table T(
id int primary key,
A int not null,
name varchar(16),
index (A))engine=InnoDB;
表中A1-A5的(ID,A)值分别为(100,1),(200,2),(300,3),(500,6)和(600,6),两棵数的示例图入下:

从图中看出,根据叶子节点内容,索引类型分为主键索引和非主键索引。
主键索引的叶子节点内容是整行数据,在InnoDB里,主键索引也称之为聚簇索引。
非主键索引的叶子节点内容是主键的值,在InnoBD里,非主键索引也被称为二级索引。
那么,主键和普通索引的查询有什么区别呢?
如果语句为select * from T where id=600,也就是主键查询方式,则只需要搜索ID这棵B+树。
如果语句为select * fromT where a=6,也就是普通索引查询方式,则先搜索A索引树,得到ID的值为600,再到ID索引树搜索一次,该过程称之为回表。
因此,我们在日常开发中,尽量使用主键查询,避免回表。
索引的维护
B+树维护了索引的有序性,在插入新的值的时候需要做必要的维护,以上图为例,如果插入 一个ID的值为700,则只需要在A5的记录后面插入一个新记录,如果插入ID的值为400,就相对麻烦了,需要逻辑上移动后面的数据,空出位置。
如果A5所在的数据页满了,根据B+数的算法,这时候需要申请一个新的数据 页,然后移动部分数据过去,这个过程为页分裂,这种情况下,性能会受到影响。
除了性能,页分裂还影响数据页的利用率,原本放在一个页的数据,现在分到两个页中,整体空间利用率降低大约50%。
当然有分裂就有合并,系统会将数据也合并。
基于上述,哪些场景下应该使用自增主键,而哪些场景下不应该?
插入新记录的时候可以不知道ID,系统会获取当前ID最大值加1作为下一条记录的Id值。自增主键的插入数据模式,符合 递增插入的场景,每次插入一条新记录,都是追加操作,都不涉及到移动其他记录,也不会触发叶子节点的分裂。
假设你的表中确实有一个唯一字段,比如字符串类型的身份证号,那应该用身份证号做主键,还是用自增字段做主键呢?
主键长度越小,普通索引的叶子节点就越小,由于每个非主键索引的叶子节点上都是主键的值。如果用身份证号做主键,那么每个二级索引的叶子节点占用约 20 个字节,而如果用整型做主键,则只要 4 个字节,如果是长整型(bigint)则是 8 个字节
什么场景下适合业务字段做主键?
只有一个索引
改索引必须是唯一索引
KV场景




