索引的原理 · 数据库

## **1、什么是索引** 索引是一种利用某种规则的数据结构与实际数据的关系加快数据查找的功能；索引数据节点中有着实际文件的位置，因为索引是根据特定的规则和算法构建的,在查找的时候遵循索引的规则可以快速查找到对应数据的节点，从而达到快速查找数据的效果；其实宏观来说索引其实是一种概念而不是具体的某项技术，只是我们在某个技术中运用得比较广泛和鲜明（比如说数据库）渐渐的有了特定领域的标签，其实在生活中索引的使用无处不在，比如说：书本里的目录；读书时的座位号，考试编号都有类似索引的功能; 总结来所有通过某规则数据结构和实际目标关联，根据特定规则算法快速寻址的功能都可以称之为索引； ## **2、为什么要用索引，以及索引的原理** 首先我们看下在没有索引的情况下是怎么查找数据的：我们用一个例子来解释比较直观（1）没有索引的情况下访问数据： ![](https://img.kancloud.cn/dc/7e/dc7ec6c3f83fc8ca4ea0e4fc5a5639bf_720x393.png) （2）使用平衡二叉树结构（请看推荐资料）索引的情况下访问数据： ![](https://img.kancloud.cn/21/3d/213d98ddb2cab61e24fc70b63a2efd1b_720x487.png) 第一张图没有使用索引我们会进行顺序查找，依照数据顺序逐个进行匹配，进行了5次寻址才查询出所需数据，第二张图用了一个简单的平衡二叉树索引之后我们只用了3次，这还是数据量小的情况下，数据量大了效果更明显，所以总结来说创建索引就是为了加快数据查找速度； ## **3、主要种类** （1）索引结构上主要分为聚簇索引和非聚簇索引，聚簇索引是指索引的结构和排列规则是和实际数据的存储结构和排列规则是一样的（比如说书本的目录和内容就相当于聚簇索引，书本的内容顺序总是和目录顺序一样的）,每个表至多只能创建一个聚簇索引，下图为聚簇索引的一种结构表示； ![](https://img.kancloud.cn/59/2e/592ee77d538d92536ede9f5c83c4f502_720x337.png) （2）非聚簇索引则可能是通过其他算法规则构成的一种索引结构，索引的结构和实际数据存储的结构是不同的，比如说这张图中的索引类型就属于非聚簇索引; ![](https://img.kancloud.cn/21/3d/213d98ddb2cab61e24fc70b63a2efd1b_720x487.png) ## **4、索引按数据库功能分类** （1）唯一索引概念：唯一索引限制了在表对应的唯一索引列上的值是唯一不可重复的；特点： 1>一个表可以创建多个唯一索引; 2>唯一索引的值允许为null； 3>允许多个列建立组合唯一索引; （2）主键索引概念：主键索引属于唯一索引的一个特殊种类，一个表的某列创建了主键索引后会具备唯一索引的功能同时还会对该列生成主键约束,所以简单来说主键索引是一种带有主键约束的唯一索引；特点： 1>数据库在创建主键同时会自动建立一个唯一索引。 2>每个表最多只能创建一个主键索引； 3>创建了主键索引的列不允许有重复的值，并且不能为null值； 4>创建了主键索引的列可以作为外键; （3）聚集索引概念：聚集索引属于聚簇索引的一个种类，在mysql中InnoDB数据引擎模式主索引就是使用的聚集索引，聚集索引的索引结构中就包含了表的数据；特点： 1>一个表只能创建一个聚集索引; 2>聚集索引尽量建在不会经常发生变动的列上，因为一旦列变动同时也会引索引结构变化，而索引结构中也包含者数据的变动； 3>数据库在创建主键时如果这个表之前没有聚集索引，同时建立主键时候没有强制指定使用非聚集索引，则建立主键时候，同时建立一个唯一的聚集索引 ## **5、什么时候不要用索引，什么时候要用索引** （1）什么场景不要用索引： 1>数据更新性能比查询性能要求要高的情况下不要使用索引，因为数据的更新的同时索引也要进行维护和更新（加了索引查询快但更新就会慢）; 2>不要盲目的给表建太多索引，因为索引本身的存储也要占用存储空间，一旦更新操作频繁反而降低新性能; 3>不要给不经常使用的列建索引，不怎么查询还建索引干嘛; 4>不要给高重复值的列建索引，索引本身就是为了提高查询速度，然而数据值高度重复，数据区别性不高，索引起不了效果）（比如说：性别）; 5>不要给img,tex.bit数据类型使用索引，因为这种字段一般使用很少，数据量太大; > **（2）什么场景用索引 > 1>经常要用于查询的列 where id=?; > 2>经常要用于排序(order by)，分组(group by)的列，因为索引已经排好序了; > 3>有值唯一性限制的列，比如说主键、用户名；** ## **6、索引在Mysql的使用方式** （1）在Mysql中索引是基于B+树(请看推荐资料)的数据结构实现的; （2）MyISAM数据引擎，表索引文件和数据文件是分离开的，主索引和辅助索引一样，只是有主键的区别，主索引的键不能重复；InnoDB中表索引本身就是表数据文件，索引节点中存的是表的数据而不是数据引用地址，辅索引完全依赖于主索引，辅索引的每次查找都是找到对应主索引的节点再找到数据; （3）InnoDB中必须要有一个聚集索引，而聚集索引在基于主键创建的，所以InnoDB的表必须要有主键，如果没有显示指定主键，Mysql会自动创建一个隐式主键；（4）InnoDB除了主索引（聚集索引）之外的索引都是以辅助索引的形式存在，辅助索引每次检索的时候是通过找到主索引再找到数据; ## 7、**推荐资料** 磁盘和主存数据读取原理：[http://blog.csdn.net/abcd1101/article/details/55281514](https://link.zhihu.com/?target=http%3A//blog.csdn.net/abcd1101/article/details/55281514) 平衡二叉树、B树、B+树：[https://zhuanlan.zhihu.com/p/27700617](https://zhuanlan.zhihu.com/p/27700617) [MySQL索引背后的数据结构及算法原理](http://blog.codinglabs.org/articles/theory-of-mysql-index.html)