您好,欢迎访问一九零五行业门户网

数据分布对MySQL执行计划的影响

本文内容遵从cc版权协议, 可以随意转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址: http://www.penglixun.com/tech/database/data_distribution_on_mysql_explain.html 以前我一直以为,mysql优化器只会根据数据的基数来判断执行计划的
本文内容遵从cc版权协议, 可以随意转载, 但必须以超链接形式标明文章原始出处和作者信息及版权声明网址: http://www.penglixun.com/tech/database/data_distribution_on_mysql_explain.html
以前我一直以为,mysql优化器只会根据数据的基数来判断执行计划的优化,在5.0时,基本上只要基数达不到要求,mysql就不会选择索引。不过从今天优化一组sql的情况来看,5.1早已不是这样,mysql优化器考虑了数据分布的影响,使用不同的值,对同一条sql可能产生完全不同的执行计划。可以做如下测试。
有一张表 a (id,c1),假设采用“select c1,count(*) from table group by c1”的方式来查看每一列每个值的数据量的结果如下:
c1 count(*)
1 100
2 1000
3 10000
4 100000
假设现在c1上有个索引 idx_1 (c1)。
当我采用只有100个值的1作为条件的筛选值查看执行计划时,
mysql会毫不犹豫的走 idx_1 索引。
但是改为4作为筛选值,基本上都可以看到全表扫描的执行计划。
explain select * from a where c1=1;explain select * from a where c1=4;
虽然从源码目录的 sql/sql_select.cc 中并未找到具体的优化代码,但是从sql/opt_range.cc来看,至少range查询的优化已经通过蒙特卡罗方法来估算要选择的值的出现概率,那么有理由相信,如此简单的选择查询,mysql肯定也估算了要查询的值出现的概率,然后以此为依据计算访问路径。
所以,一条sql优化时,不仅要看数据的离散度,还得看经常被当作筛选值的数值唯一性是否够好,如果被筛选的值唯一性不好,建立索引依然是没有什么意义的,因为mysql根本不会选择这个索引。
其它类似信息

推荐信息