第三章 查询处理
逻辑查询处理:(8) select (9) distinct
(1) from
(3) join
(2) on
(4) where
(5) group by
(6) with {cube|rollup}
(7) having
(10) order by
(11) limit
select一共有3个过滤过程,where,on,having, on是最先执行的过滤过程。
where过滤器中:
1.由于数据还没有分组,因此现在还不能在where过滤器中使用where_condition=min(col)这类对攻击的过滤
2.由于还没有进行列的选取操作,因此在select中使用列的别名也是不被允许的,如select city as c from t where c='shanghai'是不允许出现的。
在where过滤器中进行的过滤和在on过滤器中进行的过滤是有所不同的。对于outerjoin中的过滤,在on过滤器过滤完之后还会添加保留表中被on条件过滤掉的记录,而where条件中被过滤掉的记录则是永久的过滤。在inner join中两者是没有差别的,因为没有添加外部行的操作。
3. having是对分组条件进行过滤的筛选器,子查询不能用作分组的聚合函数,如having count(select ...)
4. select:列的别名不能在select中的其他别名表达式中使用,如:
mysql>select order_id as o, o+1 as n from orders;
5. distinct: 如果在查询中指定了distinct子句,则会创建一张内存临时表(如果内存中存放不下就放到磁盘上)。这张内存临时表的表结构和上一步产生的虚拟表一样,不同的是对进行distinct操作的列增加了一个唯一索引,以此来去除重复数据。另外,对于使用了group by的查询,在使用distinct是多余的,因为已经进行分组了,不会移除任何行。
6. 大多数dba和开发人员都错误的认为在选取表中的数据时,记录会按照表中主键的大小顺序的取出,即结果像进行了order by一样。导致这个经典错误的原因主要是没有理解什么才是真正的关系数据库。数据库中常见的查询操作其实对应的是集合的某些运算:选择、投影、连接、并、交、差、除。最终的结果虽然是以一张二维表的方式呈现在用户面前,但是从数据库内部来看是一系列的集合操作。因此,对于表中的记录,用户需要以集合的思想来理解。没有order by子句的查询只代表从集合中查询数据,而集合是没有顺序概念的。因此要牢记,不用为表中的行假设任何特定的顺序。
7. limit:从上一步骤的虚拟表中选出从指定位置开始的指定行数据。对应没有应用order by的limit字句,结果同样可能是无序的,因此limit子句通常和order by一起使用。
limit n,m
表示从第n条记录开始选择m条记录。而大多数开发人员喜欢使用这类语句来解决web中经典的分页问题。对于小规模的数据,这并不会有太大的问题。但是对于大规模数据来说,limit n,m效率是十分低的。因为每次都需要对数据进行选取。