MySQL 中 Join 的基本实现原理

在 mysql 中，只有一种 join 算法，就是大名鼎鼎的 nested loop join，他没有其他很多数据库所提供的 hash join，也没有 sort merge join。顾名思义，nested loop join 实际上就是通过驱动表的结果集作为循环基础数据，然后一条一条的通过该结果集中的数据作
在 mysql 中，只有一种 join 算法，就是大名鼎鼎的 nested loop join，他没有其他很多数据库所提供的 hash join，也没有 sort merge join。顾名思义，nested loop join 实际上就是通过驱动表的结果集作为循环基础数据，然后一条一条的通过该结果集中的数据作为过滤条件到下一个表中查询数据，然后合并结果。如果还有第三个参与 join，则再通过前两个表的 join 结果集作为循环基础数据，再一次通过循环查询条件到第三个表中查询数据，如此往复。
还是通过示例和图解来说明吧，后面将通过我个人数据库测试环境中的一个 example（自行设计，非mysql 自己提供）数据库中的三个表的 join 查询来进行示例。
注意：由于这里有些内容需要在mysql 5.1.18之后的版本中才会体现出来，所以本测试的mysql 版本为5.1.26
表结构：
sky@localhost : example11:09:32> showcreatetableuser_groupg
*************************** 1.row ***************************
table: user_group
createtable: createtable`user_group`(
`user_id`int(11)notnull,
`group_id`int(11)notnull,
`user_type`int(11)notnull,
`gmt_create`datetimenotnull,
`gmt_modified`datetimenotnull,
`status`varchar(16)notnull,
key`idx_user_group_uid`(`user_id`)
)engine=myisamdefaultcharset=utf8
1rowinset(0.00sec)
sky@localhost : example11:10:32> showcreatetablegroup_messageg
*************************** 1.row ***************************
table: group_message
createtable: createtable`group_message`(
`id`int(11)notnullauto_increment,
`gmt_create`datetimenotnull,
`gmt_modified`datetimenotnull,
`group_id`int(11)notnull,
`user_id`int(11)notnull,
`author`varchar(32)notnull,
`subject`varchar(128)notnull,
primarykey(`id`),
key`idx_group_message_author_subject`(`author`,`subject`(16)),
key`idx_group_message_author`(`author`),
key`idx_group_message_gid_uid`(`group_id`,`user_id`)
)engine=myisamauto_increment=97defaultcharset=utf8
1rowinset(0.00sec)
sky@localhost : example11:10:43> showcreatetablegroup_message_contentg
*************************** 1.row ***************************
table: group_message_content
createtable: createtable`group_message_content`(
`group_msg_id`int(11)notnull,
`content`textnotnull,
key`group_message_content_msg_id`(`group_msg_id`)
)engine=myisamdefaultcharset=utf8
1rowinset(0.00sec)
使用query如下：
selectm.subjectmsg_subject, c.contentmsg_content
fromuser_groupg,group_messagem,group_message_contentc
whereg.user_id = 1
andm.group_id = g.group_id
andc.group_msg_id = m.id
看看我们的 query 的执行计划：
sky@localhost : example11:17:04> explainselectm.subjectmsg_subject, c.contentmsg_content
-> fromuser_groupg,group_messagem,group_message_contentc
-> whereg.user_id = 1
-> andm.group_id = g.group_id
-> andc.group_msg_id = m.idg
*************************** 1.row ***************************
id: 1
select_type: simple
table: g
type: ref
possible_keys: user_group_gid_ind,user_group_uid_ind,user_group_gid_uid_ind
key: user_group_uid_ind
key_len: 4
ref: const
rows: 2
extra:
*************************** 2.row ***************************
id: 1
select_type: simple
table: m
type: ref
possible_keys: primary,idx_group_message_gid_uid
key: idx_group_message_gid_uid
key_len: 4
ref: example.g.group_id
rows: 3
extra:
*************************** 3.row ***************************
id: 1
select_type: simple
table: c
type: ref
possible_keys: idx_group_message_content_msg_id
key: idx_group_message_content_msg_id
key_len: 4
ref: example.m.id
rows: 2
extra:
我们可以看出，mysql query optimizer 选择了 user_group 作为驱动表，首先利用我们传入的条件 user_id 通过该表上面的索引 user_group_uid_ind 来进行 const 条件的索引 ref 查找，然后以 user_group 表中过滤出来的结果集的 group_id 字段作为查询条件，对 group_message 循环查询，然后再通过 user_group 和 group_message 两个表的结果集中的? group_message 的 id 作为条件与 group_message_content 的 group_msg_id 比较进行循环查询，才得到最终的结果。没啥特别的，后一个引用前一个的结果集作为条件，实现过程可以通过下图表示：
下面的我们调整一下 group_message_content 去掉上面的 idx_group_message_content_msg_id 这个索引，然后再看看会是什么效果：
sky@localhost : example11:25:36> dropindexidx_group_message_content_msg_idongroup_message_content;
queryok, 96rowsaffected(0.11sec)
sky@localhost : example10:21:06> explain
-> selectm.subjectmsg_subject, c.contentmsg_content
-> fromuser_groupg,group_messagem,group_message_contentc
-> whereg.user_id = 1
-> andm.group_id = g.group_id
-> andc.group_msg_id = m.idg
*************************** 1.row ***************************
id: 1
select_type: simple
table: g
type: ref
possible_keys: idx_user_group_uid
key: idx_user_group_uid
key_len: 4
ref: const
rows: 2
extra:
*************************** 2.row ***************************
id: 1
select_type: simple
table: m
type: ref
possible_keys: primary,idx_group_message_gid_uid
key: idx_group_message_gid_uid
key_len: 4
ref: example.g.group_id
rows: 3
extra:
*************************** 3.row ***************************
id: 1
select_type: simple
table: c
type: all
possible_keys: null
key: null
key_len: null
ref: null
rows: 96
extra: usingwhere; usingjoinbuffer
我们看到不仅仅 group_message_content 表的访问从 ref 变成了 all，此外，在最后一行的 extra信息从没有任何内容变成为? using where; using join buffer，也就是说，对于从 ref 变成 all 很容易理解，没有可以使用的索引的索引了嘛，当然得进行全表扫描了，using where 也是因为变成全表扫描之后，我们需要取得的 content 字段只能通过对表中的数据进行 where 过滤才能取得，但是后面出现的 using join buffer 是一个啥呢？
我们知道，mysql 中有一个供我们设置的参数 join_buffer_size ，这里实际上就是使用到了通过该参数所设置的 buffer 区域。那为啥之前的执行计划中没有用到呢？
实际上，join buffer 只有当我们的 join 类型为 all（如示例中），index，rang 或者是 index_merge 的时候才能够使用，所以，在我们去掉 group_message_content 表的 group_msg_id 字段的索引之前，由于 join 是 ref 类型的，所以我们的执行计划中并没有看到有使用 join buffer。
当我们使用了 join buffer 之后，我们可以通过下面的这张图片来表示 join 完成过程：
原文地址：mysql 中 join 的基本实现原理, 感谢原作者分享。

MySQL 中 Join 的基本实现原理

推荐信息