MySQL数据库表设计优化

bitscn.com
1.选择优化的数据类型
mysql支持很多种不同的数据类型，并且选择正确的数据类型对于获得高性能至关重要。不管选择何种类型，下面的简单原则都会有助于做出更好的选择：
(1).更小通常更好
一般来说，要试着使用正确地存储和表示数据的最小类型。更小的数据类型通常更快，因为它们使用了更少的磁盘空间、内存和cpu缓存，而且需要的cpu周期也更少。
但是要确保不人低估需要保存的值，在架构中的多个地方增加数据类型的范围是一件极其费力的工作。如果不确实需要什么数据类型，就选择你认为不会超出范围的最小类型。
(2).简单就好
越简单的数据类型，需要的cpu周期就越少。例如：比较整数的代价小于比较字符，因为字符集和排序规则使字符比较更复杂。
(3).尽量避免空（null）
要尽可地把字段定义为not null 。即使应用程序无须保存null，也有许多表包含了可为空的列，这仅仅是因为它为默认选项，除非真的要保存null，否则就把列定义为not null。
mysql难以优化了使用了可空列的查询，它会使索引、索引统计和值更加复杂。可空列需要更多的存储空间，还需要在mysql内部进行特殊处理。当可空列被索引的时候，每条记录都需要一个额外的字节，还能导致myisam中固定大小的索引（例如：一个整数列上的索引）变成可变大小的索引。
即使要在表中存储可为空的字段，也是有办法不使用null的，可以考虑使用0，特殊值或字符串来代替它。
把null列改为not null 带来的性能提升很小，所以除非确定它引入了问题，否则就不要把它当成优先的优化措施。如果计划对列进行索引，就要尽量避免把它设置为可为空（null）
2.整数
数字有两种类型：整数和实数，如果存储整数，就可以使用这几种整数类型：tinyint, smallint, mediumint, int, bigint ,它们分别需要8、16、24、32、64位存储空间。
整数类型有可选的unsigned（无符号）属性，它表示不允许为负数，并大致把正上限提高了一倍，例如：tinyint unsigned保存的翻围为0到255，而不是-127到128。
signed(有符号)和unsigned(无符号)类型占用的存储空间是一样的，性能也一样。因此可以根据实际情况采用合适的类型。
你的选择将会决定mysql把数据保存在内存中还是磁盘上，然而，整数运算通常使用64位的bingint整数。
mysql还允许你对整数类型定义宽度，比如int(11)。这对于大在多数应用程序是没有意义的，它不限制值的范围，只规定了mysql的交互工具(例如命令客户端)用来显示字符的个数。对于存储计算，int(1)和int(20)是一样的。
3.实数
实数有分数部分，然而，它们并不仅仅是分数。可以使用decimal保存比出bigint还大的整数。mysql同时支持精确与非精确类型。
float和double类型支持使用标准的浮点运算进行近似计算。如果想知道浮点运算到底如何进行，则要研究生平台浮点数的具体实现。
比较起decimal类型，浮点类型保存同样大小的值使用的空间通常更小，float类型占用4个字节，double占用8个字节，而且精度更大，范围更广。和整数一样，你选择的仅仅是存储类型。mysql在内部对浮点类型使用double进行计算。
由于需要额外的空间和计算开销，只有在需要对小数进行精确的时候才使用decimal，比如保存金融数据。
4.字符串类型
varchar和char类型
varchar：保存了可变长度的字符串，是使用得最多的字符串类型，它能比固定类型占用更少的存储空间，因为它只占用了自已需要的空间（也就是说较短的值占用的空间更小）。它使用额外的1-2个字节来存储值的长度。varchar能节约空间，所以对性能有帮助。然而，由于行的长度是可变的，它们在更新的时候可能会发生变化，这会引起额外的工作。当最大长度远大于平均长度，并且很少发生更新的时候，通常适合用varchar。这时候碎片就不会成为问题，还有你使用复杂的字符集，如utf-8时，它的每个字符都可能会占用不同的存储空间。varchar存取值时候，mysql不会去掉字符串末尾的空格。
char：固定长度，char存取值时候，mysql会去掉末尾的空格。char在存储很短的字符串或长度近似相同的字符的时候很有用。例如,char适用于存储密码的md5哈希值，它的长度总是一样的。对于经常改变的值，char也好于varchar，因为固定长度的行不容易产生碎片，对于很短的列，char的效率也高于varchar。char(1)字符串对于单字节字符集只会占用1个字节，而varchar(1)则会占用2个字节，因为有一个字节用来存储其长度。
char和varchar的兄弟类型为binary和varbinary，它们用于保存二进制的字符串，二进制字符串的传统的字符串很类似，但是它们保存的是字节而不是字符。填充也有所不同，mysql使用/0（0字节）填充binary值，而不是空格，并且不会在获取数据的时候把填充的值截掉。
使用varchar(5)和varchar(200)保存“hello”占用的空间是一样的，但是使用较短的列有很大的优势，较大的列会使用更多的内存，因为mysql通常会分配固定大小的内存块来保存值。这对排序或使用基于内存的临时表尤其不好。同样的事情也会发生在使用文件排序或基于磁盘的临时表的时候。
5.blob和text类型
blob和text分别用二进制和字符形式保存大量数据。
事实在，它们各有自的数据类型家族：字符类型有tinytext, smalltext, text, mediumtext和longtext, 二进制类型有tinyblob, smallblob, blob, medicmblob, longblob，blob 等同于smallblob, text等同于smalltext
和其它类型不同，mysql把blob, text当成有实体的对象来处理，存储引擎通常会特别地保存它们。innodb在它们较大的时候会使用单独的“外部”存储来进行保存，每个值在行里面都需要1-4字节，并且还需要足够的外部存储空间来保存实际的值。
blob和text唯一的区别就是blob保存的是二进制数据，没有字符集和排序规则，text保存的是字符数据，有字符集和排序规则。
mysql对blob、text列的排序方式和其它类型不同，它不会按照字符串的长度进行排序，而只是按照max_sort_length规定的前若干个字节进行排序，如果只按照开始的几个字符排序，就可以减少max_sort_length的值或使用order by substring(column, length)。mysql不能索引这些数据类型的完整长度，也不能为排序而使用索引。
6.使用enum代替固定字符串类型
enum列可以存储65535个不同的字符串，mysql以非常紧凑的方式保存了它们，根据列表中值的数量，mysql会把它们压缩到1-2个字节中，mysql在内部会把每个值都保存为整数，以表示值在列表中的位置，并且还保留了一份“查找表”来表示整数和字符串在表的.frm文件中的映射关系。
enum最不好的一面是字符串是固定的，如果需要添加或者删除字符串必须使用alter table，因此，对于一系列未知可能会改变的字符串，使用enum就不是一个好主意，mysql在内部的权限表中使用enum来保存y值和n值。
由于mysql把每个值保存为整数，并且须进行查找才能把它转换成字符串形式，所以enum有一些开销。这通常可以由它们较小的大小进行弥补，但不总是这样，在特定情况下，把char或varchar列和enum列进行联接，可能会比联接另一个chara或varchar列慢。
7.日期和时间类型
mysql可以使用多种类型来保存各种日期和时间值，比中year和date，mysql能存储的最细的时间粒度是秒，然而，它可以用毫秒的粒度进行暂时的运算。
mysql提供两种相似的数据类型：datetime 和 timestamp，对于很多应用程序，它们都能正常工作，但是在某些情况下，一种会好于另外一种。
datetime：能够保存大范围的值，从1001年到9999年，精度为秒，它把日期和时间封装到一个格式为yyyymmddhhmmss的整数当中，与时区无关。它使用了8个字节存储空间。
timestamp：保持了自1970年1月1日午夜（格林尼治标准时间）以来的秒数，它和unix的时间戳相同。它只使用了4个字节存储空间。因此它比datetime的范围小得多。它表示自能从1970年到2038年。mysql提供了from_unixtime()函数把unix时间戳转换为日期，并提供unix_timestamp()函数把日期转换为unix时间戳。
timestamp显示的值依赖于时区，mysql服务器、操作系统及客户端连接都有时区设置。因此，保存0值的timestamp实际显示的时间是美国东部的时间1969-12-31 19:00:00，与格林尼治标准时间（gmt）相差5小时。
timestamp也有datetime没有的特殊性质，在默认情况下，如果插入的行没有定义timestamp列的值，mysql就会把它设置为当前时间。在更新的时候，如果没有显示地定义timestamp列的值，mysql也会自动更新它。可以配置timestamp列的插入和更新行为。最后，timestamp默认是not null，这也和其它的数据类型不一样！
8.选择标识符
为标识列选择好的数据类型非常重要，你可能会更多地用它们和其他列做比较，还可能把它们用作其它表的外键，因为选择标识符列选择数据类型的时候，你也可能是在为相关的表选择数据类型。
当为标识符列选择数据类型的时候，不仅要考虑存储类型，还要考虑mysql如何对它们进行计算和比较。例如：mysql会在内部把enum和set类型保存为整数，但是在比较的时候把它们转换为字符串。
一旦选择了数据类型，要确保在相关表中使用同样的类型。类型之前要精确匹配，包括诸如unsigned这样的属性。混合不同的数据类型会导致性能问题，即使没有性能问题，隐式的类型转换也能导致难以察觉的错误，在你已经忘记了自己是在对不同类型做比较的时候，这些错误就会突然出现。
选择最小的数据类型能表明所需值的范围，并且为将来留出增长的空间。例如，如果用porvince_id来表示中国的省份，那么我们知道它不会产成千上万个值，因类就没有必要使用int，用tinyint就足够了，它比int小3个节字，如果把一个表的主键是tinyint，而另一个表以int作为外键，那么就会造成较大的性能差距。
整数通常是标识符的最佳选择，因为它速度快，并且能使用auto_increment。
enum和set通常不合适用作标识符，尽管它适合用来做静态的，包含了状态和“类型”和值的“定义表”。
enum和set列适合用来性别、国家、省份这些固定不变的信息。
要尽可能的避免使用字符串来做标识符，因为它们占用了很多空间并且通常比整数类型要慢，特别注意不要在myisam表上使用字符串标识符。myisam默认情况下为字符串使用了压缩索引，这使查找更为缓慢。
myisam使用前缀压缩来减小索引大小，默认情况下会压缩字符串，也可以压缩整数
可以使用create table时用pack_keys控制索引压缩的方式。
pack_keys在mysql手册中如下描述：
如果您希望索引更小，则把此选项设置为1。这样做通常使更新速度变慢，同时阅读速度加快。把选项设置为0可以取消所有的关键字压缩。把此选项设置为default时，存储引擎只压缩长的char或varchar列（仅限于myisam）。
如果您不使用pack_keys，则默认操作是只压缩字符串，但不压缩数字。如果您使用pack_keys=1，则对数字也进行压缩。
9.特殊类型的数据
一些数据类型没有直接对应的内建数据类型，精度低于秒的时间戳就是一个例子，另一个例子就是ip地址，人们通常使用varchar(15)来保存ip地址。但是，ip地址实际上是无符号的32位整数，而不是字符串。使用小数点来进行分纯粹是为了增加它的可读性。在实际使用时应用用无符号整数来存储ip地址。mysql提供了inet_aton()和inet_ntoa()函数在ip地址和整数之前转换。
bitscn.com

MySQL数据库表设计优化_MySQL

推荐信息