Oracle数据表默认值列添加与行迁移（Row Migration）

在笔者之前的文章中，已经探讨过给一个数据表添加有默认值列是一项非常危险的事情，特别是在在线生产环境下。给一张大数据表添加有默认值列，最直接的有下面几个严重危害：系统高负荷运行，消耗大量资源。添加列操作是一次性的ddl操作，生成大量的redo log记
在笔者之前的文章中，已经探讨过给一个数据表添加有默认值列是一项非常“危险”的事情，特别是在在线生产环境下。给一张大数据表添加有默认值列，最直接的有下面几个严重危害：
系统高负荷运行，消耗大量资源。添加列操作是一次性的ddl操作，生成大量的redo log记录；
长期数据表锁定，阻碍生产系统作业。添加数据列期间，对数据表添加独占锁，此时阻碍其他dml操作；
破坏原有存储结构，造成大量的行迁移（row migration）数据。在每个数据行尝试添加进默认值，进行膨胀的同时，由于rowid的特性，会引起严重的行链接情况，损害原有数据表存储结构；
本文主要想聊聊由于默认值添加带来的行链接（row migration）现象。
1、从row migration现象谈起
row migration本质上是一种由于oracle存储特性和数据行定位特性而发生的一种现象。在oracle中，所有的数据行都是保留在数据块单元上的。一个数据块可以容纳若干条数据（通常条件下）。一些数据列，如varchar2类型，大部分情况下都是根据输入数据的长度进行空间分配。
那么，如果数据行列填入了更大的数据，也就是空间发生了拓展。数据块存储上就会发生何种变化呢？每个数据块都会预留一部分的空闲空间，作为数据行变化预留位置。如果长度继续拓展，那么会发生什么呢？
oracle会尝试将这个数据行拷贝出，找个新的数据块进行存储。这样，就可以放下数据块。那么，一个新的问题出现了，就是rowid问题。
在oracle中，rowid是定位一条记录的物理地址。rowid包括数据文件相对编号、对象号、数据块号和slot行号。rowid普遍作为数据行的标记，保存在相关的索引叶子节点上。但是，当一个数据行被转移存储到另一个数据块，本质上物理存储位置已经发生变化。索引等对象中包括的rowid面临着失效的问题。
oracle解决这个问题是通过“虚拟门牌”的方法。这个数据行位置虽然已经到另外的地方，但是对应的rowid并没有发生变化。当我们检索数据，server process定位到原来的位置时，它会找到一个转换跳转地址，那里面记录着真正的rowid地址。这个就是发生了row migration。
row migration给系统性能带来了很多潜在的问题。比如，一行数据原来只需要寻找一个数据块记录，现在就需要寻找多个数据块才可以。这样就是带来的性能问题。
我们在进行默认值数据行添加的时候，就会带来row migration的爆发。
2、row migration与默认值列添加
下面我们通过实验，来证明row migration的出现。我们选择11gr2环境进行实验。
sql> select * from v$version;
banner
--------------------------------------------------------------------------------
oracle database 11g enterprise edition release 11.2.0.1.0 - production
pl/sql release 11.2.0.1.0 - production
core       11.2.0.1.0        production
sql> create table t as select object_id from dba_objects where 1=0;
table created
--添加若干条记录；
sql> insert into t select object_id from dba_objects where rownum
99 rows inserted
sql> commit;
commit complete
数据表t，在存储结构和空间分配上情况如下：
sql> exec dbms_stats.gather_table_stats(user,'t',cascade => true);
pl/sql procedure successfully completed
sql> select bytes, blocks,extents from user_segments where segment_name='t';
bytes    blocks   extents
---------- ---------- ----------
    65536         8         1
sql> select blocks from user_tables where table_name='t';
blocks
----------
        1
user_segment中记录着给数据段分配的总空间，但这并不代表全部的hwm位置。user_tables中的blocks，才代表hwm下数据块的个数。从上面的结果看，hwm下一共只有一个数据块。从rowid分析看，实际也的确如此。
sql> select dbms_rowid.rowid_block_number(rowid) blockno, count(*) from t group by dbms_rowid.rowid_block_number(rowid);
blockno count(*)
---------- ----------
    85857        99
下面我们进行数据列添加。
sql> alter table t add vc varchar2(1000) default lpad('t',500,'t');
table altered
executed in 0.078 seconds
对应的空间使用情况如下：
sql> exec dbms_stats.gather_table_stats(user,'t',cascade => true);
pl/sql procedure successfully completed
executed in 0.141 seconds
sql> select blocks from user_tables where table_name='t';
blocks
----------
       12
executed in 0.016 seconds
sql> select bytes, blocks,extents from user_segments where segment_name='t';
bytes    blocks   extents
---------- ---------- ----------
   131072        16         2
sql> select dbms_rowid.rowid_block_number(rowid) blockno, count(*) from t group by dbms_rowid.rowid_block_number(rowid);
blockno count(*)
---------- ----------
    85857        99
executed in 0.016 seconds
上面的情况可以看出，oracle的数据表t已经推高了水位线hwm到12个块，从空间分配也分配了新的extent使用。
但是，所有数据行rowid没有变化。所有数据行的“门牌号”都没有变化，但是存储呢？很诡异的增加了。正常容量下，数据块情况应该是如下：
sql> create table t_bak as select * from t;
table created
sql> exec dbms_stats.gather_table_stats(user,'t_bak',cascade => true);
pl/sql procedure successfully completed
sql> select bytes, blocks,extents from user_segments where segment_name='t_bak';
bytes    blocks   extents
---------- ---------- ----------
   131072        16         2
sql> select blocks from user_tables where table_name='t_bak';
blocks
----------
        8
sql> select dbms_rowid.rowid_block_number(rowid) blockno, count(*) from t_bak group by dbms_rowid.rowid_block_number(rowid);
blockno count(*)
---------- ----------
    86589        14
    86588        14
    86585        14
    86586        14
    86591        14
    86590        14
    86587        14
    86592         1
8 rows selected
下面，我们来证明发生了行链接情况。
3、数据表行链接检验
analyze语句一度是非常流行的收集数据表统计量的操作方式。但是随着dbms_stats包的成熟推广，analyze在统计量收集方面的功能已经渐渐弱化。但是，oracle依然保留了这个语句的两个基本功能：对数据表进行行链接（row migration）检测和索引健康程度检测。
下面使用analyze语句进行数据表t的检测。首先我们需要创建分析结果的容纳数据表。
--调用oracle_home下的脚本；
sql>@?/rdbms/admin/utlchain.sql
table created.
sql> desc chained_rows;
name                                     null?   type
----------------------------------------- -------- ----------------------------
owner_name                                        varchar2(30)
table_name                                        varchar2(30)
cluster_name                                      varchar2(30)
partition_name                                    varchar2(30)
subpartition_name                                 varchar2(30)
head_rowid                                        rowid
analyze_timestamp                                 date
sql> create public synonym chained_rows for chained_rows;
synonym created.
sql> grant all on chained_rows to public;
grant succeeded.
分析数据表，如下：
--检验数据行row migration情况；
sql> analyze table t list chained rows into chained_rows;
table analyzed
executed in 0.125 seconds
--发生row migration次数；
sql> select count(*) from chained_rows;
count(*)
----------
       86
executed in 0.016 seconds
sql> select head_rowid from chained_rows where rownum
head_rowid
------------------
aaasucaabaaau9haan
aaasucaabaaau9haao
aaasucaabaaau9haap
aaasucaabaaau9haaq
executed in 0.016 seconds
sql> select * from t where rowid='aaasucaabaaau9haaq';
object_id vc
---------- --------------------------------------------------------------------------------
       38 tttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttttt
executed in 0.016 seconds
在99行记录中，发生了86次行链接row migration情况。
4、结论
解决oracle row migration的方法，就是进行数据表重构，重新对存储结构和rowid进行整理。我们说，在生产环境下，进行有默认值数据列的添加操作，会引起一系列的问题，要三思而行。

Oracle数据表默认值列添加与行迁移（Row Migration）

推荐信息