最常见的5个导致 rac 实例崩溃的问题 (文档 id 1549191.1) 适用于: oracledatabase - enterprise edition - 版本11.2.0.1 和
最常见的5个导致 rac 实例崩溃的问题 (文档 id 1549191.1)
适用于:
oracledatabase - enterprise edition - 版本11.2.0.1 和更高版本
本文档所含信息适用于所有平台
用途
本文档的目的是总结可能导致 rac 实例崩溃的最常见的5种问题以及较早版本(如 10.2.0.5)报告的常见问题。
适用范围
问题 1 到 5 仅适用于 11gr2 rac。的问题 仅适用于提及的版本。
详细信息
症状:
lmon (ospid:31216) waits for event 'control file sequential read' for 88 secs.
errors in file /oracle/base/diag/rdbms/prod/prod3/trace/prod3_lmhb_31304.trc(incident=2329):
ora-29770: global enqueue process lmon (osid 31216) is hung for more than 70seconds
lmhb (ospid: 31304) is terminating the instance.
或
lmon (ospid: 8594) waits for event 'control file sequential read' for 118 secs.
error: lmon is not healthy and has no heartbeat.
error: lmhb (ospid: 8614) is terminating the instance.
可能的原因:
lmon 等待读取控制文件,导致lmhb 使实例崩溃
bug 11890804 lmhb crashes instance withora-29770 after long control file sequential read waits
解决方案:
bug 8888434 已在 11.2.0.2 及以上版本 中得到修正
bug 11890804 已在 11.2.0.3及以上版本中得到修正
请参阅 document 1197674.1, document 8888434.8 和 document 11890804.8 了解详细信息
症状:
1. pmon (ospid:12585): terminating the instance due to error 481
lmon 进程跟踪文件显示:
begin drm(107) (swin 0)
* drm quiesce
lms 进程跟踪文件显示:
2011-07-05 10:53:44.218905 : start affinity expansion for pkey 81885.0
2011-07-05 10:53:44.498923 : expand failed: pkey 81885.0, 229 shadowstraversed, 153 replayed 1 retries
2. pmon (ospid: 4915562): terminating the instance due to error 481
sat oct 01 19:21:37 2011
system state dump requested by (instance=2, osid=4915562 (pmon)),summary=[abnormal instance termination].
可能的原因:
1. bug 11875294 lms gets stuck during drm,instance crashed with ora-481
2. haip 在部分集群节点上离线,或者 haip 在所有集群节点上都在线,但是无法通过其进行通信,例如ping操作失败。
解决方案:
1. bug 11875294 已在 11.2.0.3 中得到修正,绕过问题的方法是:
通过设置
_gc_read_mostly_locking=false 来禁用read mostly。
请参阅 了解详细信息。
2. 修正 haip 问题,请参阅 document 1383737.1
症状:
由于 ora-600[kjbmprlst:shadow]、ora-600[kjbrref:pkey]、ora-600[kjbmocvt:rid]、[kjbclose_remaster:!drm]或 ora-600 [kjbrasr:pkey] 导致 rac 实例崩溃
可能的原因:
这一组 ora-600 与 drm(dynamic resourceremastering)消息或 read mostly 锁有关。涉及多个 bug,包括:
document 9458781.8 missing close message tomaster leaves closed lock dangling crashing the instance with assorted internalerror
document 9835264.8 ora-600 [kjbrasr:pkey] /ora-600 [kjbmocvt:rid] in rac with dynamic remastering
document 10200390.8 ora-600[kjbclose_remaster:!drm]in rac with fix for 9979039
document 10121589.8 ora-600[kjbmprlst:shadow] can occur in rac
document 11785390.8 stack corruption /incorrect behaviour possible in rac
document 12408350.8 ora-600 [kjbrasr:pkey]in rac with read mostly locking
document 12834027.8 ora-600[kjbmprlst:shadow] / ora-600 [kjbrasr:pkey] with rac read mostly locking
解决方案:
上述大部分 bug 都在 11.2.0.3 中得到了修正,安装 11.2.0.3 补丁集应该可以避免这些 bug,除了 bug 12834027,此 bug 将在 12.1 中进行修正。绕过这个 bug 的方法是:
禁用 drm
或
禁用read mostly
例如:设置 _gc_read_mostly_locking=false
有关每个 bug 的说明和解决方案,请参阅上述相关文档。
症状:
警报日志中报告了 ora-7445[kcldle]
ora-7445[kclfplz]
ora-7445[kcbbxsv_12]
ora-744[kclfprm]
可能的原因:
它们是由不同的 bug 引起的,而这些bug都归结为 基础bug bug 12337941 dumps on kcldle / kclfplz /kcbbxsv_l2 / kclfprm using flash
解决方案:
此 bug 已在 11.2.0.3 中得到修正,请安装补丁集或使用以下方法绕过这个问题:禁用 flash cache
请参阅 document 12337941.8 ,了解更多详细信息
症状:
警报日志中报告了ora-600[kclpdc_21]
可能的原因:
document 10040035.8 lms gets ora-600[kclpdc_21] and instance crashes
解决方案:
此 bug 已在 11.2.0.3 中得到修正
10.2.0.5的问题
症状:
1. lms进程 报ora-600[kjccgmb:1]错误导致实例崩溃, lms:terminating instance due to error 484
2. 由于以下原因导致实例崩溃:
received an instance abort message from instance 2 (reason 0x0)
please check instance 2 alert and lmon trace files for detail.
lmd0: terminating instance due to error 481
可能的原因:
1. bug 11893577 - lmd crashed with ora-00600 [kjccgmb:1]
2. bug 9577274 - 1off:unable to view request output and log after applying fixto issue in bug 9400041
解决方案:
1. 对于 10.2.0.5.0,安装合并的补丁 12616787
2. 对于 10.2.0.5.5,安装合并的补丁 13470618
撰写本文时,,只有特定平台才有可用补丁。对于任何 10.2.0.5.x 版本,不需要同时安装上述两个补丁。
在centos 6.4下安装oracle 11gr2(x64)
oracle 11gr2 在vmware虚拟机中安装步骤
debian 下 安装 oracle 11g xe r2
本文永久更新链接地址: