您好,欢迎访问一九零五行业门户网

oracle数据文件的一次恢复经历

环境介绍:双机操作系统:solaris10数据库版本:oracle11gr164bit1、半夜接到电话,说数据库报大量错误,起来查看数据库,发现数据库已崩溃,查看alert日志,发
环境介绍:
双机操作系统:solaris 10数据库版本:oracle 11g r1 64bit      1、半夜接到电话,说数据库报大量错误,起来查看数据库,发现数据库已崩溃,查看alert日志,发现i/o报错:
wed dec 18 00:36:57 2013kcf: write/open error block=0x98abe online=1file=89 /dev/raw/raw03error=27063 txt: 'svr4 error: 5: i/o erroradditional information: -1additional information: 8192'wed dec 18 00:36:57 2013kcf: write/open error block=0x9d70f online=1file=91 /dev/raw/raw05error=27063 txt: 'svr4 error: 5: i/o erroradditional information: -1additional information: 8192'automatic datafile offline due to write error onautomatic datafile offline due to write error on      2、之前出过因为工程队碰到线,导致现网问题,问机房人员今晚是否有工程,机房人员说,今晚有新设备接入san网络,但经了解,无人碰到线,查看本机系统日志,报错如下:
dec 17 23:33:10 fly-db01 scsi: [id 107833 kern.warning] warning: /scsi_vhci/ssd@fly6000c5d0008a0000006b131400440 (ssd28):dec 17 23:33:10 fly-db01 scsi transport failed: reason 'tran_err': retrying commanddec 17 23:33:10 fly-db01 scsi: [id 107833 kern.warning] warning: /scsi_vhci/ssd@fly6000c5d0008a0000006b131400930 (ssd52):     3、查看其他使用到san存储的服务器数据库运行情况,alert日志,操作系统日志是否报错,以及挂载的为san存储的文件系统是否变成只读,,发现部分数据库也已崩溃,部分主机的文件系统变成只读,操作系统日志报lpfc的错误,之前也出现过这个错误,一般在出现lpfc的错误一段时间后,文件系统就会出现只读
lpfc错误:fly008:/var/log # cat messages | grep lpfcdec 18 00:34:05 fly008 kernel: [10201542.768302] lpfc 0000:03:00.0: 0:(0):0203 devloss timeout on wwpn 21:4g:00:0b:5e:6a:18:14 nport x014400 data: x40000 x1 x0dec 18 00:34:07 fly008 kernel: [10201544.816750] lpfc 0000:03:00.0: 0:(0):0203 devloss timeout on wwpn 21:4h:00:0b:5e:6a:18:14 nport x014500 data: x0 x7 x0dec 18 00:34:07 fly008 kernel: [10201544.816802] lpfc 0000:03:00.0: 0:(0):0203 devloss timeout on wwpn 21:4k:00:0b:5e:6a:18:14 nport x014600 data: x0 x7 x0文件系统只读错误:fly008~ #df -hfilesystemsize used avail use% mounted on/dev/mapper/vg_fly008_app-lv_fly008_app99g 41g 53g 44% /home/fly008fly008~ # cd /home/fly008fly008/home/fly008 # touch 1.txttouch: cannot touch `1.txt': read-only file system     4、对今晚所做配置进行回退,问题消失,重新拉起数据库,数据库正常启动,拉起应用,应用拉起失败,在应用的日志中,报如下错误:
sqlerrorcode: 376 ora-00376: file 92 cannot be read at this timeora-01110: data file 92: '/dev/raw/raw06'     5、在数据库的alert日志,也报相关错误
dde: problem key 'ora 1110' was flood controlled (0x5) (no incident)ora-01110: 数据文件 92: '/dev/raw/raw06'*** 2013-12-18 05:04:16.284ora-12012: 自动执行作业 226 出错ora-00372: 此时无法修改文件 92ora-06512: 在 fly.delete_fly_exception_info, line 8ora-06512: 在 line 1     6、查看数据文件的状态,标记为recover,需要进行恢复操作
sql> select file_name, file_id, tablespace_name, status, online_status from dba_data_files order by tablespace_name;file_namefile_id tablespace_name statusonline_status/dev/raw/raw0692flyavailablerecover
      7、数据库开启了归档,有数据库的备份,对92的文件进行恢复操作
# su - oracle$ sqlplus / as sysdbasql> archive log list;sql> recover datafile 92;sql> alter database datafile 92 online     8、恢复后,应用拉起正常,业务测试正常。
本文出自 “斜阳悠悠寸草心” 博客,请务必保留此出处
其它类似信息

推荐信息