问题描述1、应用连接数据异常缓慢,包括客户端使用plsql连接;2、数据库主机cpu占用率居高不下,io写入居高不下。3、主机日常维护
问题描述
1、应用连接数据异常缓慢,包括客户端使用plsql连接;
2、数据库主机cpu占用率居高不下,io写入居高不下。
3、主机日常维护操作响应慢,如man或w;
分析问题
?系统及oracle应用为什么响应慢
1、为什么系统连w这么简单的操作都会觉得卡呢?
2、为什么没有任何应用接入的情况下,数据库会有大量的写入操作呢?
top //查看cpu使用情况,发现iowait%占用了大量的cpu时间;
iostat –mx 2 100 查看disk使用情况,发现磁盘利用率长时间处于100%状态;将系统响应慢定位在io请求过多导致。(关于iostat的使用参见man)。
?什么导致出现如此之多的io请求呢?
在观察后台的进程,发现有ora_p000...ora_p015. 共16个进程在运行。
我机器物理上2颗cpu,共有8个core (cat /proc/cpuinfo可以看到机器cpu信息)。 运行sqlplus “/as sysdba”进入sql命令行查看rollback相关参数,show parameter rollback 看到fast_start_parallel_rollback = low,此参数为默认设置为low,表明并行运行的回滚进程有2*number of cpu,在我的系统刚好表现为16个进程。与我使用ps –ef | grep ora_p 看到的ora_p000_*0**到ora_p015_***进程对应。
?为什么会有如此多的回滚进程出现呢?
经过询问项目组相关人员,发现有人在执行imp导入时,手动终止了。拿到该同事的imp语句一看清楚了,由于导入的数据量较大,又没有逐行提交(commit=y),异常终止后产生大量的回滚动作。
?回滚慢操作为什么慢:
view $oracle_base/admin/$oracle_sid/bdump/alter_.log查看oracle alert日志,发现大量的checkpoint not completed,表明redo文件组太少,导致lgwr进程在切换到新redo file时,等待旧数据写入(dbwn)数据文件;
解决办法就是增加redo file 组;
alert database add logfile group 4(‘/u01/app/oracle/oradata/oracl/redo04.log’) size 100m;
alert database add logfile group 5(‘/u01/app/oracle/oradata/oracl/redo05.log’) size 100m;
alert database add logfile group 6(‘/u01/app/oracle/oradata/oracl/redo06.log’) size 100m;
根据需要可添加更多的redo文件组。
select group#,members,status from v$log;发现有inactive出现就可以了。redo 文件处在active状态说明redo文件还没写入在数据文件中,若此时lgwr switch切换到active文件,将在alert日志中出现checkpoint未完成告警。
需要说明的是:回滚操作由于要写入redo文件,其本身就是很消耗系统资源的。
,