您好,欢迎访问一九零五行业门户网

一次Oracle故障处理过程

中午接到报警,tomcat连接oracle并发数超过阀值,首先怀疑是否刚更新了程序,但询问一番后答案都是否。然后怀疑是有人进行大的操
中午接到报警,tomcat连接oracle并发数超过阀值,首先怀疑是否刚更新了程序,但询问一番后答案都是否。然后怀疑是有人进行大的操作。
登录到数据库机器,用top查看,是否有消耗资源的进程。发现所有的进程资源消耗比较平均,应该没有人在进程大查询或者大的操作。
使用ash,查看数据库近15分钟发生了什么。
sys@sg>@?/rdbms/admin/ashrpt
defaults to -15 mins
enter value for begin_time: -15
report begin time specified: -15
打开报告,发现可疑的sql。
       sql id    planhash % activity event                             % event
------------- ----------- ---------- ------------------------------ ----------
2ghd19kmj1m1t  2931439336      97.04 enq: tx - row lock contention       96.89
update tb_name where ......
-------------------------------------------------------------
这条语句,产生的enq: tx - row lock contention事件,占了整个的96.89%,确认问题就好解决了。
select a.sid, b.serial#,a.state, a.wait_time
from v$session_wait a,v$session b
where a.wait_class='application' and a.event='enq: tx - row lock contention'
and a.sid=b.sid order by a.wait_class, a.event, a.sid;
sid    serial# state     wait_time
---------- ---------- ------------------- ----------
      1817 42155 waiting      0
      1819 38267 waiting      0
      1824 43045 waiting      0
      1827 29392 waiting      0
      1831 56038 waiting      0
      1833 16463 waiting      0
      1836 13558 waiting      0
7 rows selected.
sys@sg>alter system kill session '1817,42155';
system altered.
杀掉相关进程,ok问题解决。在找开发人员,修改相关的应用。
这里只是提供一个思路,,发生问题的时候,一定需要冷静思考问题可能出现的地方,先找出问题的所在,再根据问题去解决。
其它类似信息

推荐信息