Oracle11GR2-集群磁盘异常报警

原创三石 All China Database Union 2025-01-03

308

Part1环境信息

数据库版本	服务器版本	架构
Oracle11GR2	rhel6.5	Rac

Part2问题报错

2.1、磁盘空间报警

[root@  trace]# df -Th
Filesystem                  Type     Size  Used Avail Use% Mounted on
/dev/sda5                   ext4      79G   77G   2G  98% /oracle

2.2、追踪暴增文件信息

[root@ trace]#  pwd
/oracle/grid/base/diag/asm/+asm/+ASM2/trace

[root@ trace]#  du -sh *
22G +ASM2_rbal_21102.trc

RBAL（ASM Rebalance Master Process，ASM再平衡主进程）

asm_rbal_+ASM

用于协调和管理磁盘组之间的动态平衡，RBAL用来进行全局调用，以打开某个磁盘组内的磁盘。

2.3、查看文件暴增信息

*** 2025-01-03 10:43:21.010
WARNING: Using brute force method to determine the size of /dev/full.
 There will be performance issues. Please check configuration to determine the cause for the failure of ioctl
WARNING: Using brute force method to determine the size of /dev/fuse.
 There will be performance issues. Please check configuration to determine the cause for the failure of ioctl
WARNING: Using brute force method to determine the size of /dev/ptmx.
 There will be performance issues. Please check configuration to determine the cause for the failure of ioctl
WARNING: Using brute force method to determine the size of /dev/ofsctl.
 There will be performance issues. Please check configuration to determine the cause for the failure of ioctl
2025-01-03 10:43:21.038: [ default]failed to initialize skgp context
2025-01-03 10:43:21.038: [ default]slos op  :  sslssreghdlr
2025-01-03 10:43:21.038: [ default]slos dep :  Error 0 (0)
2025-01-03 10:43:21.038: [ default]slos loc :  sskgpinit1
2025-01-03 10:43:21.038: [ default]slos info:  
[   CLWAL]clsw_Initialize: OLR initlevel [30000]
2025-01-03 10:43:21.040: [ default]a_init: Unable to get log name. Retval:[-4]
2025-01-03 10:43:21.067: [    GPNP]clsgpnp_dbmsGetItem_profile: [at clsgpnp_dbms.c:313] Result: (0) CLSGPNP_OK. got ASM-Profile.DiscoveryString='/dev/*'

从报错信息来看，是ASM磁盘组和/dev/里的磁盘文件出现问题了问题，一直在刷警告。 /dev/full、 /dev/fuse、 /dev/ptmx /dev/ofsctl 感觉这几个和数据库用的磁盘没关系，但是还一直刷报错

Part3确信磁盘信息

3.1、检查磁盘参数

su - grid
sqlplus / as sysasm
SQL> show parameter asm_diskstring

NAME              TYPE          VALUE
------------------  ----------- -----------
asm_diskstring     string        /dev/*

这个/dev/*有点过于粗糙了

3.3、检查磁盘对应信息

[root@ dev]# ls -lrt /dev/*
杂乱信息太多了，在查看的时候发现了一些特殊文件

[root@cprac89 dev]# ls -lrt /dev/emcpower*
brw-rw---- 1 root disk 120, 192 Jan  3 09:46 /dev/emcpowerm_back3
brw-rw---- 1 root disk 120, 128 Jan  3 09:46 /dev/emcpoweri_back1
brw-rw---- 1 root disk 120, 176 Jan  3 09:46 /dev/emcpowerl_back2
brw-rw---- 1 root disk 120, 432 Jan  3 09:46 /dev/emcpowerab
brw-rw---- 1 root disk 120, 464 Jan  3 09:46 /dev/emcpowerad
brw-rw---- 1 root disk 120, 448 Jan  3 09:46 /dev/emcpowerac
brw-rw---- 1 root disk 120, 416 Jan  3 09:46 /dev/emcpoweraa
brw-rw---- 1 root disk 120, 480 Jan  3 09:46 /dev/emcpowerae
brw-rw---- 1 root disk 120, 496 Jan  3 09:46 /dev/emcpoweraf
brw-rw---- 1 root disk 120, 512 Jan  3 09:46 /dev/emcpowerag
brw-rw---- 1 root disk 120, 528 Jan  3 09:46 /dev/emcpowerah
crw-rw---- 1 root root  10,  56 Jan  3 09:46 /dev/emcpower
brw-rw---- 1 grid dba  120, 304 Jan  3 09:54 /dev/emcpowert_vg1
brw-rw---- 1 grid dba  120, 336 Jan  3 09:54 /dev/emcpowerv_vg3
brw-rw---- 1 grid dba  120,  80 Jan  3 09:54 /dev/emcpowerf_arch
brw-rw---- 1 grid dba  120,   0 Jan  3 09:54 /dev/emcpowera_ocr1
brw-rw---- 1 grid dba  120, 384 Jan  3 09:54 /dev/emcpowery_vg6
brw-rw---- 1 grid dba  120, 368 Jan  3 09:54 /dev/emcpowerx_vg5
brw-rw---- 1 grid dba  120, 288 Jan  3 09:54 /dev/emcpowers_data10
brw-rw---- 1 grid dba  120, 240 Jan  3 09:54 /dev/emcpowerp_data7
brw-rw---- 1 grid dba  120, 272 Jan  3 09:54 /dev/emcpowerr_data9
brw-rw---- 1 grid dba  120, 208 Jan  3 09:54 /dev/emcpowern_data5
brw-rw---- 1 grid dba  120, 352 Jan  3 09:54 /dev/emcpowerw_vg4
brw-rw---- 1 grid dba  120, 400 Jan  3 09:54 /dev/emcpowerz_vg7
brw-rw---- 1 grid dba  120, 320 Jan  3 09:54 /dev/emcpoweru_vg2
brw-rw---- 1 grid dba  120, 144 Jan  3 09:54 /dev/emcpowerj_data3
brw-rw---- 1 grid dba  120, 112 Jan  3 09:54 /dev/emcpowerh_data2
brw-rw---- 1 grid dba  120, 224 Jan  3 09:54 /dev/emcpowero_data6
brw-rw---- 1 grid dba  120,  96 Jan  3 09:54 /dev/emcpowerg_data1
brw-rw---- 1 grid dba  120, 160 Jan  3 09:54 /dev/emcpowerk_data4
brw-rw---- 1 grid dba  120,  32 Jan  3 09:54 /dev/emcpowerc_ocr3
brw-rw---- 1 grid dba  120,  16 Jan  3 09:54 /dev/emcpowerb_ocr2
brw-rw---- 1 grid dba  120,  64 Jan  3 09:54 /dev/emcpowere_redo2
brw-rw---- 1 grid dba  120,  48 Jan  3 09:54 /dev/emcpowerd_redo1
brw-rw---- 1 grid dba  120, 256 Jan  3 09:54 /dev/emcpowerq_data8

发现两个点，一个是部分磁盘的属主和属组是 grid:dba 和 root:root，但是一般来说都是 grid:asmadmin,这个是异常点。

3.3、比对udev磁盘信息


[root@ dev]# cat /etc/udev/rules.d/99-oracle-asm.rules 
KERNEL=="emcpoweri", SUBSYSTEM=="block", NAME="emcpoweri_back1", OWNER="root", GROUP="disk", MODE="0660"
KERNEL=="emcpowert", SUBSYSTEM=="block", NAME="emcpowert_vg1", OWNER="grid", GROUP="dba", MODE="0660"

发现部分磁盘里编写的的确是就是 root:root和grid:dba,说明就这么配置的。而且我比对了磁盘信息和udev信息，发现一致，而且现在反应过来，那个trc文件一直在warning，而不是error。说明只是警告，应该不会引起异常。

Part4结论

最会不放心问了群里的大佬，得出最后的结论。

ASM 正在尝试通过路径 /dev/* 查找磁盘设备，但可能没有找到符合条件的设备。

数据库的磁盘信息就是 /dev/*，杂乱信息太多，导致数据库扫盘异常无法匹配，设置正确的asm_diskstring参数就好，应该就不会报警导致trc暴增了。

但是最后甲方给否了，现在就是warning，万一改了以后变成error，谁负责？

得，就这样吧。

墨力计划

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者