暂无图片
RAC1号节点频繁自动重启,1号节点的crsd日志和alert日志均看不出具体原因,但gicpd.log文件里面,一直循环的报错
我来答
分享
周伟
2020-05-18
RAC1号节点频繁自动重启,1号节点的crsd日志和alert日志均看不出具体原因,但gicpd.log文件里面,一直循环的报错
暂无图片 25M

请教各位专家:
我们的情况是这样的,一套RHEL 6.2 服务器上面的11.2.0.3 RAC 数据库,出现如下问题:

  1. 1号服务器经常自动重启,或者莫名的hang死;
  2. 故障时间点的OSW监控显示,CPU/MEMORY/DISK等均正常;
  3. 1号节点的alert日志和crsd日志里面,均看不出明显原因;
  4. 在crsd当中,发现了如下信息:2020-05-18 08:41:23.282: [GIPCXCPT][2775185152] gipchaInternalResolve: failed to resolve ret gipcretKeyNotFound (36), host ‘xxxxxx’, port ‘5031-eeef-1b4a-9685’
  5. 于是去查看了gipcd.log,发现日志一直在重复如下信息:
    2020-05-18 08:44:59.776: [GIPCDMON][1029220096] gipcdMonitorCssCheck: found node xxxxxxxnode1
    2020-05-18 08:44:59.777: [GIPCDMON][1029220096] gipcdMonitorCssCheck: found node xxxxxxxnode2
    2020-05-18 08:44:59.777: [GIPCDMON][1029220096] gipcdMonitorCssCheck: updating timeout node xxxxxxxnode2
    2020-05-18 08:44:59.777: [GIPCDMON][1029220096] gipcdMonitorCssCheck: updating timeout node xxxxxxxnode2
    2020-05-18 08:44:59.777: [GIPCDMON][1029220096] gipcdMonitorFailZombieNodes: skipping live node ‘xxxxxxxnode2’, time 0 ms, endp 0000000000000000, 0000000000000920
    2020-05-18 08:44:59.777: [GIPCDMON][1029220096] gipcdMonitorFailZombieNodes: skipping live node ‘xxxxxxxnode2’, time 0 ms, endp 0000000000000000, 00000000000009db
    2020-05-18 08:44:59.777: [GIPCDCLT][1033422592] gipcdClientThread: req from local client of type gipcdmsgtypeInterfaceMetrics, endp 0000000000000357
    2020-05-18 08:44:59.777: [GIPCDCLT][1033422592] gipcdClientInterfaceMetrics: Received type(gipcdmsgtypeInterfaceMetrics), endp(0000000000000357), len(1032), buf(0x7
    fab34266fa8), inf(ip: 300.300.300.5:56171, mask: 255.255.255.0, subnet: 300.300.300.0, mac: , ifname: ) time(0), retry(0), stamp(15), send(15), recv(15)
    2020-05-18 08:44:59.778: [GIPCDCLT][1033422592] gipcdClientInterfaceMetrics: enqueue local interface metrics (1) to worklist
    2020-05-18 08:45:00.539: [GIPCDCLT][1033422592] gipcdClientThread: req from local client of type gipcdmsgtypeInterfaceMetrics, endp 0000000000000c6d
    2020-05-18 08:45:00.539: [GIPCDCLT][1033422592] gipcdClientInterfaceMetrics: Received type(gipcdmsgtypeInterfaceMetrics), endp(0000000000000c6d), len(1032), buf(0x7
    fab34266fa8), inf(ip: 300.300.300.5:41064, mask: 255.255.255.0, subnet: 300.300.300.0, mac: , ifname: ) time(0), retry(0), stamp(0), send(0), recv(0)
    2020-05-18 08:45:00.539: [GIPCDCLT][1033422592] gipcdClientInterfaceMetrics: enqueue local interface metrics (1) to worklist
    2020-05-18 08:45:02.916: [GIPCDCLT][1033422592] gipcdClientThread: req from local client of type gipcdmsgtypeInterfaceMetrics, endp 0000000000000129
    2020-05-18 08:45:02.916: [GIPCDCLT][1033422592] gipcdClientInterfaceMetrics: Received type(gipcdmsgtypeInterfaceMetrics), endp(0000000000000129), len(1032), buf(0x7
    fab34266fa8), inf(ip: 300.300.300.5:10654, mask: 255.255.255.0, subnet: 300.300.300.0, mac: , ifname: ) time(10), retry(0), stamp(3), send(3), recv(3)
    2020-05-18 08:45:02.916: [GIPCDCLT][1033422592] gipcdClientInterfaceMetrics: enqueue local interface metrics (1) to worklist
    2020-05-18 08:45:03.342: [GIPCDCLT][1033422592] gipcdClientThread: req from local client of type gipcdmsgtypeInterfaceMetrics, endp 000000000000088b
    2020-05-18 08:45:03.342: [GIPCDCLT][1033422592] gipcdClientInterfaceMetrics: Received type(gipcdmsgtypeInterfaceMetrics), endp(000000000000088b), len(1032), buf(0x7
    fab340b3398), inf(ip: 300.300.300.5:34596, mask: 255.255.255.0, subnet: 300.300.300.0, mac: , ifname: ) time(0), retry(0), stamp(0), send(0), recv(0)
    2020-05-18 08:45:03.342: [GIPCDCLT][1033422592] gipcdClientInterfaceMetrics: enqueue local interface metrics (1) to worklist
    2020-05-18 08:45:04.037: [ CLSINET][1029220096] Returning NETDATA: 1 interfaces
    2020-05-18 08:45:04.037: [ CLSINET][1029220096] # 0 Interface ‘bond0’,ip=‘300.300.300.5’,mac=‘00-e0-ed-28-80-d0’,mask=‘255.255.255.0’,net=‘300.300.300.0’,use=‘cluster_int
    erconnect’
    2020-05-18 08:45:04.777: [GIPCDCLT][1033422592] gipcdClientThread: req from local client of type gipcdmsgtypeInterfaceMetrics, endp 0000000000000408
    2020-05-18 08:45:04.778: [GIPCDCLT][1033422592] gipcdClientInterfaceMetrics: Received type(gipcdmsgtypeInterfaceMetrics), endp(0000000000000408), len(1032), buf(0x7
    fab340b3398), inf(ip: 300.300.300.5:32930, mask: 255.255.255.0, subnet: 300.300.300.0, mac: , ifname: ) time(0), retry(0), stamp(0), send(0), recv(0)
    2020-05-18 08:45:04.778: [GIPCDCLT][1033422592] gipcdClientInterfaceMetrics: enqueue local interface metrics (1)

我一直怀疑是两个节点的私网通信有问题,但是OSW监控显示一直正常,一直到节点重启的时候才无法连通,而且也能正常ping通,ssh互连等等。

各位专家有没有谁有分析思路的?

我来答
添加附件
收藏
分享
问题补充
11条回答
默认
最新
张磊

操作系统是否做个调整?查看 messages 是否有报错

暂无图片 评论
暂无图片 有用 0
周伟

操作系统日志上面完全就是看不出任何信息来,就像一根水管一直在正常流水,但突然就中断了,然后重启后又继续流水一样,但是就是不告诉你为什么就中断了。

补充一点:

  1. 私有网络采用双网卡,做bound绑定。因为gipcd进程本身就有多网卡自动冗余的工程,不知道会不会和bound产生什么冲突或者bug之类的?
暂无图片 评论
暂无图片 有用 0
JiekeXu
暂无图片

先多看看数据库的各种日志吧,首先看看 ASM 日志是否有 ORA-27301、ORA-27302、ORA-27303 等的错误,因两节点 MTU 不一致会导致主机不断重启的故障。我遇到过类似的,如下文章可参考
https://www.modb.co/db/23015

暂无图片 评论
暂无图片 有用 0
周伟

@JiekeXu, 这个问题我也查过,MTU配置是没有问题的。这套库以前运行一直正常,直到最近因为内存故障,更换了内存后,就开始出现这种问题。目前更换后的内存比原来的少了一半,但数据库能够正常拉起来,只是过几个钟头后1号节点就会自动重启。
恼火的是,如果是内存硬件上的故障,但是系统日志里面一点消息都没有,整个服务器的情况就像一直运行正常,然后突然间就自动重启了。请了恩墨的维保,看看他们有什么线索没有。

暂无图片 评论
暂无图片 有用 0
weizhao.zhang (anbob)

上传所有节点的GI Alert log, Cssd log

暂无图片 评论
暂无图片 有用 0
周伟
上传附件:node1.zip
暂无图片 评论
暂无图片 有用 0
周伟
上传附件:node1.zip
暂无图片 评论
暂无图片 有用 0
周伟
上传附件:node2.zip
暂无图片 评论
暂无图片 有用 0
周伟

附件是两个节点的相关日志,重点关注以下几个故障时间点:
2020年15号的凌晨4点42分左右;
2020年18号的上午9点13分左右;
2020年18号的下午14点05分左右;

以上几个时间点,都是故障时间点,其中:
第一个时间点的现象是,1号节点hang死,没有任何日志记录,直到9点多手动重启后才开始继续写日志;
第二个时间点,是在18号的早上8点40分左右手工启动1号节点CRS,运行到9点13分左右,节点被驱除然后自动重启;
第三个时间点,是在18号早上自动重启后,运行到下午大概14点05分,号节点再次自动重启。

由此可见,这个问题并非是1号节点CRS启动不正常,而是启动后,运行不了多久,短则数十分钟,长则数个小时候就会出现故障。

我觉得可以重点关注一下是否集群的gipcd进程有异常,因为1号节点在CRS运行期间一直循环报同步两个节点均超时,2号节点只是报同步1号节点超时,同步它自己2号则正常

日志中的IP地址和hostname等信息都做了处理。

来吧兄弟们,姐妹们,都练练手吧,机会难得!

暂无图片 评论
暂无图片 有用 0
周伟

补充一点:
第三个故障时间点的时候,1号节点的alert里面有报:CRS-2412:The Cluster Time Synchronization Service detects that the local time is significantly different from the mean cluster time.
这个关于两个节点时间不同步的问题,两个时间点的确存在相差大概1分钟的时间差,可能导致第三个故障时间点的发生。但是对于这个问题,我们初步也排查过,在第二个时间点之前,我们做过NTP时间同步校正,并且1号节点正常运行了1个晚上,之后我们手动关闭了1号节点的CRS以防止生产影响,然后在第二个时间点之前,手工启动了CRS以便继续诊断,结果故障依然再第二个时间点产生了。

暂无图片 评论
暂无图片 有用 0
吾喾

尝试清除之前的配置信息,重新执行root.sh来配置
具体步骤:
1、/opt/app/11.2.0/grid/crs/install/rootcrs.pl -deconfig
2、在/opt/app/11.2.0/grid/ 目录下执行:root.sh

暂无图片 评论
暂无图片 有用 0
回答交流
提交
问题信息
请登录之后查看
附件列表
请登录之后查看
邀请回答
暂无人订阅该标签,敬请期待~~
暂无图片墨值悬赏