2节点的AIX Oracle RAC,oswatcher的oswprvnet心跳网络监控结果中,发现有个节点有提示sendto:No buffer space available。请教下,是否代表节点之间的心跳出现了问题,该如何排查呢
数据库版本是多少?报错时间点集群有出故障吗
评论
有用 0数据库版本为AIX 7.2+Oracle 12.2.0.1
RAC集群是正常的,但数据库有性能问题,问题持续2分钟左右。从AWR报告中看2节点私网ping的统计值延时也很大
评论
有用 0
评论
有用 0提供当时的oswnetstat日志文件看看
评论
有用 0请在浏览器中上传附件,小程序目前无法上传文件。
评论
有用 0
评论
有用 0
评论
有用 0问题出在2#的心跳网络en9上面,14:48:24 - 14:53:40期间有大量的oerrs产生,表示output package大量error!
对应的1#心跳没有任何错误新增。
但是可以发现2个节点的心跳网络oerrs都是挺高的,这个需要重视:
1、从HBA卡、交换机等网络链路分析是否存在问题;
2、集群心跳流量是否过大,能否优化减少心跳流量或者提升心跳网络带宽
3、心跳使用MTU为1500,比较小,会产生大量的数据包分片,建议启用Jumbo Frame(需要交换机支持),可参考:
MOS文档 Recommendation for the Real Application Cluster Interconnect and Jumbo Frames (文档 ID 341788.1)
Name Mtu Network Address Ipkts Ierrs Opkts Oerrs Coll
egrep -e "zzz|en9 1500 192.168.4 192.168.4.24" ptdb2_netstat_19.03.19.1400.dat
zzz ***Tue Mar 19 14:48:24 BEIST 2019
en9 1500 192.168.4 192.168.4.24 24402872738 0 19521922078 39995812 0
zzz ***Tue Mar 19 14:48:34 BEIST 2019
en9 1500 192.168.4 192.168.4.24 24402879511 0 19523841967 40194119 0
zzz ***Tue Mar 19 14:48:45 BEIST 2019
en9 1500 192.168.4 192.168.4.24 24402882148 0 19526525073 40520339 0
......
en9 1500 192.168.4 192.168.4.24 24403045988 0 19583760759 46511862 0
zzz ***Tue Mar 19 14:53:40 BEIST 2019
en9 1500 192.168.4 192.168.4.24 24403052960 0 19584979668 46591570 0
zzz ***Tue Mar 19 14:53:51 BEIST 2019
en9 1500 192.168.4 192.168.4.24 24403099190 0 19585011674 46591570 0
Name Mtu Network Address Ipkts Ierrs Opkts Oerrs Coll
egrep -e "zzz|en9 1500 192.168.4 192.168.4.22" ptdb1_netstat_19.03.19.1400.dat
zzz ***Tue Mar 19 14:00:04 BEIST 2019
en9 1500 192.168.4 192.168.4.22 18087532203 0 23314002110 64000569 0
zzz ***Tue Mar 19 14:00:14 BEIST 2019
en9 1500 192.168.4 192.168.4.22 18087538456 0 23314015579 64000569 0
.....
zzz ***Tue Mar 19 14:59:45 BEIST 2019
en9 1500 192.168.4 192.168.4.22 18119062998 0 23330245909 64000569 0
zzz ***Tue Mar 19 14:59:55 BEIST 2019
en9 1500 192.168.4 192.168.4.22 18119465409 0 23330289836 64000569 0
评论
有用 01、数据库连接采取的是业务分离的方式,并不是负载均衡的方式,所以私网之间的网络流量不大,通常都在5MB/s以下
2、有没有可能是网络相关的操作系统参数设置不合理呢
评论
有用 0提取2个节点的en9网络配置文件、ifconfig en9、ethtool en9、ethtool -k en9。
评论
有用 0AIX没有ethtool
1、节点1
ifconfig en9
en9: flags=1e080863,18c0<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD(ACTIVE),LARGESEND,CHAIN>
inet 192.168.4.22 netmask 0xffffff00 broadcast 192.168.4.255
inet 169.254.168.172 netmask 0xffff0000 broadcast 169.254.255.255
tcp_sendspace 131072 tcp_recvspace 65536 rfc1323 1
2、节点2
ifconfig en9
en9: flags=1e084863,18c0<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD(ACTIVE),LARGESEND,CHAIN>
inet 192.168.4.24 netmask 0xffffff00 broadcast 192.168.4.255
inet 169.254.171.252 netmask 0xffff0000 broadcast 169.254.255.255
tcp_sendspace 131072 tcp_recvspace 65536 rfc1323 1
评论
有用 0No buffer space available的报错一般是网卡出现临时down的时候会发生,还是请OS工程师检查硬件,那么多的oerrs肯定不对的。
评论
有用 0
墨值悬赏


