暂无图片
分享
2019-03-20
oswatcher 私网提示:No buffer space available

2节点的AIX Oracle RAC,oswatcher的oswprvnet心跳网络监控结果中,发现有个节点有提示sendto:No buffer space available。请教下,是否代表节点之间的心跳出现了问题,该如何排查呢

收藏
分享
19条回答
默认
最新
Moone

数据库版本是多少?报错时间点集群有出故障吗

暂无图片 评论
暂无图片 有用 0

数据库版本为AIX 7.2+Oracle 12.2.0.1

RAC集群是正常的,但数据库有性能问题,问题持续2分钟左右。从AWR报告中看2节点私网ping的统计值延时也很大

暂无图片 评论
暂无图片 有用 0
暂无图片 评论
暂无图片 有用 0

tmp_9444ef27f8d336dea6c52bce3c9ba7e629bcaec879706a53.jpg

暂无图片 评论
暂无图片 有用 0

tmp_5ab094995ffd9788af1d0866ab836a79cd8c767efe67d939.jpg

暂无图片 评论
暂无图片 有用 0
Moone

提供当时的oswnetstat日志文件看看

暂无图片 评论
暂无图片 有用 0

DBASK上传不了文件

暂无图片 评论
暂无图片 有用 0
Moone

肯定可以的:

image.png


暂无图片 评论
暂无图片 有用 0
章芋文

请在浏览器中上传附件,小程序目前无法上传文件。

https://cs.enmotech.com/issueInfo/154

暂无图片 评论
暂无图片 有用 0
暂无图片 评论
暂无图片 有用 0
暂无图片 评论
暂无图片 有用 0

已上传,问题时间段为3/19 14:47-14:51左右

暂无图片 评论
暂无图片 有用 0
Moone

问题出在2#的心跳网络en9上面,14:48:24 - 14:53:40期间有大量的oerrs产生,表示output package大量error!

对应的1#心跳没有任何错误新增。


但是可以发现2个节点的心跳网络oerrs都是挺高的,这个需要重视:

1、从HBA卡、交换机等网络链路分析是否存在问题;

2、集群心跳流量是否过大,能否优化减少心跳流量或者提升心跳网络带宽

3、心跳使用MTU为1500,比较小,会产生大量的数据包分片,建议启用Jumbo Frame(需要交换机支持),可参考:

MOS文档 Recommendation for the Real Application Cluster Interconnect and Jumbo Frames (文档 ID 341788.1)


Name  Mtu   Network     Address           Ipkts Ierrs    Opkts Oerrs  Coll

egrep -e "zzz|en9   1500  192.168.4   192.168.4.24" ptdb2_netstat_19.03.19.1400.dat 

zzz ***Tue Mar 19 14:48:24 BEIST 2019

en9   1500  192.168.4   192.168.4.24          24402872738     0      19521922078 39995812     0

zzz ***Tue Mar 19 14:48:34 BEIST 2019

en9   1500  192.168.4   192.168.4.24          24402879511     0      19523841967 40194119     0

zzz ***Tue Mar 19 14:48:45 BEIST 2019

en9   1500  192.168.4   192.168.4.24          24402882148     0      19526525073 40520339     0

......

en9   1500  192.168.4   192.168.4.24          24403045988     0      19583760759 46511862     0

zzz ***Tue Mar 19 14:53:40 BEIST 2019

en9   1500  192.168.4   192.168.4.24          24403052960     0      19584979668 46591570     0

zzz ***Tue Mar 19 14:53:51 BEIST 2019

en9   1500  192.168.4   192.168.4.24          24403099190     0      19585011674 46591570     0


Name  Mtu   Network     Address           Ipkts Ierrs    Opkts Oerrs  Coll

egrep -e "zzz|en9   1500  192.168.4   192.168.4.22" ptdb1_netstat_19.03.19.1400.dat 

zzz ***Tue Mar 19 14:00:04 BEIST 2019

en9   1500  192.168.4   192.168.4.22          18087532203     0      23314002110 64000569     0

zzz ***Tue Mar 19 14:00:14 BEIST 2019

en9   1500  192.168.4   192.168.4.22          18087538456     0      23314015579 64000569     0

.....

zzz ***Tue Mar 19 14:59:45 BEIST 2019

en9   1500  192.168.4   192.168.4.22          18119062998     0      23330245909 64000569     0

zzz ***Tue Mar 19 14:59:55 BEIST 2019

en9   1500  192.168.4   192.168.4.22          18119465409     0      23330289836 64000569     0


暂无图片 评论
暂无图片 有用 0

1、数据库连接采取的是业务分离的方式,并不是负载均衡的方式,所以私网之间的网络流量不大,通常都在5MB/s以下

2、有没有可能是网络相关的操作系统参数设置不合理呢

暂无图片 评论
暂无图片 有用 0
Moone

提取2个节点的en9网络配置文件、ifconfig en9、ethtool en9、ethtool -k en9。

暂无图片 评论
暂无图片 有用 0

AIX没有ethtool


1、节点1

ifconfig en9

en9: flags=1e080863,18c0<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD(ACTIVE),LARGESEND,CHAIN>

        inet 192.168.4.22 netmask 0xffffff00 broadcast 192.168.4.255

        inet 169.254.168.172 netmask 0xffff0000 broadcast 169.254.255.255

         tcp_sendspace 131072 tcp_recvspace 65536 rfc1323 1


2、节点2

ifconfig en9

en9: flags=1e084863,18c0<UP,BROADCAST,NOTRAILERS,RUNNING,SIMPLEX,MULTICAST,GROUPRT,64BIT,CHECKSUM_OFFLOAD(ACTIVE),LARGESEND,CHAIN>

        inet 192.168.4.24 netmask 0xffffff00 broadcast 192.168.4.255

        inet 169.254.171.252 netmask 0xffff0000 broadcast 169.254.255.255

         tcp_sendspace 131072 tcp_recvspace 65536 rfc1323 1


暂无图片 评论
暂无图片 有用 0
Moone

No buffer space available的报错一般是网卡出现临时down的时候会发生,还是请OS工程师检查硬件,那么多的oerrs肯定不对的。

暂无图片 评论
暂无图片 有用 0

好的,谢谢您了

暂无图片 评论
暂无图片 有用 0
章芋文
问题已关闭: 问题等待验证
暂无图片 评论
暂无图片 有用 0
回答交流
提交
问题信息
请登录之后查看
附件列表
请登录之后查看
邀请回答
暂无人订阅该标签,敬请期待~~
暂无图片墨值悬赏