点击上方“IT那活儿”公众号--专注于企业全栈运维技术分享,不管IT什么活儿,干就完了!!!


1. 磐维数据库主节点呈现readonly状态处置
2. 磐维2.0版本数据库添加数据库白名单出现白名单覆盖的情况
3. ANTDB数据库复制主库性能抖动处理
4. ANTDB数据库监控节点丢失处理
5. MYSQL主从从复制从库中断处置
6. 硬件更换导致K8S服务异常处理
7. ORACLE IPV6改造报错处置
8. ORACLE ADG同步延迟处置
9. OceanBase OAT中添加主机报错处置
10. GreatDB数据库主机开启防火墙导致节点通信故障
磐维数据库主节点呈现readonly状态处置
gs_check -i CheckDataDiskUsage
gs_guc reload -N all -I all -c 'default_transaction_read_only = off'
panweidb默认磁盘告警阈值过低,建议生产环境调高监控告警阈值,"数据库盘空闲率"须大于"数据库只读模式的磁盘占用阈值"。
磐维2.0版本数据库添加数据库白名单出现白名单覆盖的情况
磐维2.0的新特性,实践出真知!
ANTDB数据库复制主库性能抖动处理
在数据库参数在设置之前,需要深知其意、理解参数的具体使用场景,并在测试环境进行测试。
ANTDB数据库监控节点丢失处理
在进行数据库重启或者主机重启之后重新加载防火墙规则。
MYSQL主从从复制从库中断处置
尽量避免一次性提交大量更改:将大型事务拆分为较小的子事务,并在每个子事务之间定期提交,以减轻IO压力。
硬件更换导致K8S服务异常处理
对于k8s集群核心组件的故障,切忌盲目进行配置修改,首先应观察节点日志、集群事件。发现并非应用发引起的故障后才应驱逐该节点上的应用并将节点设置为不可调度,继续排查问题所在。
ORACLE IPV6改造报错处置
xnpmdb1:/home/oracle(xnpmdb11)$oifcfg setif -global bond0/2409:8050:5a00::fdfb:1:4c00:public
PRIF-33: Failed to set or delete interface because hosts could not be discovered
CRS-02305: GPnP resource discovery (MDNSD) is not running on local node
crsctl status res -t -init
/oracle/app/19.0.0/grid/bin/crsctl restart res ora.mdnsd -init
/oracle/app/19.0.0/grid/bin/crsctl stop crs -f
/oracle/app/19.0.0/grid/bin/crsctl start crs
一定要加强测试,再牛逼的O产品也会有BUG。
ORACLE ADG同步延迟处置
2023-10-07 08:28:00,2760 ERROR [pool-11-thread-10] [] [HttpsUtil.java:73] - req exception:
org.springframework.web.client.ResourceAccessException: I/O error on POST request for "http://1x.xx.xx.x:8021/api/insightAgent/commonInterface": 拒绝连接
(Connection refused); nested exception is java.net.ConnectException: 拒绝连接 (Connection refused)。
dd命令测试主机存储IO,写入速度500M/S,速度比较正常; 在ASM命令中执行CP,发现32G文件传输大概需要半小时; 传输归档过程中通过OSW监控, iostat 的输出中ASM复制测试期间表现为 util%将近100%,并且 wkB/s 并不高,代表 IO 等待时间的w_await和 r_await 也非常高。
2)搭建完RAC后,可以在ASM中做数据文件复制来测试ASM中磁盘的IO效率
OceanBase OAT中添加主机报错处置
oat上添加服务器主机,服务器用途配置为OBServer; 凭证使用root用户; 操作系统为统信OS V20;
[2024-03-08T15:40:09.047+0800] ERROR - check current session hard limit of open_files (ulimit -H -n): 4096 != 655360 ... EXPECT 655360 ... FAIL
[2024-03-08T15:40:09.047+0800] ERROR - TIPS: excute: ulimit -H -n 655360
[2024-03-08T15:40:09.047+0800] ERROR - check current session soft limit of open_files (ulimit -S -n): 1024 != 655360 ... EXPECT 655360 ... FAIL
[2024-03-08T15:40:09.047+0800] ERROR - TIPS: excute: ulimit -S -n 655360
通过检查oat中precheck.sh脚本中与openfiles相关的内容,发现脚本会对root用户和admin用户都进行最大打开文件资源配置进行检测; 本地查看ulimit参数也都符合要求; 在本地通过ssh方式远程执行precheck.sh脚本发现会与使用oat执行该脚本报一样的错误。
通过百度分析ssh的UsePAM参数可能会导致openfiles等ulimit配置检测异常; 统信OS sshd默认关闭UsePAM; 修改sshd_config,配置UsePAM 为yes,重启sshd服务后继续执行oat任务检测通过。
OB数据库对资源限制相关配置要求比较严格,PAM参数会影响OpenSSH会话的资源限制。针对远程检测ulimit资源限制,注意Openssh的UsePAM配置。
GreatDB数据库主机开启防火墙导致节点通信故障
新炬运维避坑指南连载合集链接:

本文作者:秘而不宣(上海新炬中北团队)
本文来源:“IT那活儿”公众号





