暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

专家分享:物理机网卡模式从mod6到mod1调整实战攻略

中国电信云荐社区 2021-07-20
853
赵幽/湖北公司/人才工作站PaaS专家

湖北公司在5月份顺利完成天翼云物理机网卡模式从mod6修改为mod1,以下为本次改造中的一些实操经验,供各位社区用户参考。

1)由于机器较多,工具推荐ansible,分发到各台机器执行。
可以在前期就修改掉所有物理机的网卡配置,实施当晚只需要重启网卡即可。
配置修改参考:
ansible <machine> -m raw -a "sed -i 's/mode=6/mode=1/g' etc/sysconfig/network-scripts/ifcfg-bond-bond0"
实施当晚参考:
ansible <machine> -m raw -a 'ifdown bond0 && ifup bond0 && cat sys/class/net/bond0/bonding/mode'
返回为active-backup 1 即为修改成功。
注意:实施时不要用ansible批量下发
湖北是修改完一台后等待5-10秒后再修改下一台,避免集群同时网络丢失造成奇怪的问题。总共331台物理机大约耗时2小时修改完毕。

2)主机影响
主机网卡会中断5秒左右。

3)对PaaS组件影响
经过测试,和实际割接观察,对于绝大部分PaaS组件无影响。docker集群,zk,kafka,cache,mq,nginx,otter,小文件系统等在网卡启动后均正常,整个过程中没有遇上需要主动恢复的组件。

4)建议teledb不要主动进行切换
前期测试,teledb的agent会短时间告警,但是不会引起切换。网卡恢复后状态能正常恢复。
由于主从切换一样会影响业务,而且一般MySQL库较多且一台机器上两套,实施起来切换操作太多影响效率,还有可能造成其他误操作,建议实施当晚不要追求先切换然后改从库网卡这种骚操作。
湖北在实施时仅关闭keeper,目的是不让set主动发起切换,然后一台台的重启主机网卡。实施结束后所有teledb的主从同步均正常,gateway和keepalived也正常。

5)因为改造涉及到teledb,无论如何会影响业务查询成功率,请提前申告。

小插曲:湖北有两台主机修改网卡后启动失败,经过云公司排查后发现是由于云管平台占用了这两个ip导致地址冲突。也请各省在割接前和云公司协调一下,以备不时之需。

 网卡配置还原命令:云公司登陆机器管理口,执行 
 sed -i 's/mode=1/mode=6/g' /etc/sysconfig/network-scripts/ifcfg-bond-bond0 && ifdown bond0 && ifup bond0 

文章转载自中国电信云荐社区,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论