
2024-05 ~ 至今 深圳市奥思网络科技有限公司 SRE工程师
2021-12 ~ 2024-04 福州瞭风网络科技有限责任公司 SRE工程师
2020-11 ~ 2021-11 宁德时代新能源科技股份有限公司 IT基础设施工程师
2020-03 ~ 2020-10 福建超巴云计算有限公司 运维工程师
2018-06 ~ 2020-03 福建米客互联网科技有限公司 运维工程师
· 负责码云Gitee的公有云运维
· 负责Gitee专业版的客户交付
· 为客户提供私有化部署的架构方案,提供DevOps解决方案支持
· 协助私有化部署客户排查业务系统问题
· 开发Gitee专业版部署工具,实现快速部署升级,减少人力成本,提高交付效率
· 开发helm-chart,实现在k8s环境下快速部署Gitee专业版
· 验证基于K8s部署的中间件的高可用能力,确保不因为中间件pod的异常导致业务中断,包括但不限于
Elasticsearch/kafka/zookeeper/RabbitMQ/Redis Sentinel等
· 优化Gitee专业版整体部署架构,保证在不同客户环境及场景下的业务连续性,提高系统可靠性
· 负责跨境电商业务系统的可靠性保障(3个9的业务SLA标准)7x24小时oncall值守
· 负责基于GitOPS/K8s的CI/CD流程标准制定及配置
· 负责管理阿里云/AWS平台的资源,进行费用评估,降低云服务的使用成本
· 负责管理维护阿里云/AWS上的kubernetes集群
· 负责平台权限(阿里云/AWS/堡垒机等)的管理分配
· 协助调研及落地Cloudflare CDN
· 负责应用性能问题排查及优化指导,包括但不限于:HTTP错误,请求超时,数据库慢查询等
· 引入Jumpserver堡垒机,提高业务系统安全性
· 负责Gitlab版本的在线升级及数据备份
· 利用FMEA失效分析的理论对基础设施进行风险评估,提出风险点,并针对风险点制定应对方案(监控预警,应对的指导
手册等),降低风险影响
· 负责基于AWS Aurora,阿里云RDS的数据库运维
· 负责应用中间件,数据库,网络等基础设施的可用性维护,以及配置性能优化。
· 引入Zabbix监控系统,替代原先的nimsoft监控系统
· 负责将近万台服务器监控客户端部署及旧监控系统迁移,实现监控客户端的自动化部署及服务器自动注册
· 负责制定监控清单标准化,根据监控需求制定对应的监控方案(API接口调用,开发监控脚本等)
· 使用Python实现自动化需求的代码开发
· 协助完成CMDB系统的部署上线,开发数据采集JOB,实现CMDB数据自动化采集及更新
· 协助自动化平台的实施落地,开发ansible playbook自动化任务
· 关联CMDB、监控系统、自动化平台,实现监控自动化配置,故障预处理,数据报表导出等自动化作业
· 利用Python,调用监控系统及CMDB的API,实现自动化生成巡检报告
· 负责Zabbix监控系统的搭建及维护
· 负责IDC物理机硬件设备的及用户VPS可用性监控方案的制定及实施
· 负责OpenVPN、LDAP的搭建及权限管控
· 负责搭建Jumpserver堡垒机系统,对运维人员操作进行审计
· 负责搭建AWX(Ansible Tower社区版)自动化平台
· 负责调研IDC管理平台
· 负责开发拨号日志记录系统
· 负责开发服务器自动化配置工具(基于Jenkins/Ansible/zabbix/Python)
· 负责阿里云服务的架构整体规划(包括但不限于:VPC子网划分,云服务产品选型,安全策略制定、费用优化等)
工作经验
评论