暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

案例解读 | 乐维助力某期货企业综合运维平台建设实践

乐维社区 2024-06-25
96

项目背景

客户简介

案例客户为海南某期货企业,注册资本近3亿人民币,目前设有上海、深圳、大连、郑州、西安、浙江、山东、广东等9家分支机构。

痛点分析

随着业务量的与日俱增,运维服务成本的增加,客户在上海、海口两大机房基础服务运维保障的压力也随之增大,核心业务系统特别是服务器硬盘故障率较高,却不能及时发现故障服务器,业务存在一定的风险。

对此,该客户希望引进一套高效、稳定的运维监控系统,对原有的运维体系进行整合,便于全面、准确地掌握公司的业务系统状态;对服务器硬盘等关键性业务系统进行重点监控;对重点业务的应用提供性能监控;同时对机房的核心业务系统保障、资产信息做统一管理;以期达到以下目标:

(1)通过基础运维平台,保障系统健康,实现业务系统稳定的良性循环;

(2)统一两大机房设备的监控接入,让设备从分散到集合的监管;

(3)打造统一门户,集中管理平台入口,减少不同场景维护入口;

乐维方案

基于客户运维痛点与项目建设目标,乐维方案团队对项目进行梳理,并对项目建设进行具体规划:以运维门户、统一监控、集中告警管理为核心,辅以资产管理、可视化等,打造综合运维监控解决方案。

部署架构

客户本次监控对象为包括涵盖了网络设备、服务器、虚拟化等,总体监控对象在300个以内,结合监控对象的数量、类型、监控频度等情况,本次系统架构部署如下:

架构说明:

  • 监控服务器(Server、WEB):
  1. 负责上海、海口机房数据采集(后续考虑在海口机房添加Proxy)
  2. 禁止访问公网
  • 代理服务器:

1.负责接收监控服务器告警信息,并且将告警信息转发到公网企业微信服务器、腾讯企业邮箱服务器

  • 本次架构资源配置:

角色

操作系统

磁盘大小

CPU

内存

IP地址

主机个数

监控服务器

CentOS7

600G

8核

32G

1个IP 地址

1

代理服务器

Centos7

100G

8核

8G

1个IP地址

1

平台技术要求

平台采用了分布式架构(server+proxy)模式,数据库支持主备机制,动态监控可视化场景,系统故障时能够及时发现并实现多渠道分等级分权限告警功能。

平台架构要求

1

系统架构要求

监控系统部署架构支持分布式部署,实现在不同网络区域的统一监控管理

2

数据备份要求

监控系统数据库支持主备机制,可使用分布式数据库保障数据高可用

3

开箱即用支持自定义

监控系统需具备丰富的监控模版,包括监控项的最佳实践、监控阈值和告警方式等。同时,用户可自定义监控模版

4

告警收敛

监控系统需具备告警聚合功能,支持按设备项、监控项、业务系统等级别的告警聚合收敛功能

5

告警升级

支持告警升级管理功能,当设备出现告警,长时间未处理时,系统会将告警内容自动发送给备岗人员或部门领导,支持多次升级

6

自定义分组

监控系统具备分组功能,支持按照设备和业务系统两个视角分组管理,设备按照服务器、网络、存储、安全等视角分组展示和管理,业务系统支持用户自定义分组管理设备

7

数据分析

监控系统需具备按服务器、网络、存储等不同设备型视角下的监控指标项历史数据回溯分析及数据图表展

8

权限管理

监控系统权限管理功能,支持用户按照角色进行监控授权管理,权限纳管范围包括分组设备管理、功能菜单等维度

10

支持毫秒级探测

监控系统具备期货行业监控场景实践,包括Webservice服务类监控、毫秒级Ping监测(高频交易中对网络的监控)、对接期货综合交易平台(CTP)实时监控交易指标数据等等

11

部署监控平台软件license规模要求

提供300个监控节点

12

监控可视化实施服务

基于统一监控系统平台,交付1个动态监控可视化场景实施服务。实现IT基础架构SLA动态监测,包括基础架构分组设备的健康度(SLA)的可视化展现、多网络环境中核心设备间互联状态、设备状态、核心链路等关键指标的可视化监测

核心功能

      1. 运维门户

方案引入了运维门户,将客户的CRM、博易、文华中台、同花顺中继等数套系统集中接入,统一维护,免于在多套系统间切换。

      1. 集中监控

基于乐维监控的全栈监控能力,可实现从IT基础架构到业务系统的可用性、性能等指标监控。经梳理,乐维智能监控平台实现了对客户软硬件资源的集中监控,具体如下:

  • 硬件

主机:DELL、HP、ACE等x86服务器

网络设备:华为、山石

  • 软件

虚拟化:Venter

统一客户上海、海口两大机房的设备监控的接入平台,实现信息化基础资源全覆盖监控,保障了业务关键设备监控自动化管理,通过设置配置即可达到相关调整。降低人工成本。

监控对象集中展示

自动分类展示,实现不同对象的统计、健康状况、告警数量,从整体上可直观查看当前所有IT资源对象的,同时从整体上查看当前对象的CPU top、内存使用率top、服务器温度top等,另外可整体直观看到当前整个IT状况是否正常,以及每日产生告警数量、告警恢复情况。

为运维人员提供更准确、更直观的整体状况查看。无需单独去登录每个系统、每个设备进行繁琐的巡检工作。

/Users/kk/Library/Containers/com.kingsoft.wpsoffice.mac/Data/tmp/photoeditapp/20240606204849/temp.pngtemp

      1. 资产管理

由于资产规模不大,客户希望能够配备基础的资产管理能力,便于对资产进行维护。对此,乐维方案提供了简单但实用资产管理模块。

资产管理模块包括资源列表、目录视图等功能。可根据业务划分不同目录,清晰展示各个业务系统使用了对应的服务器、网络设备等,并支持自定义设备字段,记录设备所属机房、用途等信息;监控服务器还会采集设备SN号信息,用户在排障时可以快速找到对设备,并且通知设备厂商。

同时,资产关联告警,便于及时感知异常,快速响应故障。

/Users/kk/Library/Containers/com.kingsoft.wpsoffice.mac/Data/tmp/photoeditapp/20240606204038/temp.pngtemp

      1. 可视化视图

为客户对可视化方面的需求,方案还提供了一系列可视化功能模块,包括可自动发现的网络拓扑、业务地图、投屏视图、图形视图、一览视图等;

网络拓扑支持自动发现与自动生成,可以帮助运维人员快速梳理资源及其关系,拓扑联动故障告警,便于运维人员进行故障诊断、故障定位、影响范围分析等。

业务地图、一览视图可提供业务概况、监控资源概况的全局展示;投屏视图、图形视图还可以进行自定义展示各类统计图表,为运维决策提供支撑。

      1. 多样性报表:支持自定义、多维度、多指标报表统计功能;大屏展示:大屏幕集中监控实现自定义展示页面。预警提醒:通过企业微信、腾讯企业邮箱不同告警方式通知用户。

客户收益

    1. 通过IT资产全面梳理、全栈监控、实时告警等新型智能运维手段,建设出一套完善且灵活的成熟运维体系,告别传统“救火”式运维,有效提升运维效率,降低企业运维成本;
    2. 设备监控和资产管理有效联动,既可以通过监控发现问题,又可以通过资产管理快速定位设备,能够有效提高故障响应速度,优化维护流程。
    3. 平台个性化接入管理。打破平台间的联动壁垒,梳理整合平台,最大程度地减少重复操作的可能性,同时可视化管理统一,使得平台间的价值最大程度显现。
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论