
消息队列业务场景与挑战
Aliware

业务架构

稳定性挑战
背景:
挑战:
策略:
稳定性治理
引擎:
资源隔离,新增监控打点等;
平台:
工单审核,权限管控,业务追溯;
治理:
针对集群可视化能力和集群可运维能力的建设;
消息队列治理实践
Aliware
集群可视化:监控metrics

硬件维度:
主要包括网络带宽、CPU 使用率、磁盘容量/IO、TCP 丢包/延迟等资源指标;
服务维度:
主要指运行状况的指标,如:
宕机监控、JVM 指标、读写时延、请求队列等;
业务维度:
即面向用户的指标,这是客户比较关心的指标,如:
消费延迟/积压、QPS、Topic 吞吐量、Offset 等;
告警处理


初期:关闭低优告警,以确保每一条高优告警能得到及时发现和处理; 中期:随着高优告警的减少,逐步打开之前屏蔽的告警,进一步处理,实现告警数量逐步减少; 后期:打开全部告警,确保日常告警每一条都能及时发现和处理。

集群可视化:metric 设计与优化
lag监控优化


分位线/滑动窗优化

问题二:消息写入耗时是历史最大值,参考作用有限;
改造:优化为 5 分钟内耗时,以及 P99/P999 等分位值;
结果:得到准确的消息写入耗时。

集群可视化:巡检系统
严格按照部署标准部署集群,包括硬件配置、运行参数、可用区等,对所有集群进行定期巡检,产出报表反映集群状况;
共制定核心标准 20+项,巡检结果以表格形式呈现,如下图表格。


由于指标过多无法从判断问题,因此设定了集群健康分体系,是基于集群的可用性只能通过唯一指标反映的思想,将每个指标设置一个权重,通过最终的分值来判断集群是否存在问题,如下图所示:

集群可视化:消息对账监控




集群可运维:自动化平台
修改 nameserver delete 逻辑,支持在 broker 间自动迁移 topic; 同时处理 consumer-group,retry/dlq topic; 依赖自研管理平台。
基于 reassign 改造,自定义 reassign 算法,减少 partition 搬迁的影响; stage 工作流化,每一步自动执行,人工确认下一步操作; 集成自研管理平台。

未来的探索与规划
Aliware
张亿皓:小红书消息中间件负责人

钉钉扫码加群
文章转载自阿里巴巴中间件,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




