暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数据源集市实时流转MySQL状态表的优化方案

1034

这是学习笔记的第 2315篇文章

  自打构建数据源集市的技术栈以来,其实整个体系也在不断的完善,在数据流转的出口方向我们基本达成了一致,那就是在保证数据准确性和稳定性的基础上尽可能按照实时的标准去落地数据交付效率,所以数据源集市的目标不是简单交付数据了事,而是需要对中下游的服务提供强有力的支持,甚至提供数据实时流转的参考和依据。

目前一张表的数据如果要提供近实时的数据交付标准,一般有以下的几类策略:

1)基于自增ID的模式,根据数据库的自增ID可以快速的定位数据的增量位置,基本实现数据的增量同步,当然这种模式的局限性比较大,需要表中含有自增ID字段,对于数据库的吞吐量也会有潜在瓶颈,同时不适用于基于中间件的集群环境数据实时流转。

2)基于时间字段同步模式,时间字段的同步是表数据实现增量同步的经典方法,也是和业务紧密结合,但是带来的潜在风险是可能相关的时间字段有多个,同步定制化程度高,另外单一使用增量模式其实难以完全定位数据,还是需要另外一个维度的支持,比如自增ID等。

如果一张状态表要实现实时流转,实时交付,那么面临的问题其实是比较复杂的。 

通常这类状态表数据量巨大,但很可能没有基于自增ID的字段(通常是基于业务的ID字段),而基于时间字段基本可行,但是难以快速定位唯一的记录内容,最紧要的一点是我们通过唯一性定位得到的是变化后的值,变化前的值已经被完全覆盖,所以对于变化量的定义是比较复杂的。 

目前来看,碰到的一些瓶颈问题主要有:

中下游的数据服务提取数据时,尽管数据源是实时更新的,但是后续的数据服务是难以定位增量数据的。通过上述的多个维度都不合适,通常做数据检查的时候只能无奈使用select count(*) from xxx这种校验模式,而要解决这个问题最直接的方案就是程序段提供相应的流水日志,如果开发能力较强这个事情比较好落地,而如果业务风险高,这个事情要解决就比较麻烦了。

  如下是一种折中的解决方案,在不需要程序修改代码的前提下,能够实时提取数据变化并实时更新同步数据状态,大体的设计思路是基于实时日志服务,在这里是Maxwell.

 

我来简单解释下,如果一张状态表的数据要实时交付,那么数据源集市中我们保证状态表的数据实时复制是没有问题的,技术上完全能够做到,无论是基于库级别还是过滤到表级别,都是可操作的。 

而基于Maxwell的实时日志提取,我们可以从状态表中解析出表中数据实时变化的内容,我们可以间接实现一个账单表,对于中下游来说,就是间接把状态表转换为流水日志表,从而间接实现的实时流转和交付。

各大平台都可以找到我

  • 微信公众号:杨建荣的学习笔记
  • Github:@jeanron100
  • CSDN:@jeanron100
  • 知乎:@jeanron100
  • 头条号:@杨建荣的学习笔记
  • 网易号:@杨建荣的数据库笔记
  • 大鱼号:@杨建荣的数据库笔记
  • 腾讯云+社区:@杨建荣的学习笔记

近期热文:

《大江大河2》最触动我的一段经典对话

MySQL 5.7和MySQL 8.0的4个细节差异

从生命周期的角度来规划数据库运维体系

使用图表分析2020北京积分落户的数据

MySQL 8.0给开发方向带来的一些困扰

关于故障复盘的一些总结

迁移到MySQL的业务架构演进实战

MySQL业务双活的初步设计方案

如何优化MySQL千万级大表,我写了6000字的解读

一道经典的MySQL面试题,答案出现三次反转

小白学MySQL要多久?我整理了10多个问题的答案

转载热文:

工行“去O”数据库选型与分布式架构设计

MySQL 实战笔记 第01期:MySQL 角色管理

MGR用哪个版本?5.7 vs 8.0

SQLcl这个可爱的小工具,来了解一下呀~

CPU占用又爆了?MySQL到底在干什么

这个MySQL优化原理剖析,比照X光还清楚

自己动手写SQL执行引擎

最受欢迎的微服务框架概览

程序员,保住你的钱袋子!

QQ群号:763628645

QQ群二维码如下, 添加请注明:姓名+地区+职位,否则不予通过


在看,让更多人看到

文章转载自杨建荣的学习笔记,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论