暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

【左羊闲谈】呸~ 数据,你不干净了

左羊公社 2022-10-08
238

这是一篇数据处理相关的文字(怕自己后面忘了)。

 

左羊:

数据:

 

刚刚结束十一假期,开开心心的来到公司上班。嗯,接了点水,泡了杯茶。看看假期前的工作日报回忆了下人类三大终极难题,我是谁?我在哪?我要干什么?

 

经过短暂的失神,哦 对对对,我得看看上周调整的数据在应用层的表现怎么样~  兴奋,搓手手~

 

咦!这咋跟想象中的完美呈现不一样呢?为啥呢?原本的预想是每个月只有一条汇总数据,但是!现在每个月的数据乱七八糟的好多条,不可思议吧!我又去看看相同数据其他表现层发现没有问题,我猜测是页面数据绑定的问题。经过一段时间的排查确定页面没有问题,哎,莫名其妙的~

 

页面端同事:

左羊:

 

没法子啊,查吧!从API接口层逐级向下查吧,拿出问题的数据主键还有没出问题的数据主键在接口测试工具排除问题项,发下业务逻辑没问题。那一定是数据有问题了。去看数据吧。ADS层,有冗余数据,怎么回事?在向下查,DW也有冗余数据。最后看到ODS层,哦~ 原来是增量分区造成的码表数据存在不同时间粒度的相同主键的历史剧造成的。

尴尬了,实在数据清洗没有处理,真的是粗心大意了(前人种树,后人乘凉,一点阳关都晒不到啊),再重新仔细捋了关键数据链路发现些许不合理的关联也会造成冗余、错杂的脏数据,影响最终呈现与研判。看这情形这几天注定无眠了~

 

数据虐我千百遍,我却待其如初恋~

 

最后,给自己提个醒!

  1. 接入源头数据时,一定要统一好不同类型的时间值;

  2. 在数据分区后,一定要保证后面的使用方能够拿到唯一可用的数据分区;

  3. 数据逐级引用时一定要简单化、明确化,不要搞成毛线团;

 

还有一些我还没想通,后面再补充。

 

这大抵是我目前的处境😂~

 

感谢您的观看,YES!

 


文章转载自左羊公社,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论