暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

重构数仓 | 基于精品课业务的数据治理实践

网易有数 2021-12-03
1480

导读:

本篇是首届网易数据治理大赛获奖作品分享,来自于网易有道精品课数据团队。


大家好,我是来自网易有道精品课数据团队的闵程程,首先感谢网易有数的同事组织此次数据治理大赛,同时也非常荣幸代表有道精品课数据团队来参加这次比赛,我参赛的题目是《基于精品课业务的数据治理实践-重构数仓》。主要从4个部分跟大家逐一介绍,分别是项目背景、项目挑战、项目方案和项目效果。


1

项目背景


1. 有道精品课业务

有道精品课专注于学龄前和K12在线教育,主要包括学科类教育和素质类在线教育,通过主讲老师课程直播的形式,面向全国范围内的学生授课,课程以双师大班为主;在整个业务模式中角色众多,主要角色包括老师、学生、家长、运营等。


2. 项目背景

2021年Q1启动项目,受到疫情影响,在线教育全行业比较火爆,同业公司竞争非常激烈,公司业务增长率甚至一度达到100%;但从内部来看,数据能力没能跟上业务发展速度,成为发展的瓶颈。从外部看,同业公司均已建立数据中台,期望通过数据驱动、协同增效来获得市场竞争优势。


面对内外交困的局面,数据的精细化运营和企业数据生态系统重要性日益增加,进行数据治理迫在眉睫。


2

项目挑战


基于精品课的业务和系统现状,精品课数据治理面临6大挑战

  • 数据孤岛问题:为快速满⾜业务需求,存在烟囱式建设,导致数据孤岛

  • 指标管理问题:缺乏指标统一管理,系统之间相互独立,无法统一流程控制,导致指标口径不一致,指标泛滥

  • 元数据问题:缺乏元数据管理机制,问题核查,血缘关系查询非常困难,低效

  • 数据质量问题:数据质量公信力不足

  • 数据模型耦合严重:数据开发效率低,无法快速满足业务需求

  • 数据安全隐患:存在数据安全隐患


3

目方


基于精品课的业务和系统现状,以及考虑未来趋势,我们设计的方案是新建实时数仓。数仓按ODS、DWD、DWS和ADS层进行分层建设,按星型模型分别建设维度表和业务事实表,按增长域、用户域、订单域、直播域、练习域、售后域、教师域和消息域等8大域进行业务数据分域建设。


实时数仓除了提供数据分析系统,同时面向业务系统提供实时数据。


1. 技术方案

  • 数据采集层:业务库主要是MySQL、ES、Cassandra、TIDB,以及Kafka消息

  • 数据处理层:使用Flink做实时处理

  • 数据存储层:主要是TIDB,Doris,ES及hive;日常摄入监听数据实时进入TIDB和Doris存储,每日再同步一份存储到hive中,作为数据资产沉淀。

  • 数据加速层:采用redis做主动缓存以及杭研数据API接口服务作为数据加速和数据调用监控

  • 前台应用:TIDB面向业务系统提供实时数据查询;Doris面向数据分析系统提供实时数据分析;hive面向离线数据分析以及数据资产存储和沉淀


2. 项目框架

数据治理不是单点解决问题,而是全局过程管理,其中涉及到人、技术、规范和流程等方方面面,来保证项目从方案到落地。无法落地的方案不是一个好的方案,不能做到可持续发展的方案亦不是一个好方案。


3. 项目实施拆解

以业务实际数据应用驱动数仓分级、分优先级建设,避免数仓建设脱离业务实际或者数仓价值无法及时反哺业务。


在实操层面,我们以实时绩效和UE模型等公司核心数据应用所需要的数据,抽象出来订单域、直播域、练习域的核心表进行分层作为第一优先级建表及处理加工数据;以标签画像应用和渠道归因所需要的数据,抽象出用户域、增长域的核心表作为第二优先级进行分层建表及处理加工数据,以日常业务系统数据需求以及分析师数据需求作为对数据域核心表外的补充,这样逐步覆盖全精品课业务。避免脱离业务实际无法及时为业务提供数据支持。


在应用层面,根据实际情况,我们制定了一个大的原则,研发使用数据查询tidb和数据接口;分析师使用数据查询doris或者hive。


4

项目效果


(1)目前我们已经实现流批一体化,实时流处理和批处理使用一套代码;大大提高了产研效率;

(2)目前面临大数据我们已经实现了毫秒级延迟;

(3)赋能业务,该项目成立将近1年时间,已经接入20个以上的业务系统和数据分析系统,支撑1000+以上的报表和数据看板。



作者简介

闵程程网易有道精品课资深数据产品经理,有道精品课数据中台产品负责人。主要负责实时/离线数仓建设、标签画像系统、埋点系统、分析系统以及数据应用模型等。




赠书福利


今天赠送5《Flink实战派》~ 本书从多个角度讲解实时数据处理引擎Flink,采用“知识点+实例”的形式编写,包括47个基于知识点的实例和1个综合项目实例。适合具备Java基础的开发人员、大数据领域从业人员的参考用书。


赠送规则:点击上方图片参与抽奖
开奖时间:12月5日 12:00

分享,点赞,在看,安排一下?
文章转载自网易有数,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论