暂无图片
暂无图片
1
暂无图片
暂无图片
暂无图片

基于梧桐数据库的5G消息大数据应用创新实践

原创 jim 2024-11-19
261

一、应用背景
随着 5G 技术的迅速发展,5G 消息作为一种新兴的通信方式,正逐渐成为企业与用户互动的重要渠道。然而,目前 5G 消息的数据分散在不同的平台上,整合这些数据面临着诸多挑战。一方面,数据的分散使得业务难以全面了解用户行为和需求,无法进行精准的营销和运营;另一方面,不同平台的数据格式和标准不尽相同,增加了数据整合的难度和成本。为了解决这些问题,我们提出了基于梧桐数据库的 5G 行业消息创新项目,旨在整合不同平台的 5G 消息数据,实现数据的高效管理和分析,为业务提供精准的用户画像和运营决策支持。
业务痛点:
痛点1:现有大数据平台存储紧张,故将业务的数据存放在不同的大数据集群上,但在分析过程中,不同集群上的数据融合难度大,数据同步成本高。
方案:各大数据集群保障原有数据流任务不变更,数据结构不变更,数据不迁移,利用梧桐数据库对各集群数据进行云整合,达到跨平台跨集群数据分析的目标。
痛点2:现有大数据平台任务执行效率低,分析任务支持往往耗时长,结果数据新鲜度保障难度大,这在营销中有可能错过最优营销时机。
方案:历史全量分析与实时数据增量分析相结合,对历史数据进行批量分析存入目标表,同时按一定时间粒度将实时数据分析结果更新到目标表中,达到分析的及时性,保证目标用户群的新鲜度。
痛点3:现有大数据平台主要支持数据的提取、转化和加载,对数据的修改和删除、更新等的操作支持有限,在支撑 5G 行业消息大数据外部客户需求时较被动。
方案:结合数据仓库、数据湖进行需求快速响应,打破传统大数据平台在数据修改、删除的操作局限性,能够满足大批量数据高效计算,同时也能支撑小批量数据的更新。
二、应用目标
1、数据云整合:利用梧桐数据库的跨平台访问数据能力,在不迁移各平台数据、不改动数据结构的前提下,整合各平台数据源,通过梧桐数据库一点访问。
2、分析实时化:利用梧桐数据库的湖仓一体化能力,可高效访问各云整合数据的最新记录,达到分析的及时性,保证目标用户群的新鲜度。
3、操作高效化:利用梧桐数据库快速响应能力,打破传统大数据平台在数据修改、删除的操作局限性,能够在目标人群分析任务中更快速划分、更新数据分群,缩短任务执行时间。
image.png
经过不同产品的对比分析,选择使用梧桐数据库,其具有如下特点:

1、高扩展能力——数据量膨胀而系统扩容困难
image.png
基于云基础设施的部署和动态资源申请能力,为动态扩容提供了基础;存算分离架构,使计算能力、存储能力单独扩容成为可能,提升资源使用效率;Master 节点和计算节点的无状态设计支持分层扩展;
2、高并发能力——传统数仓对用户查询的并发限制
传统数仓的并发量受限于 Master 节点数量和计算节点规模,梧桐数据库将 Master 节点设计为多活架构,将元数据存储独立部署使 Master 节点实现无状态灵活扩展,通过扩展 Master 节点和计算节点规模可使集群整体支持上万并发。
3、混合负载的资源隔离——解决传统数仓负载干扰
image.png
传统MPP数据库的share-nothing架构在节点扩展或故障时会使集群在一段时间内不可用或服务能力成倍降低。梧桐数据库通过计算子集群设计实现资源隔离,业务互不影响;通过存算分离使数据与计算资源解耦;实现了集群在扩展和节点故障时的高可用特性。
4、极速计算引擎——大幅提升数据查询分析效率
基于 SIMD 指令集的向量化执行引擎,使数据处理性能相比传统MPP数据库提升5-10倍,相比Hive、SparkSQL等SQL引擎提升几十倍;弹性分布式优化器可高效利用计算资源;基于C的存储访问技术和谓词下推技术提升了存储访问效率充分利用存储资源。
5、打破数据孤岛——实现多源数据的接入与关联分析
image.png
原生支持HDFS、S3、Hive、Hudi等存储,通过可插拔框架可快速对接新的数据源,实现高效读写和数据共享。支持ODBC/JDBC/Spark/Flink,支持主流SQL语法和函数,支持多种ETL、BI工具。用户透明访问多个存储集群,实现数据跨集群关联分析。
6、数据安全保障——满足安全认证与数据加解密需求
支持 MD5、SHA、SM4 等多种加密算法,支持透明数据加密和列级别加密解密,支持用户、IP 等黑白名单的配置,支持对接多个 HDFS 集群的多 Kerberos 认证、LDAP 认证、Ranger 权限控制等多种安全措施。
7、强兼容性
梧桐数据库具备完善的 SQL 标准和 ACID 特性,支持对接访问 Hive、HDFS 等 Hadoop 原生组件,兼容基于 Oracle、PostgreSQL、Greenplum 开发的数字应用,便于用户实现不同数据基础设施的数据分析。
由于梧桐数据库的高扩展、高并发、高性能、强兼容、数据融合和数据安全特性,满足 5G 行业消息在不对每天1.5 亿数据量的迁移基础上进行多数据源融合分析,并能较好降低任务耗时,灵活筛选目标人群,故选择梧桐数据库。

三、应用效果
数据库架构创新点:跨多个hadoop集群的数据访问是体现在本项目的主要技术特点与优势。数据平台以梧桐为基础,支持大数据平台萝岗、移动云hive集群的挂载,通过kerberos认证连接和访问Hive数据表,以实现跨集群的关联分析。租户只要在梧桐集群上面开设新节点,继承kerberos权限,就可以实现从梧桐出发和联合各hive集群的融合分析,也可以将计算或存储的资源压力进行分摊。如萝岗集群作为老集群,其资源高峰时使用率在90%以上,租户间资源抢夺情况严重,带来业务响应卡慢等问题。租户可以在梧桐数据库上面进行数据存储、数据计算,不需要进行老集群数据迁移就可以直接读写老集群数据。梧桐数据库解决了hadoop集群间连通的问题,可以解决数据孤岛、资源不足等痛点。
数据库业务收益:通过分析已有需求,将分析环节耗时高的任务迁移到梧桐数据库,平时在传统大数据平台的执行时间为小时级,缩短到分钟级,效率提升约30倍。每天精准筛出目标人群包约3万,已服务客户约250万次有效投放,投放转化率由原来3%提升到5%。

最后修改时间:2024-11-19 17:22:31
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论