暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

民营500强企业利用国产大数据平台实现湖仓一体,成就数仓国产化替代新范式

273


基础软件国产化替代系列之八:中国用户的许多传统数仓到来该升级换代的时候了,实现国产化替代,落地湖仓一体,成为很多企业一个明智选择。民营500强企业利用国产大数据平台实现湖仓一体,引领数仓国产化替代新潮流。


随着数据湖的推出,业界对于数据仓库和数据湖的对比就没有断过。有人认为,数据湖要替代数据仓库。

现实却不是如此。IDC的报告显示,2022年中国数据仓库软件市场规模为8.7亿美元,同比增长23.7%。预计2027年,中国数据仓库软件市场规模将达到27.3亿美元,2022~2027的5年市场年复合增长率为25.7%。


经过30多年的发展,数仓发展的一大趋势就是大数据系统不但成为许多组织中数仓的重要扩展,而且可以作为统一的分析环境,实现数据仓库和数据湖统一部署,将数据湖的灵活性和可扩展性,与数据仓库的查询和数据管理功能相结合。


目前,中国用户的许多传统数仓到来该升级换代的时候了,实现国产化替代,落地湖仓一体,成为很多企业一个明智选择。而众多企业的成功实践也表明,数仓国产化替代成效明显,既经济、高效,又能在数据价值发挥上展现出魅力。

2023/10/16


1.为什么需要数仓?



专家介绍,数据库通常分为关系(SQL)或NoSQL,以及事务(OLTP)、分析(OLAP)或混合(HTAP)等几种。如果数据保留为其本机格式,为企业中的所有数据创建统一数据库时,被称为数据湖;如果将数据转换为通用格式和架构,则需要构建数据仓库;数据仓库的子集被称为数据集市。


从本质上讲,数据仓库是从两个或多个数据源创建的分析数据库,通常是关系数据库,用于存储结构化历史数据,数据规模可能达到PB级或EB级。


数据仓库通常具有大量的计算和内存资源,用于运行复杂的查询和生成报告。它们通常是商业智能(BI)系统和机器学习ML的数据源。


自20世纪90年代以来,数据仓库就是一种成熟的主流技术。而现代数据仓库可以同时查询结构化数据和半结构化数据,甚至可以将历史数据和流式实时数据结合进行分析。


那么企业为什么要使用数据仓库呢?


一是OLTP数据库限制了可以创建的索引的数量和类型,从而减慢了分析查询的速度。将数据复制到数据仓库后,可以在数据仓库中索引所关心的内容,以获得良好的分析查询性能,同时不会影响OLTP数据库的写入性能。


二是启用联接来自多个源的数据进行分析。如您的销售OLTP应用可能不需要了解销售地点的天气,但您的销售预测可以利用该数据。如果将历史天气数据添加到数据仓库,则很容易将其纳入历史销售数据模型中。


从企业成功经验来看,数据仓库业务和IT角度可以使组织受益,表现在以下几个方面:


通过整合来自不同来源的数据,数据仓库为企业高管和其他决策者提供了比其他方式更全面的业务运营、绩效和趋势视图。


数据仓库为分析用途提供了更高的数据质量和一致性,提高了BI应用的准确性。


有效管理和使用数据仓库可实现更明智的业务决策,帮助组织提高生产力和运营效率,增加收入,并获得优于业务竞争对手的优势。


从数据仓库生成的信息可以更主动地响应市场趋势、业务问题和新的业务需求。


数据仓库可以更好地了解客户行为和偏好,以帮助组织改善营销、销售和客户服务,并最终提高客户满意度。


通过将分析流程与操作流程移动到数据仓库并将其分离,可以提高操作系统的性能,并使数据分析师和业务用户能够更快地访问和查询相关数据。


当然,为了最好地满足其业务和 IT 需求,组织可以在本地系统、传统云部署和数据仓库即服务(DWaaS)产品之间进行选择。


2.部署数仓必须直面三大决策



如今,对于希望部署数据仓库的企业来说,必须面对三大决策:


一是将数据仓库放在本地还是云中?数据仓库可以在本地、云中或混合环境中实现。IDC数据显示,本地部署数据仓库软件规模为4.6亿美元,同比增长12.5%;公有云数据仓库软件规模为4.1亿美元,同比增长39.3%1。


从历史上看,数据仓库总是在本地,但数据中心本地服务器的投资成本和缺乏可扩展性等是用户必须面对的挑战。


将全部或部分数据仓库迁移到云中,可以利用云数仓固有的可扩展性以及连接到其他云服务的便利性。但是将PB级数据上传到云将是一个巨大的挑战。


二是选则数据仓库还是数据湖?数据湖以其本机格式存储数据文件,实质上是“读取时模式”,从湖中读取数据的任何应用都需要对数据施加自己的类型和关系。“读取时模式”适用于可能在多个上下文中使用的数据,并且丢失数据的风险很小,尽管危险在于数据永远不会被使用。Qubole估计,数据湖中90%的数据处于非活动状态。


而数据仓库是“写入时架构”,数据类型、索引和关系在数据存储在数仓时强加于数据。“写入时架构”适用于具有特定用途的数据,也适用于必须与来自其他源的数据正确关联的数据。其不足是格式不正确的数据,因为无法正确转换为所需的数据类型,可能会在导入时被丢弃。


三是否要将历史数据与流式实时数据相结合?实时数据库与流数据库从技术角度趋于统一,并逐步向数据仓库演进。但技术发展仍需要数年时间,短期内仍是互利共存状态。


另外,你是否需要数据集市?数据仓库包含企业范围的数据,而数据集市包含面向特定业务线的数据。数据集市可能依赖于数据仓库、独立于数据仓库(即从操作数据库或外部源中提取),或者两者的混合。


创建数据集市的原因包括使用更少的空间、更快地返回查询结果以及运行成本低于完整数据仓库。数据集市通常包含汇总和选定的数据,而不是数据仓库中的详细数据,或者除了数据仓库中找到的详细数据之外。

2023/10/16


3.传统数仓国产化替代迫在眉睫



星环科技的专业人士认为,传统数仓在更新换代和国产化替代时,必须适应未来发展的趋势,包括:大数据、云计算和AI技术在数据仓库领域的应用将越来越广泛;有必要强化数据共享和开放平台建设;数据安全和隐私保护将会是重要问题之一;数据治理和质量管理是需要特别关注的领域;湖仓一体将倾向于提供更多的自动化操作和自助服务功能等。


同时,湖仓一体在未来的发展中将更加注重数据治理、实时处理、AI集成、数据安全和自助服务,以满足不断增长的数据需求和应用场景的多样性。关注这些发展趋势的公司产品,必将在未来的竞争中占据优势。


星环科技多样化的大数据基础平台与产品能够实现用户传统数仓系统的平滑替换,相比替代产品,在性能、稳定性和安全方面都有较大提升。


利用星环大数据平台替代传统的数仓,除了效率提升,计算和抽取效率大幅提升外,其好处还包括:


分析数据类型增加,传统数仓平台仅支持结构化数据,而星环科技平台支持结构化、半结构化和非结构化的数据接入和分析;


更丰富的场景支持,基于星环科技全线产品能力,不仅能够支持传统分析,未来基于星环科技其他产品线可扩展到数据模型、AIoT分析、知识图谱等智能化应用场景;


依据数据治理体系规范进行应用建设,有效避免之前旧平台数据模型混乱、资源使用冲突、权限管理不清等问题。


星环科技全面的大数据平台产品能够支持用户当下及未来更多的应用场景。基本上用户只要提出业务场景,就可以使用星环科技的产品,提供相应的解决方案,相比利用不同的开源产品搭建平台,更放心、更安全、更有保证。


例如星环科技大数据基础平台TDH和大数据云平台TDC联合,可以完美地替代CDH/HDP和CDP,提升功能、性能、稳定性、易用性、扩展性、可靠性、安全、国产生态支持等能力,提供多种模型支持能力,性能提升可以达到5到100倍,原厂专业服务能力更强。


另外,星环科技分布式交易型数据库KunDB可以在交易型OLTP的业务场景、高并发在线数据服务场景等,替代Oracle/DB2/MySQL,并且提升存储计算能力、高可用能力、跨分区事务能力等。

2023/10/16


4.成功案例:替代传统数仓,实现湖仓一体



京博集团位列中国民营企业500强之林,其多元化的子公司业务遍布各行业领域。为积极推进集团全面数字化转型,构建与京博战略目标相辅相成的前沿数字化发展能力,京博集团将大数据平台建设项目确立为集团数字化转型的关键战略项目。


项目采用了星环科技大数据基础平台TDH、大数据云平台TDC、大数据开发工具TDS产品,从“采、存、管、用”四个方面构建京博整体的数据架构


在“采”时提供多种采集方式,支持多种数据类型的采集,包括填报、抽取、实时采集等;


在“存”时按照产业公司划分租户,实现存储隔离、资源隔离、计算隔离,将各产业公司数据放到产业租户内,对数据进行融合处理,并按照分层逻辑划分四层(ods-dwd-dws-ads),满足我们各个产业公司使用;


在“管”上,基于星环科技数据治理体系理论,使用TDS实现元数据、数据模型、数据标准、数据质量和数据安全等全面管理;


在“用”时,基于已完成标准规划的数据一部分通过报表工具展示给业务分析人员,一部分通过TDS的数据商城和Midgard功能实现产业公司间的数据共享,实现用的价值,同时也支持集团未来的智能分析和数据共享的需求。


替代传统数据仓库,增强业务分析能力,在能源行业中起到示范效应。京博集团当前使用的传统数仓仅能支持传统的报表分析业务,已不能满足京博集团现在及未来的业务需求。利用为星环科技TDC+TDH+TDS产品替代了传统的数仓,建成“湖仓一体架构”+星环科技产品批流处理能力,不仅能实现传统报表分析,还新增实时流数据处理和非结构化数据分析能力。


基于大数据平台能力,增加大量的应用场景,解决集团的业务痛点,创造经济价值。例如,以前物流车辆装货调度模式为“先到先进”模式,随着京博业务的发展,业务规模越来越大,订单越来越多,导致装货的车辆增加很多。为了保证能更快装到货物,大量货车司机提前来到在路上或停车场排队。受限于装货平台数量有限,停车场不足满足大货车停车需求,预期需求几千万进行扩建。大数据平台上线后,基于平台计算能力和支持场景多样化,开发了“调度系统”,对订单数据进行分钟级排队调度,计算排队货车数量并预估司机能够装货时间,司机只需按照预估时间出发,有效解决了停车场的挤占问题。


数据治理体系搭建,推动产业公司间数据共享。之前平台系统建设首要目标是满足业务使用需求,系统前端功能可用。对元数据和模型管理方面要求略低。导致以后再对系统进行业务分析时缺失元数据信息,花费大量的人力去补充完善。通过集团组织架构调整、多次数据治理培训和规范化操作的培训,使集团和产业公司上下认识到数据治理的重要性,数据治理的理念深入各个系统的建设之中,深入整个集团的数字化建设之中。


京博大数据平台自上线后,一直运行稳定,整体运行效率相比之前旧的数仓平台大幅提升,集团和各产业公司新的IT建设都在按照制定的规范实施,数据的流程、标准、质量和安全有了很大提升,实现了立项的目标。


参考资料:


·https://mp.weixin.qq.com/s/aDeFi_-CEuv9cgY91I7s1A


·https://www.techtarget.com/searchdatamanagement/tip/Top-5-elements-needed-for-a-successful-data-warehouse


·https://mp.weixin.qq.com/s/CkjHbgHAycJztoG9TIpzEA


·https://baijiahao.baidu.com/s?for=pc&id=1774539414011306581&wfr=spider



春华秋实!

扫码关注

大数据应用

从现在开始

End


文章转载自Hadoop大数据应用,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论