暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

中国移动协同产业链伙伴发布《大数据湖仓一体技术规范》

中移大数据 2022-09-08
699


在9月5日召开的2022年开放数据中心峰会上,中国移动携手信通院、华为、阿里、浪潮、曙光、亚信、南大、国信、偶数、新大陆等机构和产业伙伴联合发布《大数据湖仓一体技术规范》,首次定义了大数据湖仓一体技术架构的关键组成要素,提出了对湖仓一体架构下统一存储、统一元数据、统一计算、统一服务、运维管理、安全管理、平滑演进等关键能力的规范要求,为大数据产业链相关企业升级数据基础设施提供了系统性的指导与参考。


2022开放数据中心峰会上发布《大数据湖仓一体技术规范》
数据要素是数字经济深化发展的核心引擎,随着全社会数字化转型的深入,数据量越来越大,数据形态越来越丰富,数据处理和应用方式也更加多样,对数据基础设施的要求也越来越高,更强处理能力、更高处理效率、更便捷的处理方式成为越来越迫切的需求。传统大数据平台源于企业内部数据仓库,近年来更灵活的数据湖架构逐步走上台前,通常在企业内部湖和仓是并存的,但由于湖和仓技术架构存在差异,导致湖与仓之间存在数据割裂,在进行融合计算时需要额外的成本,不利于数据价值的快速发挥。
湖仓一体架构通过融合数据湖与数据仓库的优势,实现二者内数据的无缝联通流动,大幅缩减数据冗余与搬迁,避免了割裂系统产生的数据孤岛。它采用存算分离的结构,提供统一开放的存储接口,对接多样的计算引擎,通过资源弹性伸缩、灵活规划与部署,在提升企业大数据分析效率的同时有效简化了企业数据基础设施架构。湖仓一体架构虽然概念已经出现了多年,但仍然属于新型计算架构,体系复杂,落地难度大。不同的企业对湖仓架构有不同的理解,采用的技术方法论、技术架构、技术组件都存在差异,缺乏统一的规范,产业目标不统一,不利于产业协同,难以形成发展合力。
中国移动作为客户规模最大的运营商,具有丰富的数据资源,当前日采集数据量5.5PB,存量数据资产600PB,每日作业数超过20万。针对大规模数据处理,创新性构建了分布式协同计算平台,平台融合了分布式计算、存算分离、湖仓一体、云化大数据服务等多种技术。当前已经在宁波、汕头两个区域节点应用了20PB的存算分离架构,支撑湖仓一体技术落地,今年还将扩大规模到180PB落地到5个区域节点。湖仓一体涉及到存储、计算、数据管理、数据服务、运维安全等多方面,在推进分布式协同计算平台的研究和落地过程中,深切感受到在湖仓一体领域,由于产业界缺乏共识,在产品研发、方案协同上困难重重。基于上述背景,中国移动作为移动信息产业链链长,有责任凝聚产业共识,推动产业健康快速发展,因此携手存储、计算、数据库、数据服务等多领域伙伴,携手推出《大数据湖仓一体技术规范》,为协同产业界打破数据湖与数据仓库割裂的体系,充分融合数据湖的灵活性、生态丰富和数据仓库的企业级能力提供指南。
本次在ODCC开放数据中心峰会上发布的《大数据湖仓一体技术要求》,便是对构建这个完整有机的大数据技术生态体系的重要指导,标志着企业大数据技术栈的构建进入下一纪元。湖仓一体的技术架构如下图所示:

该架构可以很好地克服数据重力,让数仓内的热数据与数据湖中的历史数据足以高速处理与流动。湖仓一体技术架构由以下七部分组成:

01
统一存储
面向业务诉求,为原始数据、中间数据、业务数据、归档数据提供高可靠、高扩展的存储空间和数据管理能力,支持存储兼具数据湖与数据仓库的多种数据格式,在读写上实现热点数据高吞吐低时延、温冷数据大容量低成本的特质。通过通用的数据组织格式,如Hudi、Iceberg、DeltLake等,实现数据的统一存储访问。
02
统一元数据



通过采集、适配、拉通与管理数据湖与数据仓库中的元数据,构建统一元数据目录和数据视图,真正实现数据湖与数据仓库数据共享,提供湖仓一体化的元数据服务。
03
统一计算
集成批处理引擎、流处理引擎、交互式查询引擎、交互式分析引擎、机器学习引擎等通用数据处理引擎,覆盖数据处理全场景,通过统一元数据管理,实现与统一的存储的无缝对接。
04
统一服务
为上层业务提供一体化的数据服务体验,无需关注底层异构环境,为数据开发者、数据使用者、数据运营管理者提供统湖仓一体化服务能力。
05
统一运维
满足多样化运维需求,支撑平台管理员、各类运维人员或使用者及时发现、定位并处理问题,提高运维效率。
06
安全管理
依据三法一条例,构建全面的安全保护解决方案,从系统层安全、数据层安全、应用层安全构筑完整的安全管理能力。
07
湖仓一体架构演进
基于数据湖与数据仓库现有能力,对标湖仓一体的架构进行补充与完善,实现向湖仓一体架构的平滑演进。
中国移动秉承“开放、创新、合作、共赢”的理念,通过大数据“梧桐引凤”计划,打造丰富多样的大数据产业生态圈。坚持科技创新,联合“产学研”力量,搭建合作伙伴库,完善合作模式,进行行业深入融合。建立联合创新载体,推动科技成果转化与创新产品孵化。积极推动大数据相关的国标/行标/团标制定、系统架构和应用示范落地,促进产业协同和快速发展。履行央企责任,勇于承担国家重大科技任务,加强关键核心技术攻关,为我国大数据产业国际竞争力做出应有贡献。



往期精彩回顾













文章转载自中移大数据,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论