集成一体化流湖仓，柏睿大数据平台助力企业构建面向AI大模型时代的数据能力

柏睿数据 2023-10-27

155

随着商业智能、数据科学等领域的数据发掘和应用需求深化，将数据湖和大数据平台整合为一个协同工作的整体成为大数据领域的重要趋势，来更好地满足企业对海量多模数据的实时处理与分析需求。

柏睿大数据平台（Rapids Lizard）也集成了柏睿一体化流湖仓（Rapids Lakehouse）产品，通过提供灵活的海量多模数据实时分析服务，更好地助力各行业企业构建面向AI大模型时代的一站式数据资产管理能力和高效协同开发能力，实现数据智能基础设施的规模化建设；同时为数据科学家、工程师和研究人员提供更加完善、强大的工具集，加速企业级AI大模型的建设、训练和部署。

在柏睿大数据平台上，柏睿一体化流湖仓具备如下优势特性：

实时洞察

提供极致性能的数据处理和T+0实时在线分析。

高可扩展

计算与存储采用分布式架构，存算分离，支持PB级规模多模数据的灵活存储，可实现数百节点的横向扩展；支持在线扩容和节点替换，业务不中断。

流批兼顾

支持实时流数据处理和分析，流处理吞吐量超Spark 40%，延迟低28% ，离线同步速率超20万TPS，CDC平均时延低于4s。

开放兼容

支持集群、虚拟化、容器化多种部署模式，兼容多种软硬件与开源数据生态，支持多语言Open API，更易集成。

湖内治理

在为用户提供全保真、可管理、可追溯的高质量数据基础上，还提供湖内数据治理和特征库建设功能，满足客户针对AI分析、AI大模型能力构建的数据需求，以及具有行业特征的机器学习训练需求。

智能场景应用

基于AI算法集成、机器学习、深度学习等10余种算法，满足离线、流式、交互式分析等多场景应用。

统一安全

为各类应用提供统一、安全的访问接口；提供用户验证、访问控制、使用记账和审计全方位的安全功能；支持加密、多副本；支持故障自愈，业务快速恢复；确保数据的安全性和私密性。

柏睿大数据平台能够充分发挥柏睿一体化流湖仓的上述优势价值，在于其深度融合了柏睿一体化流湖仓的两大关键组件——数据湖、Transformer。

数据湖

数据湖是柏睿一体化流湖仓的底层数据存储，为企业客户构建成本高效、性能卓越的统一数据存储提供了开放性的成熟技术方案。

数据湖为数仓和流数据引擎提供针对多源异构海量数据的存储空间，具有以下特点：

01. 存算分离，摆脱对Hadoop的强依赖。

柏睿数据湖支持使用S3或者Hadoop 3（单独或混合使用均可）作为主要存储技术。通过存算分离，柏睿数据湖中的YARN仅作为兼容性运算服务，在用户需要YARN作为底层运算服务框架进行应用部署时提供。

02. 统一元数据目录，隐藏了底层存储技术的实现方法。

柏睿数据湖采用Hive Metastore作为数据湖表格数据的统一元数据目录，并增加了对Iceberg开放文件协议集成支持。统一的元数据服务层，使得数据湖表格的底层存储技术和存储位置可与数仓访问解耦，因此数据湖存算架构的扩展更容易。同时，作为数仓部分RapidsDB通过数据联邦功能中的Hive和Iceberg连接器即可快速便捷的访问统一的各类底层数据。

03. 支持HDFS、S3等分布式文件系统的对象存储，提供无限扩展能力。

04. 支持数据增删改（事务）功能。

柏睿一体化流湖仓结合Iceberg的事务支持能力，在数据湖全范围提供分析性表格的批量事务支持，使全功能数据管理操作在数据湖内成为可能，避免受限于HDFS存储服务“append only”的数据读写方式。

05. 支持对结构化、半结构化、非结构化数据的集成、处理和分析。

柏睿数据湖基于自研数据集成工具Transformer等产品，可为结构化、半结构化、非结构化和标准机器学习模型等入湖数据提供高性能、高效率的透明操作支持，并利用各种工具对这些数据进行后续处理和分析。

06. ETL引擎湖内按需运算、精炼，汇总数据，打造专业数据产品。

柏睿数据湖支持用户在湖内按需自助建模，及对湖内数据进行各种转换、合并分析操作，逐步生成经过精炼和汇总处理后的数据，并最终形成各种形式的、可对外发布的专业数据产品。

07. 湖内海量数据和ELT引擎，为AI特征库提供大规模可用数据和按需转换数据的运算引擎。

柏睿数据湖形成了一个整合企业全域海量数据的统一平台，可为基于数据湖的数仓提供高度结构化的海量分析数据，同时也为当下备受关注的AI分析提供海量基础数据。用户能够利用Transformer将算法模型所需要的数据，按需转换为训练模型所需的特征数据，并利用统一调度工具来调度模型训练和更新。

08. 统一元数据管理工具，保障数据质量和数据权威性。

柏睿一体化流湖仓通过配套的Meta统一元数据管理工具，可追溯从数据湖上游数据源到数据转换的各个步骤，为用户提供了对数据湖内不同来源、不同时期数据的全面视图，确保数据湖中数据的可溯源性，以及用户能够将各种处理和分析操作紧密与业务关联。

Transformer

Transformer是一个流批一体的数据集成工具，为数据工程师提供高性能、多样化的数据同步解决方案。基于Transformer，柏睿一体化流湖仓产品能够助力用户将多源异构数据以精准的方式同步到目标平台，同时在同步时效性和吞吐性能之间实现最佳平衡。

Transformer具有以下特点：

01. 连接多种异构数据源，支持数据源表结构变化。

02. 流批结合，对数据源可以采用CDC或批处理方式进行数据ELT同步，CDC同步方式近实时同步原始数据，能精确捕捉数据源事务变化。

03. 支持批量同步，提供高性能数据提取、加载能力。

04. 支持在目标平台库内高效按需自助建模，以及在库内、湖内高性能按需转换，为自助数据分析服务提供底层数据处理能力。

05. 支持镜像模式与历史模式两种同步方式。

具体通过以下功能实现：

连接器

Transformer以连接器的形式为不同的数据源提供提取、加载的功能支持。每一个连接器根据数据源的性质会对提取或者写入有不同的支持能力和实现方式。

同步工作方式

Transformer采用ELT数据同步方式，来最大程度确保得到的数据格式源端一致，从而允许数据建模可以按照业务需要灵活执行。在保持ELT架构灵活性的同时，也为用户提供在数据源定义提取范围时对提取字段进行筛选的功能，让ELT更加贴近用户实际工作需要。

同步数据格式

Transformer产品为多源异构数据提供高性能的数据集成功能。从数据源提取的数据，可以自动匹配、加载到对应数据类型的同构或异构的目标平台。

远程管理工具

Transformer提供了远程命令行操作程序和基于Web的可视化管理工具。无论是数据工程师，还是数据分析人员，都可以在产品文档帮助下快速上手使用。

未来，柏睿大数据平台也将基于全体系数据智能产品，朝着更加高性能、智能化、安全可靠、灵活部署的方向发展，满足企业不断增长的多元化、智能化数据处理及应用需求，助力AI大模型时代加速到来。

推荐阅读

抢鲜了解！柏睿数据云数据库产品开放免费试用

朝阳区工商联数字科技专委会“前沿科技主题讲座”在柏睿数据开讲

柏睿数据助力运营商业务经营多维分析提速，推动大数据价值转化

你的在看为智能数据算力点赞

人工智能大数据用户分析数据集成

文章转载自柏睿数据，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

集成一体化流湖仓，柏睿大数据平台助力企业构建面向AI大模型时代的数据能力

评论