2020年5月,HashData Enterprise 3.0版本正式发布,开创性地实现了元数据、计算和存储三者分离,多集群共享统一数据存储的云原生架构,提供前所未有的大规模数据纳管与分析能力。历经四年的持续打磨迭代,HashData Enterprise 3系列已发布数十个版本,成功帮助金融、运营商、能源等国民经济重要行业的领军企业加快数据架构的转型与升级,目前管理着100+PB的数据,每天处理1亿+的SQL查询。
技术的探索与革新,我们从未停歇。今年,HashData Enterprise 迎来了V4.0新版本。V4.0保持了V3.0的云原生架构,但基于全新的理念和代码基准进行设计和开发,无论是基础功能、核心性能、扩展性和弹性,还是对批流一体、湖仓一体和AI/ML应用场景的支撑,以及数据安全、系统稳定性和业务连续性方面,都迎来重大的升级,进一步践行我们的产品追求:让更多的用户,以更多的方式,分析处理更多的数据。
新版本亮点功能速览
亮点一:内核全面升级
HashData Enterprise V4.0 的内核实现了从 Greenplum 6(基于PostgreSQL 9.4) 到 CloudberryDB(基于 PostgreSQL 14.4)的飞跃性升级,此次升级不仅带来了内核能力的全方位革新,还显著增强了SQL的灵活性,新增了对multi-range、JSON、XML等复杂数据类型的原生支持,并丰富了语法操作与函数库。同时,数据库安全性能获得质的提升,引入了行级与列级安全策略,为数据保护筑起坚固防线。
亮点二:端到端查询性能优化
向量化执行引擎:通过SIMD指令集支持的向量化批量处理执行引擎和JIT技术,实现大规模数据集的高效并行处理,加速计算过程,优化查询性能。 行列混存格式:行式存储的写性能+列式存储的读性能,并集成最新的压缩算法+编码算法。 聚集算子下推:在合适的场景下,聚集下推能够明显地减少连接算子的输入集大小,进而提升算子的执行性能。 物化视图:完善的物化视图功能支持,并通过增量物化视图提升刷新性能;支持查询语句自动改写,利用物化视图提升查询性能。 主流索引类型支持:全面支持PostgreSQL常用索引类型,大幅提升点查性能。 全新的数据缓存层:元数据所占内存大幅下降,缓存文件组织更加紧凑,读写性能大幅提升。 UnionStore:存算分离架构下的行存表,大幅提升小批量插入、更新和删除操作的性能,让支持HTAP场景成为可能。
亮点三:扩展性、弹性和高并发
元数据组织:数据相关的元数据卸载到共享存储跟数据文件放在一起,元数据集群的负载压力降低一个数量级,大幅增强系统的扩展性。 数据分片策略:在保证计算节点工作负载均匀的前提下,摆脱数量固定的分片策略,让计算集群中节点可以扩缩到任意数量,不需要局限于2的幂次数,可以灵活设置,提升资源利用率。 接入层服务化:统一的接入点,解耦接入单元跟计算集群1:1的绑定关系,同时实现资源利用最大化和高负载情况下的负载均衡。
亮点四:AI/ML
Directory Table:提供非结构化数据存储和管理能力,实现全域数据纳管。 pgvector:提供向量数据存储和查询能力,有力支撑RAG应用。 HashML:提供业界最前沿的AI/ML和大模型算法,以及MLops的能力。
亮点五:湖仓融合
Hive集成:通过Hive Connector和HMS autosync功能,实现Hive数据的无缝对接。 数据湖集成:通过datalake_fdw扩展,全面集成以Iceberg、Hudi和Delta Lake为代表的开放数据湖格式。 FDW:迁移PostgreSQL生态丰富的FDW插件,支持包括文件、关系型数据库、分布式存储等多种数据源,提供逻辑数仓的能力。
亮点六:数据安全和业务连续性
数据脱敏与加密:提供基于规则的数据脱敏功能,利用pgcrypto加密函数保障数据在存储与传输过程中的安全性。 多版本访问:保留数据库对象的多个历史版本,支持时间旅行和UNDO操作,为数据持久化提供更高级别的保护。 多地多活:支持部署在多个地域的集群构成一个更大的逻辑集群,不同地域的集群互为彼此的备份,提供产品级的数据库灾备功能,确保业务连续性。
8月22日-24日,DTCC2024中国数据库技术大会将于北京朗丽兹西山花园酒店举办。酷克数据研发副总裁杨瑜将于8月22日下午受邀参加数据库内核+技术创新专场,将以《HashData Enterprise V4.0:构建云原生统一数据处理平台实践》为主题,首次分享HashData Enterprise 4.0的最新亮点功能与技术革新,带大家领略这款云原生数据仓库如何以卓越性能、极致灵活性和全方位安全保障,重塑数据处理与分析的未来。
同时,我们为大家准备了酷克数据HashData粉丝专属福利,感兴趣的朋友可以扫描下方海报二维码,0元获取原价3200元的DTCC入场门票。





