相聚「1024」：湖仓一体，释放全量数据价值

巨杉数据库 2022-10-28

1244

巨杉数据库受邀参加第三届“2022 长沙·中国 1024 程序员节”，围绕巨杉数据库最新基于「湖仓一体」架构的SequoiaDB v5.2，深度解析了全量数据价值从「内部离线」向「实时对客」进一步释放的思考与实施方式，及对「释放全量数据价值」的进一步诠释。

10月23-25日，由湖南湘江新区管委会主办，长沙工业与信息化局与 CSDN 联合承办的第三届“2022 长沙·中国 1024 程序员节”盛大开启。本届 1024 程序员节以“算力新时代，开源创未来”为主题，作为企业级基础软件厂商，同时也是金融级分布式数据库市场的领导者，巨杉数据库受邀在数据库技术及应用实践论坛中做主题分享。巨杉数据库首席架构师程祺，围绕巨杉数据库最新基于「湖仓一体」架构的SequoiaDB v5.2，深度解析了全量数据价值从「内部离线」向「实时对客」进一步释放的思考与实施方式，及对「释放全量数据价值」的进一步诠释。

从「交易核心」到「数据核心」

作为有着35年数据库内核研发经验的数据库老兵，程祺是国内最早一批集中式和分布式数据库研究项目的核心成员，早在1986年就参与东南大学NITDB集中式数据库和SUNDDB分布式数据库的研究，拥有8项国际专利，在VLDB、ACM SIGMOD等会议及杂志发表多篇学术论文，曾任 IBM DB2 高级技术专家，拥有25年DB2内核研发经验，主要负责SQL编译器、查询优化器等核心模块。

在分享开始，他就明确指出：“伴随着数字化在各行各业的深化发展，企业不但需要面向业务的「交易核心」，同时更需要构建面向企业全量数据价值的「数据核心」。”

「交易核心」主要是管理单一系统下结构化的结果数据，解决的是交易系统的问题，面向渠道、产品、客户、核算及清算等业务流程，确保业务闭环。其交易过程产生的全量行为数据、流水数据等，将成为「数据核心」的生产要素。

相较之下，「数据核心」则依托分布式技术，解决的是数据的采集、整理、聚合、运用等问题，需要处理多系统的全量历史数据，并释放其价值。

对此，有3个维度的明显变化：

在数据类型方面：「交易核心」数据库往往只要处理单一的，结构化的交易结果数据，例如：余额、交易账单等信息；
而在「数据核心」中，我们需要保存的则是在每次余额变化、交易账单生成的背后，所伴随的大量结构化、半结构化流水记录等。整体来看，数据类型呈现更加多样化。
在时效性方面：「交易核心」数据库，更注重的是单个账务、交易系统中低延迟的在线事务并发性能；
而在「数据核心」中，我们更注重的是在复杂的、跨业务的场景中，对灵活可变的数据类型进行处理，并为前后端业务提供高并发的全量数据实时查询能力。
在业务范围方面：「交易核心」数据库，往往仅为某个业务系统单独建设；
而面向全量数据价值的「数据核心」系统，由于存放了企业的全量数据，将成为数十甚至数百个业务的数据基础设施，而不再是烟囱式的独立建设。

「双核时代」应协同创新而非替代

巨杉数据库始终认为，面向全量数据价值的「数据核心」并不是为了与传统「交易核心」数据库形成替换的竞争。

而是通过基于原生分布式数据库的「湖仓一体」技术架构，解决传统交易核心数据库所无法管理的海量数据及多模数据处理的综合需求，从而与传统「交易核心」数据库形成有效协同。

众所周知，金融银行业对于数据库的要求是十分严格的。在过去的10年间，客户接入到巨杉数据库的各类生产业务系统超过100个之多。巨杉数据库在过往已获得的行业大型企业规模化应用中，不少客户的部署规模达到200台，甚至400台物理服务器，数据容量达PB级别，数据记录数更突破万亿。

这充分说明，巨杉数据库并不是替代原有生产系统的「交易核心」数据库，而是通过成为客户的数据底座，为交易系统提供全企业跨业务视角的多模、实时全量数据，逐步成为客户全新的「数据核心」。

「湖仓一体」释放全量数据价值

中国众多的人口及领先的移动互联网业务发展，也让中国成为数字化创新最快的国家，金融银行业的科技发展更是催生出领先于全球的行业需求。与此同时，在数字化经济的发展下，全量数据的实时对客查询及分析能力，是提升客户满意度的关键因素。

从2013年正式商业化起，伴随客户对于多模数据处理、实时高并发、以及数据分析的业务需求，巨杉数据库从“多模数据湖”、“实时数据湖”发展到“湖仓一体”。

其创新应用主要体现在以下几点：

首先，面向结构化数据，巨杉提供深度的Join优化及列存微分区技术，在多个查询场景下，性能达到了ms级实时返回；分析场景中，性能更获得了10倍以上性能提升，让查询分析更实时。
其次，面向非结构化数据，巨杉通过「分片并发」及「可变分片大小」技术，相比原有版本吞吐量显著提升30%，让非结构化数据存取更实时。
再次，巨杉数据库的“实时数据湖”能够提供高并发全量数据查询能力，为实现各类综合业务运行更实时，帮助提升用户的满意度。

可以说，巨杉数据库背后的技术创新，来自于与中国金融银行客户的持续合作，客户的实际需求推动着巨杉数据库从「数据湖」到「湖仓一体」的持续演变，也推动着与国际竞品的同期发展。

不可否认，相比世界水平，中国的基础软件仍需进一步加强。与应用软件不同，基础软件解决的主要是「共性问题」而不是「个性问题」。而基础软件要想实现突破，就必须打开新赛道。回看历史，数据库的每一波新技术浪潮，都是在当时的应用和基础架构上的颠覆式创新，而不是针对已有旧技术产品的“改良”和“修正”。

10年来，巨杉数据库一直深耕金融行业，聚焦于利用分布式数据库解决海量数据的存储和管理，与众多金融行业客户共同成长。目前已在超过100家金融银行客户规模化上线使用，全面覆盖国有银行、股份制银行、省级农信、城商行、保险、证券等金融客户，获得客户的信赖及好评。

未来，巨杉数据库将持续聚焦「湖仓一体」架构的技术积累与创新，不断打磨产品，输出金融银行业累积的实践经验和成果，推动国产基础软件的长期发展。