暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

51CTO深度解读:用“极速统一”,开启金融行业数据分析新范式

StarRocks 2022-12-21
292

作者:51CTO 赵立京

数据库作为金融信息系统的核心基础设施,历经数十年发展,为金融行业转型升级提供了有力的技术支撑。同时,以银行为代表的金融行业是数据库销售额占比最高的市场,也是对数据库技术依赖度最高、要求最严格的市场。

据统计,2021 中国数据库市场行业分布中,金融占 20.2%,政府占 18.4%,互联网 14.8%,运营商 8.9%。IDC 预测, 2024 年全球数仓的市场规模将达到 297 亿美元,2019-2024 年的年复合增长率将达到 12%,其中云上的数仓市场规模将达到 181 亿美元,2019-2024 年的 CAGR 将达到 25.3%。预计 2024 年,中国数仓市场的规模是 168.5 亿元,中国大数据平台软件市场规模总体为 352.9 亿元,中国分析型数据库的整体市场将达到 521.4 亿元,复合增长率为 27.7%。

以往商业集中式数据库凭借较强的功能黏性、优秀的系统稳定性、良好的软硬适配能力,一直在金融行业占据较大份额。而互联网金融的异军突起,带来了高并发、海量数据、超高峰值等挑战。为应对这些实际场景,近年来各金融机构纷纷展开关于数据库的探索,并结合金融交易场景不断推陈出新,拉动数据库技术的迭代发展。

#01

传统IT系统无法满足金融交易要求

信通院在去年发布的《金融级分布式数据库白皮书》中指出,金融行业普遍对数据库的安全性、可靠性、稳定性有着全行业最为严苛的要求,因此,满足金融行业需求的金融级数据库产品几乎成为所有行业中的标杆。报告认为,金融级分布式数据库是能够满足金融级要求的高可用、高性能、低成本、线性水平扩展、企业级安全、便捷性运维的分布式数据库。

在众多金融级分布式数据库中,按照数据处理方式,大致可以分成两大类:联机事务处理 OLTP(On-line Transaction Processing)、联机分析处理 OLAP(On-line Analytical Processing)。OLTP 是传统的关系型数据库的主要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP 是数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。

可见,OLAP 数据库拥有高性能、可扩展、高可用和高容错等特性,因此在金融行业的应用规模有了明显的提升,并且正在从金融外围系统向核心业务延伸,有力支撑着金融行业的数字化转型。在过去几年中,我国数据库市场 “百花齐放”,包括传统数据库厂商,如达梦、人大金仓、神州通用;云厂商,如阿里云、腾讯云、华为云;新兴数据库厂商,如 StarRocks、PingCAP、星环科技、OceanBase;ICT 跨界厂商,如新华三、浪潮。这些厂商的数据库产品和方案,正在各大商业银行、金融机构及城商行的核心业务系统中投入使用并稳定运行,满足了金融行业核心业务系统对数据库的要求。

接下来我们来看两个实际案例,希望能为更多金融行业用户的转型带来借鉴和参考价值。


#02

中原银行和众安保险

迈入极速统一时代

中原银行是河南省唯一一家分支机构网点覆盖全省的省属法人银行,在全国城商行中的排名位列第 8 位,是河南首家资产超万亿的城商行。随着业务不断扩张、数据量的高速增长以及业务逻辑复杂程度的不断提升,中原银行需要快速响应客户需求,为其提供更加精准的服务,同时借助实时数据进行客户洞察,帮助银行业务人员做出业务决策,提高管理水平。

为此,中原银行搭建了一站式商业智能 BI 平台,该平台分为客户行为分析系统知秋、一站式报表平台鲁班、一站式大屏平台鸿图和自助分析平台云间四大应用系统,总用户超过一万人。为支持 BI 平台的快速高效工作,中原银行搭建了完整的数据平台。其中,该平台的存储计算层分为数据湖、离线数仓与实时数仓三部分,由实时数仓对实时数据进行处理,辅助进行实时决策。随着用户的增加,基于原有的数据平台架构,仅能支持 T+1 小时级别的准实时报表,难以满足银行在客户分析、风控管理等场景下的实时查询与分析需求。此外,原有数据平台流批链路复杂,运维成本高,且实时数据与离线数据的存储并不统一,存在冗余,造成存算资源的浪费。

为了提高数据平台的查询效率,深入挖掘实时数据的价值,提升实时响应能力,中原银行调研了市面上两款主流 OLAP 数据库产品,发现 ClickHouse 在单表查询和大宽表查询表现优秀,查询延迟也比较低,但是 Join 性能较差,且不易维护;StarRocks 在固化查询和灵活分析性能表现不错,多表查询性能也比较优秀,而且同时支持实时与离线导入分析场景。与此同时,StarRocks 具有流批一体、向量化执行、运维简单、查询效率高、兼容性好且能够满足高并发查询要求等六大优势,恰好满足了中原银行构建极速统一的数据分析架构的业务需求。

(中原银行基于 StarRocks 的实时数仓建设)

目前,中原银行使用 StarRocks 完成了固定报表迁移、知秋系统改造与实时数仓建设,极大提高了银行的数据导入、查询与分析效率。迁移完成后,固定报表查询效率提升为原来的 2.7 倍,所需时间下降到 3 秒以内;原耗时排行 top10 的报表,查询效率优化了 10 倍以上,同时还实现了自助客户行为分析。更值得一提的是,实时数仓架构将中原银行的离线数据和实时数据进行了统一,极大减少了数据的冗余,同时支持秒级导入与查询,提高了业务的时效性和多样性。 

(中原银行基于 StarRocks 的业务价值提升)

众安保险是中国首家互联网保险公司,不设任何分支机构,完全通过互联网展业。截至 2021 年底,众安保险服务超过 5 亿用户,累计出具约 427 亿张保单。

众安专注于应用新技术重塑保险价值链。在“保险+科技”双轮驱动下,众安将自身沉淀的保险科技能力和先进的商业模式向行业输出,将数据作为支撑整体数字化路径的基石,从看见到预见、从名单到客户、从运营到创新,每一个环节和每一次升级都离不开数据赋能。

(众安保险的数字化路径)

在数字化转型的进程中,多场景融合的精细化分析是数字化转型破局的关键,但众安遇到了一些困难,包括单一场景分析遭遇瓶颈、多场景数据分散严重和数据能力缺乏向业务层拓展。针对这些问题,众安建立了“集智平台”。目前在众安保险内部各业务线和部门,超过 3000人 都在使用集智平台,平均日活可达 2000+。

集智上线后采⽤的是 ClickHouse,但随着使⽤平台的⽤户⽇渐增多,业务⽅需要查询的数据量也越来越⼤,业务场景变得复杂后,很多特定场景 ClickHouse 的表现都不够理想:在多并发场景的查询性能下降严重、多表关联查询性能⽋佳、排查运维成本较⾼、需要借助第三方工具等。针对实时场景,集智平台在使⽤ ClickHouse 的 Replacing 引擎中也遇到了查询慢、不⽀持数据的删除、只能对同一分⽚上同一分区的数据去重等痛点。

(众安保险集智平台介绍)

基于以上情况,集智平台需要进行新的 OLAP 技术选型。经过选型评测发现,StarRocks 支持高并发,部分场景可支持高达1万以上的 QPS,TP99 可以控制在1秒以内。StarRocks 通过 CBO 优化,可以自动选择性能最优的查询计划,多表关联性能的表现也更好。

因此,众安保险在集智平台引入了 StarRocks,支撑理赔风险洞察、精细化运营分析、营销实时效果追踪等方面的应用,赋能战略决策人员、财务企划人员、营销管理人员、数据运营人员、数据分析人员。为了提升集智在查询加载方面的性能,同时将 StarRocks 极速查询及高并发相关能力更好地赋能给业务,集智在产品侧深度集成了 StarRocks,用户可以在平台上快速完成一站式的统一实时看板搭建。

通过引入 StarRocks,众安保险集智平台解决了极速查询和高并发等数据问题,提升了集智平台整体的数据支持能力和市场竞争力。以保险产品中线上渠道投放场景为例,当保险产品开始对外发售前后,市场人员会将产品投放到多个渠道进行推广曝光,通过经营的核心报表实时核算每个渠道的投放成本以及其对应的 ROI,根据数据表现情况实时调整投放策略,控制渠道营销流程中的获客单价和投放费用。因此数据反馈的快慢也会决定业务人员在定位问题、调整策略等事件上是否占据最佳时机。

通过中原银行、众安保险这两个案例可以看到,作为新一代极速全场景 MPP 数据库, StarRocks 具有可伸缩性、高可用、高性能、优秀的性价比等优势,在提升企业的业务价值方面深具潜力。


#03

极速统一3.0 
助力数据要素价值充分释放

大数据技术应用于企业级数据基础设施已不鲜见,而金融行业在实践层面一直走在行业前列,它们在数据湖、融合数仓等典型的技术场景不断探索,逐步将先进的大数据生态技术应用到风险控制、运营管理、信贷查询、信用卡征信和财务分析等业务场景。

比如中国银行就于 2021 年投产上线数据湖平台,希望为中国银行统一数据分析层、展现层、数据沙箱等探索提供平台支撑,沉淀和深度挖掘全行数据资产。中国建设银行则早早把数据仓库和数据湖作为数据底座,不同于不少企业基于 Hadoop 体系的湖仓建设,通过一体化架构设计、一体化湖仓直访、一体化数据视图、一体化资产管理,形成了具有自身特色的湖仓技术体系。

通过对金融、游戏、制造等行业的深入洞察和技术共创,过去一年, StarRocks 不断打磨产品的功能、性能、稳定性,修改了 80 多万行代码,发布了近 50 个版本。而在今年 9 月的 StarRocks Summit Asia 2022 上,StarRocks 社区正式发布了StarRocks 极速数据湖分析,开启极速统一 3.0 时代。

(StarRocks 2.4 在 SSB单表、SSB多表、TPC-H三个标准测试集下,相比于去年同期,性能提升了50%-80%。在物化视图、资源隔离、Query Cache、自动化数据分布、导入优化等各个核心功能均有重大突破)

StarRocks 认为,极速数据湖分析就是为用户提供性能堪比数据仓库的数据湖分析。在整个架构层面,当前 StarRocks 的数据湖分析已经具备了存算分离、弹性伸缩的能力。在存储层,数据支持按照 Apache Hive、Apache Iceberg、Apache Hudi 等主流表格式维护在对象存储之上。在计算层,从查询生命周期来说,StarRocks 的无状态计算节点 compute node,已经可以负责从扫描到聚合的全部计算任务;在控制层,FE 统一接入各类主流数据湖的元数据,并对湖上查询请求进行统一调度和规划。用户通过 StarRocks 进行数据湖分析,一方面能够享受存算分离、弹性伸缩等前沿技术带来的降本增效,另一方面,无需数据导入即可享受到堪比数仓分析的极速性能体验,更加敏捷地从数据湖中获取灵感和洞见,驱动业务增长。

人民银行今年发布的《金融科技发展规划(2022-2025年)》中提出了八大重点任务,明确到 2025 年,金融科技整体水平与核心竞争力实现跨越式提升,数据要素价值充分释放、数字化转型高质量推进、金融科技治理体系日臻完善、关键核心技术应用更为深化、数字基础设施建设更加先进。其中,数据库一直是金融行业持续创新的重点领域,涌现出了大批的热点技术和产品。而数据库产品无论选择哪条技术路线,目的都是要满足高可用、容灾、数据一致性、业务连续性和系统可扩展等方面的要求。

面对金融级高要求,基于“极速统一”的数据分析新范式打造出的 MPP 数据库 StarRocks,可以全面提升数据处理和分析的性能,将复杂分散的既有架构融合为简单一致的崭新架构。相信随着金融行业数字化转型的持续加速,StarRocks 必将应对更多的复杂查询、高并发、实时分析等场景,帮助用户实现数据价值最大化。


关于 StarRocks 

面世两年多来,StarRocks 一直专注打造世界顶级的新一代极速全场景 MPP 数据库,帮助企业建立“极速统一”的数据分析新范式,助力企业全面数字化经营。

当前已经帮助腾讯、携程、顺丰、Airbnb 、滴滴、京东、众安保险等超过 170 家大型用户构建了全新的数据分析能力,生产环境中稳定运行的 StarRocks 服务器数目达数千台。 

2021 年 9 月,StarRocks 源代码开放,在 GitHub 上的星数已超 3600 个。StarRocks 的全球社区飞速成长,至今已有超 200 位贡献者,社群用户近万人,吸引几十家国内外行业头部企业参与共建。



“极速统一” 数据分析新范式:

阿里云  腾讯云  众安保险   携程

微信   理想汽车   汽车之家   滴滴   游族
腾讯游戏   波克城市   欢聚集团   37手游
顺丰   京东物流   跨越速运  京东到家   58同城
小米   搜狐   小红书   华米  360  得物
酷家乐   DMALL   华润万家   百草味  中纺
   马蜂窝   松果出行   酷开   中原银行   TCL

StarRocks 技术内幕:

大数据自动管理     查询原理浅析

实时更新与极速查询如何兼得
基于全局字典的极速字符串查询
向量化编程精髓  Pipeline 执行框架
Join 查询优化   多表物化视图的设计与实现

StarRocks 支持 Apache Hudi 原理解析

阿里云EMR StarRocks 极速数据湖分析


👇 阅读原文了解 StarRocks 产品详细信息

文章转载自StarRocks,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论