基础软件国产化替代系列之九:面对高速增长的数据规模和实时性数据的处理需求,某人寿公司传统的Orcale、CDH开源版数据仓库负荷严重超出,不扩容,无法满足实时性数据分析的需求;但是扩容却十分昂贵。面对数仓现代化挑战,该人寿公司选择了数仓国产化替代,满足企业业务发展实时化的需求。
某人寿公司的数据平台正面临这样的挑战:面对高速增长的数据规模和实时性数据的处理需求,传统的Orcale、CDH开源版数据仓库负荷严重超出,不扩容,无法满足实时性数据分析的需求,会影响性能与稳定性,但是扩容却十分昂贵。
面对这一两难抉择,该人寿公司选择了数仓国产化替代这条路。面对日益增加的实时应用需求,传统数仓现代化的唯一出路就是用自主研发的国产数仓,替代传统的国外或者开源数仓,满足企业业务发展实时化的需求。
在传统数仓现代化上,中国大数据基础软件领头羊星环科技,用自研的数仓产品,帮助不同行业的众多用户成功替代国外的传统数仓,让企业客户不但能享受数据实时分析带来的便利,而且成本更低,效率更高。
其实,“数据分析越实时,越能为企业业务带来更大的价值收益。”现在,实时分析、湖仓融合、弹性结构三大因素,促使数仓从传统走向现代。



01
实时数仓应用场景日益增多
人寿公司的数据仓库实时性应用场景非常广泛,例如:
实时数据分析,包括客户行为分析、销售分析、运营分析等,以便公司能够及时调整策略,提高运营效率。
风险控制,实时监测和预警潜在的风险,如保险欺诈、信用风险等,帮助公司更好地控制风险。
决策支持,为管理层提供实时数据支持,帮助企业做出更明智的决策,包括销售策略、产品开发、市场推广等。
客户体验优化,可以实时收集和分析客户反馈数据,了解客户需求和行为,以便公司能够提供更个性化的服务和产品,提高客户满意度。
运营优化,可以实时监测和分析公司运营数据,包括销售数据、服务质量、效率等,帮助公司优化运营流程,提高运营效率,等等。
其实包括用户行为与画像分析、实时报表与实时决策、日志管理与分析、交互式探索分析等等,正成为企业数仓现代化需要解决实时性问题。
越来越多的客户要求的功能是:对实时数据、最新数据和历史数据进行分析;确定跨数据域的数据的相关性,即使它们传统上不存储在一起(如实时客户事件数据与CRM数据;网络传感器数据与营销活动管理数据等);“大数据”的极致规模,却具有“小数据”的感觉和语义等。
推动数仓现代化的因素包括技术因素、商业因素和文化因素等。
在技术方面,检测所有内容并通过消息传递系统实时发送数据比以往任何时候都更便宜、更容易。
在商业方面,公司和政府正在尽可能多地实现运营的数字化和自动化,以便更有效地进行决策和资产管理。
在文化方面,人们希望他们需要的答案触手可及,随时可用,而不必去问别人。

02
实时需求等促进数仓现代化
实时数据仓库(RTDW)就是一种支持在一件事件发生后立即或很快处理和分析事件数据的解决方案。所有数据处理阶段包括数据接入、扩充、分析、基于 AI/ML 的应用等都是连续的,以最小的延迟运行,并支持实时报告和临时分析。
即使在保持大规模的情况下,一切都会更快。RTDW是一种数据仓库现代化,可让您在“大数据”规模上拥有“小数据”语义和性能。
如果对数据仓库与实时数据仓库进行一个对比,就会发现传统的数据仓库由用于整个企业做出战略决策的历史数据的集合组成,它整合了各种独立的数据源,以创建组织的个人视图。
实时数据仓库通过每天更新存储的数据来满足对最新信息日益增长的需求。因此,存储在实时数据仓库中的信息有助于在查询和分析数据时更好地了解组织的实际情况。
因此实时活动和数据仓库的融合就成为了实时仓库。当数据出现时,业务活动数据将被接入到实时数据仓库中。一旦数据可用,实时数据仓库就被用作信息检索框架。
在实时数据仓库中,每次系统执行交易时,仓库都会更新。这意味着当仓库中触发查询时,它将返回公司当时的状态。
实际上,实时数据仓库可帮助人寿企业做到:
·数据以更快的速度到达仓库,想想每秒数百万个事件的流不断到达。
·数据的最佳可查询性所需的时间更快,到达后立即查询,无需处理、聚合或压缩。
·查询的运行速度更快,小型选择性查询以10秒或100毫秒为单位;大型、扫描或计算密集型查询以非常高的带宽进行处理。
·在需要时,数据的突变速度很快,如果出于任何原因需要更正或更新数据,就可以在不进行大量重写的情况下就地完成。
虽然这听起来很普通,对某些人来说甚至可能是微不足道的,但人寿企业几十年的数据仓库应用已经表明情况并非如此。对于大量数据,这些数据到达的速度非常快,其中一些数据可能需要更新,并且有大量不同模式的查询,因此很难保持交互式性能。
而星环科技提供的RTDW功能可以满足所有这些需求。因此,许多客户正在构建 RTDW 应用,作为其使用星环科技实现数据仓库实践现代化的整体战略的一部分。

03星环科技助力某人寿数仓替代,实时分析提升业务价值
某人寿原数据仓库技术架构为运营数据存储ODS+实时数据仓库+批处理,依托CDH开源版,数据仓库查询、数据集市依托Oracle数据库。
面对高速增长的数据规模,传统的Orcale、CDH开源版数据仓库负荷严重超出,不扩容会影响性能与稳定性,但是扩容却十分昂贵。
随着数据量逐步变大,为了满足国家监管部门的新要求和业务端客户新报表需求,特别是实时业务的需求,该人寿业务计划对传统的数据仓库进行改造升级,建设新的数据平台项目。
用户的目标包括:一是替换国外开源的大数据平台,规避国外开源大数据平台许可协议改变和订阅限制的商务风险;二是替换国外的数仓产品,满足实时处理需求,改善性能,降低成本,实现国产数据库替代。


星环科技为该人寿提供了自研的关系型分析引擎Inceptor和分布式分析型数据库ArgoDB组合,提供数仓服务。
其中,关系型分析引擎Inceptor作为离线数仓承接T+1数据加工,如监管报送等主要支持“数据仓库跑批场景”。
星环分布式分析型数据库ArgoDB作为实时数仓,主要承接离线数仓中难以满足性能与时效要求的业务,如同构层秒级实时同步、报表查询,整合层指标加工以及部分实时性要求较高的下游集市。
基于星环大数据基础平台TDH(Inceptor)和分布式分析型数据库ArgoDB等构建的该人寿数据平台,在数仓平稳迁移的基础上,汇集了结构化、半结构化、非结构化数据。通过数仓新项目建设,帮助集团客户实现数据汇集与数据服务、数据资产管理、应用支撑与创新。
该人寿数据平台汇集核心业务板块,实现多个系统数据的接入。上游涉及到的保险业务系统包括个险核心、团险核心、承保系统、理赔系统等多个系统;下游支持数据仓库、实时大屏、领导驾驶舱、反欺诈、反洗钱、微信查询等多个系统。
该人寿数据平台成功实现了对国外开源大数据平台的国产化替代,实现了数仓的国产化,一方面,数据平台的存储成本降低,实现了高并发低延时分析,秒级查询,平均性能大幅提升;另一方面,保证用户应用系统的安全可控,满足政府监管的各方面的需求。
目前项目的数据量已经达到几十TB,并已经落地保险行业实时数据仓库、领导驾驶舱、监管报送、APP查询等应用。

04
实时数仓行业应用前景广阔
在各行各业的用户中,实时性的应用场景经常出现。比如实时资产监控和优化(如库存、供应链和车队管理),预测性维护(如工业物联网和化工生产线),发现实时事件中的新趋势和模式,并提出最佳行动建议(如用于股票市场分析、天气预报和动态价格优化);全分析(如实时欺诈检测、SIEM和监控系统);实时个性化建议和客户行为分析(如用于电子商务);医疗物联网、智慧城市管理等,这些热门实时数据仓库(RTDW)的用例,为用户创造了巨大的业务价值。
实践证明,实时数据仓库具有许多优势,包括:
· 可基于更新、准确和事务一致的数据更快地做出决策。
· 减轻了数据源的负荷。由于基于日志的变更数据捕获(CDC)对源数据库的影响较小,许多组织难以找到完美的数据加载窗口。
· 提高了从数据转换或负载问题中恢复的速度。
· 删除了在加载期间需要闲置源数据库和数据仓库的批处理窗口,避免了不一致的数据反映在查询结果中。
· 通过在数据库中而不是在单独的运行时环境中运行层次结构,实现了强大的数据仓库或数据集市数据库的优势。
根据2022年KX和CEBR的报告,实施实时数据分析的企业中80%的收入增长了21%。该研究涵盖了美国、英国、法国、德国、新加坡和澳大利亚等六个国家以及制造业、汽车、金融和保险以及电信等四个关键行业的1200多家公司。研究表明,这些地区和行业的潜在收入增长总额为2.6万亿美元,并有可能增加1.6万亿美元。


与开源数据仓库或国外的混合架构数据仓库相比,星环科技的ArgoDB具有突出的优势:
ArgoDB采用了星环科技自主研发的Holodesk格式,进一步优化了存储,并支持同时构建数据仓库和数据集市,以满足客户的离线跑批、实时计算、即席查询、综合检索和数据分析等多种需求。
同时,ArgoDB支持数据库的多模异构架构,一个产品可以同时实现“Holodesk数仓数集”和“文档存储全文检索”等不同场景功能,为客户的复杂多场景复合业务提供支持。
ArgoDB的索引更丰富、更全面,支持对多字段创建索引,支持创建多种数据源的数据快照,可以高性能访问快照数据,提高查询和分析性能,非常适用于数据集市OLAP场景。ArgoDB的整体稳定性更好,读写和查询分析性能更高。在事务处理方面,ArgoDB的稳定性更好,读写性能更高,并采用更优的方式处理小文件自动合并。
传统数据仓库从MPP+Hadoop混合架构正在向新一代的湖仓集一体化架构发展。星环科技的云原生实时湖仓集一体化平台可以统一运维管理、统一权限管控、统一操作审计和统一监控告警,满足用户数据仓库现代化的需求,实现对传统数据仓库的国产化替代。
参考资料:
https://www.scnsoft.com/analytics/data-warehouse/real-time
https://www.educative.io/answers/what-is-real-time-data-warehousing
https://mp.weixin.qq.com/s/Iw8FRJEOwxuuQ0iYBfYAog
https://mp.weixin.qq.com/s/yPrVM5RJ8DqiGAk1-yE6DA

识别图中二维码
关注我们

END





