在数据爆炸式增长的时代,企业在进行海量数据分析与处理时面临四大挑战:
l 极致的弹性扩缩容能力,满足海量数据处理需求
l 系统具备极高的可用性,满足7 * 24 * 365不间断持续运营诉求
l 具备实时性分析能力,对服务体验、精准的个性化服务要求不断提高
l 基础平台必须对应用开发友好,易管理易运维,满足业务创新加速,且在运维运营、变更等方面具有可视化、智能化能力
面对这些挑战,王伟民重点介绍了GaussDB的架构和关键特性,并通过三大案例介绍了GaussDB如何应对海量数据场景下面临的挑战、所应用的关键技术以及产生的业务价值。
PB级金融数仓迁移
GaussDB支撑某大行利用分布式数仓,对传统架构的数仓进行改造、向云化演进。该行的企业数据集成系统、企业数据仓库系统均采用商业一体机解决方案,另有数十个面向不同主题的数据集市。
由于数据规模及计算能力的要求,本系统当前已达240节点。大集群组网是分布式系统的一大关键挑战,GaussDB通过TCP多流链接共享技术,突破了物理端口限制;同时整个集群采用了“Fat-Tree”组网,来消除集群内上行、下行带宽瓶颈。
针对每日新增TB级数据的需求,GaussDB提供并行数据加载工具(GDS)提高数据加载速度。优化后单DN加载速度可达30MB/s,集群可达到TB/h (视DN数有关)。极致的加载速度是迁移PB级数据的关键能力,GDS并行加载性能业界领先,得到客户高度认可。
面对企业数仓规模不断扩大的需求,GaussDB能够实现按需扩展,满足业务增长对存储和性能的要求,降低TCO。2018年9月,GaussDB成功实现跨园区数据无损搬迁。2018年12月,原数据仓库系统100%搬迁。2019年6月30日,原数据仓库全部下线。
平安城市多源数据、异构融合分析
GaussDB支撑某平安城市场景,该场景存在三大挑战:多类型数据分析平台孤立建设,数据分散,无法拉通分析;受限于成本和架构,且随着数据量增加,扩容成本高;应对突发事件,需要实时对相关数据进行取证,已有系统交互分析响应时间长。因此,亟需具备高性价比、弹性可扩展、支持交互分析的平台。
在平安城市典型的“套牌车分析”场景中,某市有数千个智能卡口,集中存放约6000万过车记录。GaussDB在MPP并行计算框架基础上,利用列存向量化技术,可以秒级完成套牌车分析。
平安城市中涉及到多源融合分析场景。GaussDB的SQL On Anywhere特性可实现不搬迁Hadoop原有数据即可使用数仓的分析能力。
“以图搜图”是平安城市的重要应用场景,GaussDB利用CPU/GPU异构加速分析,实现秒级“以图搜图”。
极致高可用在线交易
“分布式在线交易数据库”在新金融下的应用实践。某零售银行的业务模式从“网上银行”过渡到“App银行”时代。App银行的月活跃用户在8000万~1亿,为保证海量用户的体验,零数据丢失及高可用非常关键。
首先,业务关键型负载通常希望7 * 24不间断服务,实现99.995%或99.999%的SLA,这意味着系统在零数据丢失前提下RTO尽可能小。GaussDB通过在同AZ(可用区)内的独立服务器或备机上设立全局缓冲池。在故障切换时,备库通过访问全局缓冲池而不是磁盘获取数据页面进行前滚,大幅降低RTO。
其次,当前金融系统普遍采用“同城生产及应急、异地容灾”的两地三中心架构,以满足监管要求。GaussDB引入了Paxos协议,用于分布式多副本的一致性保障,一致性仲裁决策路径短,效率高。
三个真实业务案例,充分展示了GaussDB在PB级融合数仓、多模异构分析、极致高可用交易数据库的能力,助力金融、平安城市等各行业客户实现业务创新。
截至目前,华为GaussDB和FusionInsight数据库已经应用于全球60个国家及地区,服务于1500多个客户,拥有500多家商业合作伙伴,并广泛应用于金融、运营商、政府、能源、医疗、制造、交通等多个行业。根据数据中心联盟最近发布的第八批大数据产品评测结果,华为GaussDB率先通过了512节点分布式分析型数据库基础能力评测。