
作者
张春利 - 技术总监
罗昌英 - 业务专家

数据质量参差不齐
当前业务挑战
海鑫大数据平台分为两部分进行建设,一部分为离线分析平台,使用 Hadoop 体系,依赖 HDFS、Hive、HBase、Spark 等技术栈。主要针对数据量庞大的数据治理以及复杂的数据分析场景;另一部分是在线分析业务,主要使用 Greenplum(或 DeepGreen)分布式数据库、ElasticSearch、NebulaGraph 图数据库等技术,用来处理用户实时分析场景。
目前,海鑫大数据平台面临的主要问题是:数据需要在多个平台之间来回同步,经常会出现数据丢失的情形;平台太多,技术栈广,研发和运维成本都很大。公安行业的系统建设模式复杂,许多省、市的硬件资源由科信部门统一进行采购,分配给刑侦的硬件资源越来越少。
由于公安网内部的数据无法连接到互联网,所以本次的测试在公司内网环境中进行。数据为部分模拟数据,根据业务场景来进行测试。
测试地点:北京海鑫科金高科技股份有限公司总部
硬件环境:



通过对 MatrixDB 官方文档的了解和评测,MatrixDB 可以在海鑫大数据平台中进行使用,在数据量较小的地市进行试用。
1. 实现离线平台和在线平台的统一
离线、在线两套平台可以统一迁移到 MatrixDB 数据库上,由于 MatrixDB 是基于成熟的 PostgreSQL 和 Greenplum 开发,具有高度兼容性,因此在线分析功能可以直接进行迁移,开发量相对较少。
基于 Hadoop + Spark 的离线分析则需要将部分业务功能进行重构,分析功能需要使用 PL / Python 来进行替代,这部分重构较大,技术可行性还需要进一步验证。
2、 数据仓库及数据模型更简单化
数据仓库主要使用 Hive,最大的问题是数据不能进行 update,目前采用分层和 HBase 的 upsert 功能进行实现,但由于公安业务的复杂性,分层会非常多,使用 HBase 的 upsert 功能又会造成 HBase 表与 Hive 表同时使用,导致跨库使用不方便。使用 MatrixDB 的 upsert 功能后,让数据仓库内的数据模型变得更加简单。
3、 减少数据迁移
离线、在线两套平台统一,减少了数据同步环节;同时 MatrixGate 组件提供了强大的数据同步能力和监控能力,让数据同步更加简单。
4、 在线分析性能提升
目前看来,MatrixDB 比较适合做数仓使用,在性能上比 Greenplum 强约4倍,在线分析功能速度更快,也带来更好的用户体验。
5、 当前可能存在的问题
MatrixDB 可以替代公安领域的大部分场景,但依然存在着1个不足之处:MatrixDB 不是公有云通用组件,需要单独部署。我们也期待未来 MatrixDB 能提供跨云 DPaaS 服务。






分享、点赞、在看,一起为 yMatirx 充电!



