针对当前海关关境严峻的保护任务以及亟待提升的口岸通关环境,海关总署于2012年在“金关工程一期”建设的基础上开展“金关工程二期”建设,全面推进海关“把关”与“服务”能力同步提升的信息化建设。
在“大数据”时代,如何将海关部门的海量数据充分集成,打破部门信息壁垒,使数据真正在海关部门内部流动和流转起来,从而更好的服务上层业务系统是该项目关注的重点问题。针对数据层的技术选型,需要达到夯实基础,合理规划,提前布局的目标。
构建结构化动态数据仓库子系统是解决上述问题实现预期目标的重要技术手段和方法。该系统建立后将支撑信息资源规划系统、海关监控指挥系统、企业诚信系统、缉私情报系统、物流全程可视化系统等众多统计分析类应用。
采用GBase 8a MPP Cluster构建结构化动态数据仓库子系统,实现对海关各系统使用数据的存储,并通过数据的复杂关联计算和深度分析与挖掘,完成数据汇总、模型搭建及运行,以及将计算和汇总结果生成特定项目标签、指标库等。为上层系统提供海量数据的即席查询、复杂计算、数据挖掘等功能。
GBase 8a MPP Cluster采用Shred Nothing+MPP的分布式扁平架构,该架构具备极强的扩展能力,使GBase 8a MPP Cluster不仅可以获得PB级数据存储能力,还实现了高性能的分布式数据处理,实现大并发和大规模数据复杂查询的秒级响应。此外,通过构建集群级别的双活系统,保证了数据的安全性,提高了系统的容灾级别;集群内的多副本机制通过数据冗余保证了集群本身的高可用特性。
目前动态数据仓库子系统已经累计部署上百个数据节点,实现北京,广州异地部署,底层数据共享互通,上层业务协同合作的模式。

为了实现数据的高安全性,核心系统信息资源规划共享服务平台和DSS决策规划系统采用物理集群在广州,北京两地灾备部署,底层数据来源共享,上层业务协同分工的模式。金关二期将通过建设二地二中心来承载查询分析和OLAP类应用,北京和广州OLAP类数据采用集群灾备模式部署,因此数据如何在两地同步成为金关二期建设中必须要解决的重要技术问题。通过分别部署在北京、广州两个中心的MPP数据库集群数据加载机的FTP推送功能,实现了两个中心MPP数据库集群之间的数据同步,从而保证了北京、广州两个中心的MPP数据库集群的数据一致性。

数据同步具体过程为:北京中心作为主中心进行数据抽取、清洗、转换等工作,生成新增数据文件并放置在该中心的MPP数据库集群的数据加载机上,加载机通过使用FTP推送功能将新增数据文件推送到广州中心的MPP数据库集群数据加载机上。作为从中心,对接收到的新增数据文件进行处理,实现两中心MPP数据库集群的数据同步。




