北京移动经营分析系统建设运营11年来,紧跟企业发展步伐,以完备的数据、准确的统计分析、周到细致的支撑,充分发挥了“科学决策之器”、“针对性营销和客户挽留之器”、“精细化管理之器”的重要作用。经分系统虽然满足了过去北京公司发展所需要的各类信息服务要求,但传统的模式造成的问题也日益凸显,传统经分的定位跟不上企业战略转型的诉求。
随着市场竞争的进一步加剧,北京公司对内面临传统业务营收不断下滑,对外面临来自新兴OTT业务发展带来的巨大冲击挑战,在双重压力下,市场对公司的价值分析能力和决策支撑能力提出更高要求。
本次项目北京移动通过建设新数据中心,对企业数据进行集中采集、加工整合、规范模型,建立统一数据视图,实现数据的可管、可控、可用,为业务提升与创新奠定基础,以达到对内增效、对外创收的目标;利用目前最领先的大数据处理平台技术,通过基础设施云化、数据服务标准化封装等技术手段,采用MPP分布式数据库和Hadoop等分布式数据处理架构体系进行优化设计,实现投资降本增效、应用百花齐放和体系优化提升的目标。
通过整合B域、O域和M域,实现企业有价值数据的集中存储,并对外围应用提供必要的数据计算、数据存储服务。
业务层面需求:主要为数据中心提供多域的数据模型,为B域、O域和M域等各域的数据实现数据资源池的统一管理,统一调用。本次项目计划增加“多维成本分析”,“流量经营”,和“位置信息服务平台”等三项新增应用,并迁移现有的经分应用,包括“自助分析平台”,“集团一经接口”,“市场运营监控中心”以及其他成熟稳定的数据模型。作为北京移动企业数据中心的接口,其数据容量每日达到17TB/日,其中MPP数据仓库支撑的数据总量达到600TB,每日入库数据达到3TB/日(接口数据与数据仓库入库数据比例关系为6:1);
平台层面需求:主要为企业级数据中心提供数据存储和数据处理能力,提供统一的集成平台环境,将硬件和平台软件做有效的集成,搭建混搭架构的系统框架,实现海量数据的分布式处理;通过新技术,降低系统总体拥有成本。系统总规模:22台IBM Power Linux 服务器组成的Hadoop集群;60台 X86 PC Server组成的GBase 8a MPP Cluster统一数据仓库集群;6台X86 PC Server组成的GBase 8a MPP Cluster数据集市集群;
功能层面:主要为企业级数据中心提供数据整合、数据清洗、转换、加载、数据共享、数据分析与查询、数据挖掘、数据管理能力;提供新的IT功能架构,提供多样化数据的ETL、统一的数据计算与存储、数据共享、多种应用的应用开发、数据平台管控。其中作为整个企业数据中心的主数据仓库,担负处理数据的深度加工和BOM域之间的数据融合,即承担了整个数据供应链中最复杂的数据加工处理过程。
系统技术架构分为采集与解析、计算存储、共享与服务、平台管理和数据服务等。采用基于分布式技术的云计算平台,可以满足资源的统一管理和利用,实现计算能力线性扩展、数据融合和汇总。系统整体采用多种分布式处理平台的混搭架构:对于海量的非结构/半结构化数据的批处理场景采取Hadoop的Map/Reduce、Hive;对于结构化的海量数据处理(包括批处理和准实时的交互处理)采用MPP数据库完成(本方案在应用展示层采用传统关系型数据库配合MPP数据库完成部分与应用的交互处理);而采用流式数据处理框架实现流处理及复杂数据处理,支撑实时营销场景。

最终北京移动企业数据中心可通过使用列式存储、智能索引等技术,提升查询性能;支持混搭,通过MPP数据库与Hadoop的混搭架构,实现了对超大规模数据的管理和高效处理,正是因为在Hadoop和MPP之间采用数据分而治之和逐层处理的策略,才使得企业数据中心平台实现了对海量数据的有效承载和管理;PC Server+Linux+本地磁盘的模式节省了硬件投资成本,日志管理的自动化节省了人力成本,实现低成本构建高性能日志管理系统的目标。




