华夏基金管理有限公司是经中国证监会批准成立的全国性基金管理公司之一,成立于1998年4月9日。2020年,华夏基金实现营业收入人民币55.39亿元,较2019年增长39.26%;净利润人民币15.9亿元,同比增长33.02%。华夏基金处于业务发展的新阶段,新业务模式的创新离不开数据的支持,也对数据服务的总体能力提出了新要求。基于大数据技术,整合现有数据,接入外部数据,构建处理能力更强、更易扩展、性能更高的一站式大数据平台,不仅可以满足高计算、高存储、高负载的要求,还能实现海量多源异构数据的存储、清洗、加工、建模和分析等功能,增强数据平台的水平扩展能力,提升数据处理能力,形成企业级集中数据存储,加快数据应用开发进程,孵化基于大数据的创新应用,为进一步尝试人工智能研发创造了基础。
作为基金行业常年的头部公司,华夏基金的个人客户达到1.6亿户,每天交易数据量巨大,对于数据的处理效率和性能要求高,原有的数据库将无法提供足够的算力算法支持;未来的基金业发展将不断深化,以满足日益增多的高净值客户对多元业务的个性化需求,私人理财计划、家族财富管理、全球资产配置等将成为未来基金业发展的重点。同时也面临对于每个客户的精细化、量化管理需求,亟需建立强大的底层数据平台,提供算力、算法的支撑,为营销和投研方面带来更大收益。
多年的业务发展积累了大量历史数据,目前华夏基金对历史数据的利用率不高,可通过大数据平台整合多源异构及内外部数据,打通原有不完整、数据规模较小的数据孤岛,构建完整的营销数据集市。通过人工智能平台的智能标签管理系统,构建动态的客户画像体系,让业务人员根据不同营销需求,针对不同客户进行精准产品推送。
随着用户数量与信息获取渠道的增多,为挖掘半结构化数据的潜在价值,亟待使用自然语言处理+知识图谱技术来解决复杂文本的逻辑推理问题。
针对华夏基金当前痛点与需求,星环科技基于TDH和TDS为其搭建了大数据平台,具体架构图如下:

图1:华夏基金大数据平台架构图
基于星环科技的极速大数据平台TDH及大数据开发工具TDS,融合了TA(TransferAgent开放式基金登记过户)系统、OTS(Online Trading System网上交易)系统、反洗钱系统、会计系统、资讯系统、交易系统及直销和代销数据,为营销数据中心、反洗钱系统、投研指标系统、数据分析等业务应用建立了数仓、数集及专用库,对投研指标系统相关数据进行了迁移与整合,为华夏基金构建基于大数据等技术的统一分析数仓打下了平台基础。
作为成熟的商业化大数据平台,TDH在产品易用性和性能上有比较明显的优势:统一的SQL引擎几乎完全兼容Oracle语法,为数据仓库降低了开发和迁移门槛;简单便捷的运维管理和用户安全管理平台,使用户安全及数据安全得到保障。作为具备数据处理全生命周期的大数据开发工具而言,TDS在开发能力及兼容性上均有较大优势:具备任务调度Workflow、大数据整合及集成Transporter、数据库开发Waterdrop等TDS开发工具的加持,使得产品生态更完善;
除自身具备完善的开发工具外,TDS也很好地兼容和对接了客户现场的系统,对于业务人员的开发体验更加友好;此外,基于星环原厂技术团队服务和技术解决方案为本项目提供了技术和服务保障。
大数据平台部署多个管理节点(Name Node),互为主备,保证平台服务高可用性。
数据节点均部署分布式文件系统,数据采用3副本形式进行存储,各副本分散在不同的数据节点上,保证数据高可用性。
存储高效
大数据平台中的数据主要以T-ORC和ORC形式进行存储,两种格式具备5-7倍的压缩比,能够在数据3副本的情况下保证数据存储的高效性。
计算高效
数据节点均部署分析性数据库等计算组件,执行数据任务时可充分利用集群算力,实现数据计算的高效性。
星环科技的极速大数据平台提供了强大的算力、算法支持,完成了TA、OTS、反洗钱、会计、资讯6个系统的持仓、交易等数据的采集,共约220张表,总共近20年、18TB的存量数据,支撑了华夏基金1.6亿个人用户的数据,有效保障了华夏基金业务的快速稳定运行。具体应用能力如下:
集群支撑每天Workflow 157个工作流的日常调度,完成每天100GB的增量数据加载和处理,能随着数据量的增长动态在线扩展节点,无节点个数限制,集群总体处理性能随节点个数的增加线性提升;支持作业并发,支持任务优先级管理,可以设置多个不同优先级的任务队列,保证优先级高的任务提交后能快速响应。除了支撑销售数据中心迁移,TDH大数据平台还支撑起华夏基金其他系统的平台的建设,如反洗钱系统(AML)、投研指标系统等。
星环科技大数据平台助力华夏基金完成了销售数据仓库模型建设、开发了反洗钱系统相关模型、投研指标系统相关数据(DWS层、DWB层、DWD层等)、数据分析人员专用库等迁移与整合,为华夏基金构建基于大数据技术等统一分析数仓打下了基础。未来,华夏基金还将充分利用人工智能、容器云、知识图谱、实时计算、异构计算等技术,面向下一代资管行业在智能营销、智能投研、智能风控方向打造统一的资管数据中台和算法中台,夯实智能底座,趋动数据创新。