暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

金融行业的图数据仓库建设研究与探索

金融科技时代 2022-08-10
2223

摘 要:在金融数字创新趋势下,国内金融行业已经开始广泛探索基于知识图谱技术的人工智能应用。随着知识图谱技术在银行业务的广泛落地应用,银行科技部门越来越重视大规模图数据的融合、治理和应用。图模型的可视化优势、贴近业务的模型表达、强大的深度关系分析和模式匹配能力将是数据赋能的重要助力,越来越多的数据将以图模型的方式存储、计算、展示。但此前面向业务应用的建设方式,导致内部形成了图谱数据孤岛,点、边数据在多业务场景中重复建设,图本体定义缺乏统一规范,缺少基本的治理过程。文章基于银行全行级图谱平台的建设和图谱应用落地的经验,构建用于存放图谱的数据标准,描述建设图数据仓库的实施方案。区别于以“主题”和“维度”为视角的传统数据仓库,图数据仓库强调“业务实体”和“关系”的分析视角,是对企业数据分析能力的有益补充。同时,文章构建多层次数据架构并集中治理图谱数据,使得扩充图谱数据覆盖银行全行数据成为可能,满足了银行各业务部门对图谱数据的迫切需求。

关键词:金融科技;知识图谱;图数据仓库

来源:《金融科技时代》2022年第8期

作者:广东华兴银行 李燕 杨春明 何原 刘波

*本文获得“创刊三十年,喜迎二十大”金融科技征文比赛一等奖。




一、引言

在习近平总书记和党中央的指引下,在全球经济一体化的大背景下,金融机构加快了信息科技引领创新、深化转型和落地应用的步伐。随着我国金融科技的蓬勃发展,知识图谱技术已进入繁荣发展阶段,其作为知识服务领域的一个新热点,受到国内外学者和工业界的广泛关注,并逐渐在金融行业发展。

知识图谱的图数据模型包含节点(表示现实世界的实体)和边(表示实体之间的关系),标签属性图作为图的扩展,支持在节点和边上附加额外的属性信息。例如标签和命名属性(图数据库的主流数据模型),可以非常灵活地表达复杂领域的数据结构。图模型及相关技术无论在学术界还是工业界都受到重视,其在关系挖掘、群体识别、个体分析、事件传导、知识推理等数据分析领域有非常大的优势,是现代数据分析不可或缺的一部分,是构建可解释AI的重要技术支撑。

笔者所在的银行着力研究人工智能技术的落地应用,建立了全行级知识图谱平台,以可视化界面帮助业务人员理解风险发生的传导路径、关联关系及规则内容逻辑,并在业务部门广泛推广应用,很好地支撑了银行内法律合规部、营运管理部、财富管理部、零售信贷部、风险管理部等部门的风险排查工作。

然而在落地过程中,面向业务应用的建设方式,导致企业内部形成了图数据孤岛,点、边数据重复建设现象严重,图本体定义没有一致的规范,以致于图数据难以融合、复用。同时,图数据缺少基本的治理过程,标准化、脱敏管理、授权管理、资产管理等没有集中管控,在数据更新、权限变更、业务发展的情况下无法及时响应图数据质量、控权、审计等需求。

在这样的背景下,基于银行全行级图平台和多年图应用落地的经验,本文提出了一种建设金融行业图数据仓库的思路,设计了符合银行需求的图数据仓库架构和图数据治理方案,与现有图挖掘、图分析、图服务工具共同形成了图数据全生命周期赋能体系,进一步高效支撑银行各部门业务的应用。



二、知识图谱在金融领域的发展路径

知识图谱因为自身良好的可解释性,可帮助金融从业人员在各个业务场景有效地开展分析,越来越多的银行引进知识图谱技术,通常都会经历从“应用试点”到建立“部门级图谱”再到“全行级图平台”3个阶段。在初始阶段,依托人工智能实验室,在某个业务领域进行知识图谱落地应用的尝试,一般未形成体系建设,例如选取资金流向监测领域进行落地试点,在取得良好效果后,银行再开始部门级图谱的建设,例如在银行的信用卡部门建立多产品线、贷前贷中贷后全流程的知识图谱。在较大规模的银行中,全行可能存在多个知识图谱平台,每个部门都有自己的领域知识图谱。当知识图谱应用达到一定规模后,一般会由科技部门牵头规划全行级的统一知识图谱平台应用,但是各业务部门还是分场景建设图谱,例如对公知识图谱、零售知识图谱、审计知识图谱等,存在图谱的点边结构重复建设、数据管理较为混乱的现象。在未来,知识图谱领域的应用一定是越来越广泛的,在“大数据+人工智能”的时代演进中,数据作为一种资产也越来越受到重视,数据视角的转变已成为一种趋势,建设金融行业图数据仓库将成为目前知识图谱需要探索的阶段。图数据仓库将是一种新的数据组织形式,是一类新的数据资产,是一个更贴近应用的数据中台的服务能力。



三、图数据仓库的概念和建设目标

(一)图数据仓库概念

本文首次提出图数据仓库的概念,并区别于“全行一张图”“全行级图平台”的概念。“全行一张图”是从全局的业务视角看图谱,是一套体系工程,是对图谱实施的工程,也是一种顶层设计的概念,采用自上而下的共建机制,建立全行一张基础图谱。“全行级图平台”是指从需求技术执行角度看图谱,是一个应用系统软件,属于“银行数据化转型”范畴,采用自技术而业务的建设机制,一般由科技部门牵头。图数据仓库是从图谱数据资产角度看图谱,是一类数据资产的管理方式,属于“银行知识化转型”范畴,采用自下而上的共享机制,属于在“全行一张图”下的数据部分管理项目。

(二)图数据仓库的建设目标

一是在数据上统筹银行全行级标准规范,将通用的图谱关系沉淀到图数据仓库,作为“数据资产”的重要一环。二是在技术上提供统一的图谱加工管理平台,遵从统一开发框架,提供数据接入、图谱加工、图谱服务的能力,各应用团队可依托此平台在各自的子图空间构建子图。三是在业务上覆盖银行全行各条线、全领域,构建“全行一张图”体系,将通用关系加工处理成为通用图谱,全行共用一张图。



四、图数据仓库的概要设计

(一)图数据仓库在银行数据体系中的定位

图数据仓库是对传统数仓的补充,增强数仓在部分OLAP场景中的关联分析能力,如资金流向分析等;补充数仓不能直接在OLAP系统中高效实时地进行关联分析的空白,如申请团伙反欺诈等。图数据仓库也是一种新的数据分析视角,其并不能取代传统的数据仓库,而是与传统数据仓库并存,如图1所示。

图1 图数据仓库在银行数据体系中的定位

结合图库特点,图数据仓库提供了一个丰富的用户视角关系。区别于数仓的“维度”数据视角,图数据仓库以“关系”数据视角为核心,如图2所示。

图2 图数据仓库的数据模型与数仓的区别

传统数仓的主题域模型采用主题域导向设计,来分解银行业务流程,其多采用星型或雪花型数据结构,数据间键值采用隐式链接,常用于指标统计加工和提供数据分析服务。在图数据仓库的关系网络模型中,其抽取银行业务关系数据,统一实体分析对象,构建具有复杂层次结构的关系网络模型,采用点边属性图本体数据结构,常用于业务关系计算分析和子图挖掘服务,如图3所示。

图3 数仓的主题域模型与图仓的关系网络模型转换示例 

(二)图数据仓库的分层架构

知识图谱在不同的场景下有截然不同的技术要求和建模要求。从知识融合和管理的角度看,集成企业数据到图谱中,在建模上体现业务概念和知识体系,在技术上重点关注图数据标准化和融合。而从图应用角度看,建模上尽可能简单、直接、同构,以面向图算法、图嵌入和机器学习应用。

基于这种矛盾,在设计图数据仓库架构时需进行分层管理,如图4所示。

图4 图数据仓库的分层架构

1. 基础大图。主要用于图数据标准化和融合,数据模型是属性图但在技术上以Hive表离线存储,通过Spark大数据框架定时更新。该图融合了全行范围的业务数据,不直接提供在线图数据和分析服务。

2. 领域图谱。基于基础大图构建的业务领域子图,在技术上存储于图数据库,同时包含了业务领域共享的挖掘关系,可以提供在线图数据服务,主要用于一般性的可视化探索。

3. 应用图谱。基于通用图谱实例,通过图项目的方式,控制一部分子图作为业务应用访问,主要满足特定业务场景下,解决具体问题的图谱。这时的图本体设计会尽量简化,剔除不必要的实体、字段和间接关系,面向挖掘、图算法和复杂查询,将性能作为第一考虑因素。

(三)建设基础大图

基础大图层主要完成3个方面的工作。第一方面是指定统一的数据建模规范和命名规范。借鉴语义网(Semantic Web)RDF体系的建模理论,实现了基于类型继承的本体定义方式,避免大量重复字段,同时体现了业务语义,实现了属性字段的全局唯一,避免了一词多义、一义多词等在关系建模中常见的错误。第二方面是业务实体ID治理。将分散在不同数据源的表内业务对象的ID统一到基础大图的实体唯一ID上,从而实现全行统一的ID体系。第三方面是数据标准化工作。例如地址标准化、公司名称标准化、日期时间标准化、金额标准化等基本服务,并对入仓数据进行标准化处理和字典归一,实现了基本的图数据质量保障体系,如图5所示。

图5 基础大图本体设计

基于上述工作,能够将银行全行数据进行基于属性图模型的大规模集成,形成了基础大图。基础大图在逻辑上是一张标签属性图,物理上可以转换为关系模型离线存储(例如Hive库),在跟数仓进行良好交互的基础上,支持大规模数据的水平扩展。其主要作为上层图构建的高质量数据底座,避免出现图数据ETL爆炸、图模型定义不规范、图质量参差不齐等问题。

(四)图谱数据全生命周期体系

图谱数据的全生命周期体系是指图谱数据可管理、可维护,在生产、治理、挖掘、分析、服务等各个阶段都有完善的理论、架构、工具支撑,从而形成统一的、闭环的图谱能力体系,如图6所示。

图6 图谱数据全生命周期体系

1. 图谱生产能力。知识报告是份文档,描述了本体建模规范和逻辑定义;关系-图映射规范指定了关系数据和图谱数据的映射规范,是图谱数据加工的标准;增量/全量混合ETL工具实现了关系-图映射规范;基于基础大图构建领域图谱、应用图谱的图-图ETL工具,这里的数据输入和输出都是图谱。

2. 图谱治理能力。图本体定义和校验工具能够可视化地编辑查看本体、导入导出本体文件、校验本体的正确性;实体解析工具实现ID映射(Entity Resolution);标准化能力是指对公司名称、地址、日期、时间、金额、数字等进行标准化和归一的服务;图谱数据资产管理系统是综合图谱数据治理的可视化展示平台和流程、审批工具。

3. 图谱挖掘能力。包括可视化、低代码的知识挖掘工具(全行级图平台组件)。

4. 图谱分析能力。包括图算法、时序视图、地理视图、图BI工具、图模式匹配、可视化探索(全行级图平台组件)。

5. 图谱服务能力。包括基于API的图谱数据服务、可嵌入其他应用的图谱分析页面、面向业务人员的图谱应用服务(全行级图平台组件)。

(五)图数据仓库加工管理平台功能架构

作为图数据库仓的基础支撑平台,图数据仓库加工平台是图仓团队最主要的日常工作抓手,起到图数据“全生命周期”的核心功能。图数据仓库加工平台在图仓的落地实施中承担了重要的作用,是全行图谱共建共享的平台。图数据仓库加工平台具备统一的知识构建、知识存储、知识挖掘功能,除了提供基础的知识检索能力外,还可结合业务深度挖掘图能力,提供知识服务,发挥数据的最大价值,如图7所示。

图7 图仓加工平台功能架构

1. 数据存储与计算层。数据的层次存储采用索引数据库ElasticSearch、HBase、Hive混合存储数据,采用Spark分布式计算框架进行大数据计算。

2. 知识存储层。分布式图存储、分布式数据仓库、分布式列数据库交互使用,提供全文检索引擎。

3. 知识构建层。在知识构建层支持本体模型管理、知识抽取、知识数据检验等功能。

4. 知识挖掘层。提供场景开发、场景管理、知识推理、子图抽取、自定义工作流算法等功能,同时也整合抽取通用算法,集成通用算法库、业务算法库。

5. 知识分析层。提供基础图谱操作、路径分析、关系拓展、图谱设置等功能。

6. 知识服务层。集中对外服务层,提供服务API、服务发布、服务控制、调用统计等功能。

7. 系统模块层。提供基础系统功能,如用户管理、登录、权限管理、业务监控、日志管理、访问控制等。

8. 知识应用层。知识最终应用于图仓知识的搜索、分析,提供场景探索能力,形成体系的知识库。



五、图数据仓库的探索创新点

(一)技术创新点

1. 覆盖全行数据的基础大图。基于银行全行多年的全量交易流水、全量登录流水、全量账户数据、全量客户数据,建设起数十亿级节点、数百亿级关系的基础大图。制定了完整的标准规范,建设了多种数据标准化服务,形成了高质量基础图谱数据。

2. 构建图谱数据全生命周期体系。基于图数据仓库的分层架构,结合现有全行级图平台的图挖掘、图分析、图可视化、图应用服务等可复用工具,实现了图数据生产、治理、挖掘、分析、服务的全生命周期体系,进一步增强了图谱对业务的支撑能力。

3. 图谱应用开发降本增效。基于基础大图高质量的标准化图谱数据,领域图谱和应用图谱不再需要重复ETL,就可以快速构建并提供服务,极大地提升了图谱应用的整体开发效率和开发质量。

(二)业务创新点

1. 分析模式的转变。通过在基础大图之上各业务领域知识图谱的落地,准确完整地构建了底层全行级客户关系网络图、账户关系网络图、资金流向网络图、集团派系网络图等,融合图分析、图模式、人工智能图算法三阶递进数据分析方法论,改变单层客户、账户与专家规则预警的传统思维,以共同电话、IP地址、登录设备等多维度追溯三层以上的成员关系,直观地展示各风险团伙的全貌,可宏观分析上下游,也可微观网络团伙某一环节账户。通过图的异常形态识别和人工智能图算法,形成有效的预警模型,高效地从客户群组中以团伙识别视角抓取涉嫌洗钱团伙、涉赌涉诈团伙、风险集团客户等。实现自动化、智能化、多维度的展示、识别与挖掘,大幅提高识别风险团伙的精准度与效率。

2. 风险政策闭环调优。在传统风控系统的基础上,通过图谱的补充,帮助业务更全面、直观地展示风险团伙,可视化地提练团伙风险特征,加深对客户数据的挖掘,可以不断地调整、优化策略体系,形成风控决策全流程闭环,提升攻与防可持续对抗的能力。   



六、图数据仓库的应用效果

目前,银行内的法律与合规部、财富管理部、营运管理部、零售信贷部、风险管理部、审计部均在深入使用基于图谱的创新解决方案,基于图谱的系统达到月均上千的访问量。图数据仓库的应用,有效支撑了各个部门的业务需求,成效如下。

(一)法律与合规部反洗钱业务方向

曾经根据当地人民银行提供的32个账户,运用该平台,完整、准确地展现某团伙的共用设备关系、账户资金分层结构与流向轨迹、手机银行登录时所处地区等信息。在当地人民银行原有调查名单的基础上,额外追踪定位疑似涉案团伙成员37人,挖掘团伙成员的境外作案证据,相关调查材料作为案件线索由当地人民银行移送当地公安部门,助力破获该跨境赌博案件。该平台已多次成功挖掘数十人至上百人的疑似洗钱团伙,分别涉嫌电信诈骗、经营虚拟货币、非法经营外汇期货等,并及时向中国反洗钱监测分析中心报送可疑交易报告,部分作为重点可疑交易报告报送当地人民银行,如图8所示。

图8 反洗钱典型案例

该领域取得较好成果后,持续增加企业图谱关系,在企业图谱中加入受益人关系、外部数据(如司法查冻扣信息、企业异常经营信息、企业注销吊销信息等),将全行外部数据应用起来,通过知识图谱系统的关系及知识分析能力为反洗钱加工标签,供反洗钱系统进行风险排查。

(二)财富管理部交易反欺诈监测方向

利用该平台分析团伙类撞库风险。对疑似撞库的设备或IP,通过知识图谱进行风险判断,分析是否存在团伙类特征。对存在团伙类特征的元素进行跟踪挖掘,定位设备及IP风险,将疑似高风险设备及IP加入黑名单,从整体设备环境上防范欺诈风险,提升风险分析效率。引入图谱分析后,银行卡欺诈损失金额为0元,银行卡监控人力效率提升66%。

(三)营运管理部账户风险监测方向

通过充分运用该平台实施账户风险排查工作,对涉案账户或行内风控系统监测预警的可疑账户线索开展拓展排查,持续分析、总结、发掘涉赌涉诈的可疑资金特征及账户线索,不断完善账户全生命周期风险管理体系,调整个人账户风险监控模型,提升关联数据之间信息挖掘能力,进而更准确地甄别、定位业务中的潜在风险,识别诈骗团伙、网络赌博和洗钱等违法犯罪行为背后的关联交易关系,切实严控账户风险,落实账户管理主体责任,如图9所示。

图9 团伙反欺诈典型案例

(四)零售信贷部信贷资金流向方向

业务部门根据资金流向监测需求,对行内零售经营贷、消费贷进行资金流向监测,落实资金用途,并监测资金异常流向,满足监管要求。图谱资金流向及回流模型上线后,通过对历史数据的回溯,发现多笔存在异常资金流向的贷款,帮助业务部门完善整个资金监测体系。模型上线后每天批量监测存在异常资金流向的贷款,给业务部门贷后资金监测提供了很大帮助。在零售信贷领域,持续将关联关系(企业、个人)以及股权穿透的内容延伸至所有企业及个人关系中,通过资金网络、票据、保函、受托支付等行内业务,以及外部数据中的税票记录,对企业之间的上下游关系进行确认。现有系统对于放款资金在员工账户的资金转账进行了控制,但是仅停留在员工账户的一度关系,后续将尝试在多度关系以及疑似员工操控类账户方面进行扩展,如图10所示。

图10 资金流向房地产监测典型案例

(五)风险管理部集团派系挖掘方向

银行内部风险管理部引入工商数据,构建全量近3亿企业节点的图谱,加上自然人节点上的十亿数据量,平台的计算和数据运维的挑战很大。因此,在引入企业图谱的同时,将工商数据和行内数据进行了融合,识别行内行外数据中的唯一企业和自然人,利用企业图谱对行内企业客户和个人客户进行关系扩展。目前,行内应用企业图谱进行集团派系挖掘,逐步代替人工排查集团派系的情况,结合集团派系的结果优化现有集团派系情况,并逐步代替人工操作。通过集团派系模型可精准识别贷款企业的集团及贷款额度,有效防止贷款超出监管要求,如图11所示。

图11 集团派系挖掘案例

同时,为了更好地融合银行内外部数据,目前正在做自然人与企业的融合关系,后续希望形成体系化的企业图谱。一方面,对企业关联关系的识别种类将更丰富,包括增加对担保关系网络、企业间上下游关系以及配偶、血亲、朋友、同事等自然人关系的识别等,更加精细化地识别关联关系;另一方面,结合外部数据中涉诉涉案、失信被执行人、监管处罚、舆情等相关信息,能更早地发现风险事件。

(六)审计部灵活建模方向

银行内审计部在接触到该平台后,逐步探索利用图谱系统进行关系、风险传导的挖掘,并结合行内的非现场审计系统将图谱应用到审计的日常工作中,通过节点多维关系扩展、灵活建模等方式进行由点到面和由面到点的挖掘。其中,由点到面是通过可疑点扩展风险网络,由面到点是通过图谱挖掘平台灵活开发模型,从全行的大网中识别可疑点,并应用到资金流向监测、洗钱团伙风险识别等业务场景中,如图12所示。

图12 挖掘平台灵活建模


七、未来展望

基于分层架构和“全行一张图”的理念,本文详细阐述了如何建设金融图数据仓库,在不同层次上解决了大规模图数据集成、基础图数据治理的问题,结合低代码的图构建、图挖掘、图分析、图可视化工具,形成了完善的图应用和图数据服务体系。该项目首次实践覆盖银行全行数据的图建模和数据集成,有效支撑了多部门的反洗钱、反欺诈、风险监测、集团派系挖掘等业务方向,提供了创新的基于图的解决方案,体现了图数据仓库的应用价值。随着图数据渗透到业务的方方面面,图应用的建设效率和质量有了根本保障。

虽然在建设图数据仓库的过程中积累了一定的架构和落地经验,但相关工作仍然处于探索的初步阶段。例如,贯穿各层的数据血缘图谱、数据权限和脱敏体系、图ETL、离线图计算框架、图质量校验、人机交互的图构建能力、外部数据集成、标准化算法等都是已知的可建设、完善或者加强的领域。

目前,图数据仓库尚未得到业界的广泛重视和应用。在图数据仓库领域,基于大规模数据的分布式图OLAP计算(Graph OLAP)、图时序分析(Graph Temporal Analysis)、频繁子图挖掘(Frequent Subgraph Mining)等理论已经取得了大量进展。面对数字化、智能化不断加快的未来,笔者将会完善现有架构,提升工具的易用性和稳定性,坚持业务导向、数据赋能、创造价值,同时与时俱进,深入理论前沿,保持业界领先的人工智能能力。

文章转载自金融科技时代,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论