暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

了解图数据库系列之——审计数据图谱的实现

RegTech未来 2021-07-28
2281



传统人工审计往往只能借助众多的会计凭证、审计报表来检验审计数据的真实性与可靠性。图数据库技术在审计领域的应用,不仅能够有效提升审计工作效率并简化审计流程,还能对审计数据进行全方位排查,能够大幅降低审计流程中的抽样风险与审计工作的整体风险。


基于Neo4j图数据库的知识图谱技术能够将海量审计数据可视化,为高效存储、快速组织和精准表达审计实体及其之间的数据关联提供支持。审计工作人员通过审计数据知识图谱能够快速获取审计实体信息并挖掘审计实体之间的潜在数据关联,达到简化审计流程、提高审计效率的目的。


基于此,本文基于Neo4j图数据库来探讨审计数据知识图谱的构建与实现,希望能够为相关研究提供借鉴。



01

审计数据的获取与清洗



对于结构化存储的审计数据,直接基于结构化数据源的相对应审计实体定义审计实体的数量以及之间的关联层次,再依据审计实体的相关数据源确定审计实体的相关属性,构成完善的审计实体与实体关联。对于非结构化存储的审计数据,需要对审计数据进行预处理,通过NLP技术从非结构化数据源中抽取相关审计实体、数据关联、实体属性等数据源。




02

审计数据的处理



审计数据源经过初步清洗与预处理,得到审计数据的<实体-关系-实体>三元组,基于外部存储的方式存储在.xls或者.csv的文档中。将预处理完的程序导入Python相关程序中,<实体-关系-实体>三元组中的元素分别存储在程序内部的主体、关系、客体列表中,并按照<实体-关系-实体>的结构一一对应。导入内部存储完成后,对同名实体进行筛选达到“去重复化”的目的,防止Neo4j图数据库在构建实体的过程中重复创建同名审计实体。




03

审计数据的导入



本文采用py2neo库中的Connect()方法与Neo4j图数据库进行连接,将处理完的审计数据导入Neo4j图数据库。在创建审计数据知识图谱的流程中,首先会根据<实体-关系-实体>三元组中的实体数据通过py2neo库中的Node()方法构建审计实体,再根据关系数据通过Relationship()方法将审计实体进行联结,最终通过Graph()方法在Neo4j图数据库中构成一张完整的审计数据知识图谱。




04

审计数据的图谱展示



图谱展示的实现主要源于审计实体与关系的抽取、审计数据知识图谱的构建与存储,通过自然语言处理技术从海量非结构化的审计数据中抽取其中有效的审计实体、实体属性以及实体关联等关键信息进行结构化处理。结构化处理后的审计数据能够在Neo4j图数据库中构建审计图谱,如图1所示:


在构建完成的审计数据知识图谱中,审计数据知识图谱中包含多种审计实体类型,如公司、凭证字号、摘要、科目名称、记账金额等。审计工作人员可以根据当前审计需求,点击相关审计实体节点延展相关节点信息,进而获取审计实体之间的直接或者间接关联。同时,审计工作人员也可以通过传统的Cypher语句进行查询,直接访问目标节点获取相关信息,如图2、图3所示。


审计数据知识图谱构建是将传统的审计方法与知识图谱的数据可视化功能相结合,从海量的企业内部与外部的结构化和非结构化数据源中自动提取三元组,并通过Python中的py2neo库在Neo4j图数据库中自动构建审计数据知识图谱,辅助审计工作者快速访问目标审计实体的相关信息,提升审计决策的制定和实施的效率。





Neo4j是目前所有图形数据库中使用比例最高的图数据库。在审计数据知识图谱的维护方面,Neo4j图数据库同样具备传统数据库所拥有的增、删、改功能。若审计工作者需要在Neo4j中创建新的审计实体节点、审计实体节点的类型或者在已经存在的审计实体节点之间建立新的关联,审计工作者都可以通过Cypher语句进行相应编写与操作。同时,审计工作者还可以直接在审计数据知识图谱中直接打开或者关闭相关审计实体节点的视角,调整审计数据知识图谱的整体结构,以满足当前审计数据的可视化需求。知识图谱的形式所展示的查找审计数据的方式区别于传统的搜索引擎,不仅兼顾审计数据的高访问性与抽象数据的可视化功能,而且提供审计工作者挖掘审计实体之间潜在关联的手段,能够大幅提升审计工作者决策的相关性。


/

/


文章转载自RegTech未来,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论