
一
如何有效揪出“洗钱”任重而道远
随着电信诈骗、非法融资甚至恐怖活动等犯罪行为的日益猖獗,洗钱已经从一种资金转移手段发展成了一种独立的犯罪行为,对金融机构和国家安全构成越来越严重的威胁。据国际货币基金组织统计,全球每年非法洗钱的数额约占世界GDP的2%至5%,介于6000亿至1.8万亿美元之间,且每年以1000亿美元的数额不断增加。在当前经济全球化、资本流动国际化的情况下,洗钱活动对国家金融体系的安全、对政治经济秩序的危害极大。
尽管反洗钱工作已经受到了各方政府和金融机构的高度关注,但由于洗钱手段的的复杂性和多变性,如何有效检测洗钱活动仍然是一个巨大挑战。当前,绝大多数反洗钱系统仍然是基于规则的。这些反洗钱规则虽然能够帮助发现一些异常的洗钱行为,但毕竟大多是根据历史数据总结出来的,过于依赖人工经验,难免疏漏,而且犯罪分子也多多少少掌握了一些反洗钱规则,故意地去规避,这样系统就难以识别了。更加重要的是,当前的洗钱活动往往涉及到团伙犯罪,而反洗钱规则只适用于识别单个账户的洗钱行为,对隐藏在金融交易网络中的洗钱团伙却无法识别。
如何利用好自身和外部数据信息,提高反洗钱工作的有效性和精准度,成为金融机构新的挑战和机遇。业内采取的“模型筛查+名单监控+人工甄别”的可疑交易分析报告监测模式,在数据使用和模型更新方面,主要呈现以下方面的局限性:
1、数据处理时效性差。当前的数据处理通常分为数据扫描和加工处理两个环节。以树形结构作业模式为例,通常需要100多个小时才能完成1P的数据扫描。同时,单机处理模式从海量数据构成的样本群体中识别出与该群体有显著差异或者异常情况的离群样本耗时较长,无法及时发现可疑交易,阻断各类犯罪资金链条,减少并追回损失。
2、数据信息整合分析困难。可疑交易监测模型的准确与否,依赖于客户在金融机构留存的基础信息是否全面、完整,以及资金链条是否可追溯。当前各家金融机构普遍存在底层数据缺失,数据格式不统一,留存在各业务条线的信息整合不力的问题。再加上客户基础信息真实性审核渠道有限,客户跨行交易和与第三方支付平台交易都容易造成的资金交易链断裂,给可疑交易人工甄别工作带来一定的困难。
3、可疑交易监测模型更新滞后。传统的可疑交易监测模型,需要指明特定场景,明确具体字段,并将数据匹配整合到可疑交易监测模型,而严格的阈值也直接导致了可疑交易的误报和漏报。同时,犯罪分子的洗钱手法也会随着反洗钱措施的加强进行演化,导致对新型洗钱犯罪模式的监测滞后,造成可疑交易的识别率低,误报、漏报率高等情况,需要耗费大量的时间进行人工筛选和判断。
4、单一可疑交易监测标准精准度差。目前业内大部分机构的可疑交易监测模型仍是以单一监测标准为主,也有部分机构尝试通过多条监测指标,以“打分卡”方式监测可疑交易,但终因数据标签抓取不理想而无法实现精准定位可疑交易的目的。金融机构缺乏以洗钱罪上游犯罪衍生的资金特征进行可疑交易监测的理念和实际应用,这些都导致了金融机构对监测数据利用率有限,对监测分析人员的依赖程度普遍较高的问题。
在此背景下,本文提出了一系列针对反洗钱工作的复杂网络以及人工智能创新算法,通过对这些算法进行有效整合,形成了一套高效的异常资金转移活动监测方案。
二
智能化反洗钱整体技术架构
对于根据已知案件进行反查的工作,采用大数据关联追溯技术解决方案,而对于主动发现异常洗钱的工作,则可以采用异常交易社团发现的解决方案。对于两种方案,一般都需要先使用特定的图计算平台将它们生成特定的网络图。在网络图建立完成之后,再使用各种创新的复杂网络算法来进行案件反查与异常发现。整体技术架构如下图所示。

图1 整体技术架构图
从上图可以发现,我们利用丰富的内、外部数据,依托银联现有的云计算大数据平台对数据处理,对转账、消费、查询等多个事件进行多角度的关联分析。通过结合创新的图计算算法以及可视化交互工具,形成了针对案件追溯反查和异常交易结构主动发现两大类原型工具。其中,针对图计算我们还总结了一套经验型性地解决方案,主要流程如上图右侧所示。即先利用大数据图计算平台GraphX进行相关的图形计算,得到出入度等关键的网络信息,然后着重提取与重点节点有关联的节点信息加载到Neo4j中再进行更为深入的关联分析与可视化交互。
在下面的章节中,我们对上述两大类技术分别进行详细的阐述,并且清楚地展示了使用该套解决方案在实际反洗钱工作中的应用效果。
三
基于大数据关联追溯的智能反洗钱技术
大数据关联追溯反洗钱系统核心技术
由于每天都涉及几千万笔的交易,数据量巨大,而传统数据库查询需要遍历,所以比较耗时。另外,仅仅得到涉案卡号相关的交易可能遗漏重要的信息,因此有必要进行进一步的深入挖掘更多关联信息,筛选重点可疑账号、核心交易结构以及关键资金路径等,对犯罪团伙进行全方位地打击,并从中总结规律。
针对以上需求,本课题对前期的洗钱关联追溯方案进行了全面升级,主要体现在以下方面:
A
基于大数据平台的关联交易多轮快速追溯
原本的数据库使用的是传统的关系型数据库,速度查询较慢。在改进方案中,我们首先使用大数据工具Hive进行数据库级的关联追溯,取得了一定的效果提升。不过,如若需要深入进行N轮关联追溯,仍然需要N次数据抽取以及N次遍历。在二次改进的方案中,我们引入了SparkSQL的代码级解决方案,只需在程序开始进行1次数据抽取,借助内存计算的力量,后续便可以进行N次遍历,相对Hive大大节省了数据抽取的时间。此外,我们还专门为实时分析场景构建了基于GraphX的模型级追溯平台,借助连通子图算法,构建好标签体系模型,后续只需一次查询便可获得全部关联信息,非常快速。不过这种方案需要对模型进行存储,更适用需要反复查询的应用场景。
B
关键转账枢纽节点发现
社会网络分析(SNA)算法一般可用于分析网络图中各个节点的信息度量。SNA中的部分功能比如小世界网络等不一定适用于反洗钱的需求,不过部分功能可以借鉴,经过移植及修改之后,用于挖掘账号之间关联信息。常用的SNA指标有度中心性、紧密中心性、介数中心度以及特征向量中心性等。
下面将阐述我们是如何使用这些指标来刻画洗钱网络中的节点的。

图2 SNA指标分析示意图
图a中,红色标记的节点是网络中的度中心性最高的账号,表明它在网络中和其他节点的连接是最多的,可能是转账交易中最活跃的节点。图b中两个红色标记的节点能够最好地和网络中其他绝大部分账号成员进行信息传递,具有最大的紧密中心性,很可能是在网络中负责交易中转的节点。图c中,红色标记的节点是左右两部分交易网络中介数最大的一个,所以很可能就是这两个子交易网络之间的桥梁。图d中,红色标记的节点具有最高的特征向量中心性。它与最活跃的几个账号节点都有最直接的联系,因此能够更好地对这些活跃节点产生影响。虽然它与大部分账号节点没有进行直接的联系,但很可能主要负责与一些关键节点进行沟通,让这些关键节点再去与下属洗钱节点进行沟通。
根据实际项目的经验,我们总结了一套SNA指标分析的实战经验:如果我们关注的是交易活动,那么可以采用度数为基础的测度;如果关注对交易的控制,可利用中介中心度;如果分析相对于信息传递的独立性或有效性,可采用紧密中心度;如果想要揪出幕后关键节点,不妨考虑特征向量中心性。
另外,基于以上指标计算衍生出来的链接分析在反洗钱领域具有更加明显的效果,它们原本多是利用图结构计算网页重要性的。在反洗钱项目中可以用来分析重要的个体节点。较为常用的链接分析算法有PageRank、HITS、SALSA、Hilltop等。其中PageRank还有其多种延伸方案。
C
核心交易结构网络发现
使用K-Cores算法实现重点子网络分析技术。这种度量帮助确定在一个网络紧密相连的群体。通过Kruskal等最小生成树算法,能够发现网络图中保持图连通的最少的代表性的边,从而得到最核心的交易结构等。此外,通过一些特定的社团发现算法也能够帮助进行社团划分,划分之后通过上述的SNA指标进行权重得分计算,高得分社团可能涉及核心交易等。这些方法在下文的异常社团发现中重点描述。
D
核心资金流路径分析
在反洗钱过程中,该分析可以用来研究个体、群体之间的联系。例如利用最短路径算法(包括Dijkstra、Floyd-Warshall、Bellman-Ford、SPFA和DAG算法等等)来寻找洗钱个体之间最直接的中介等等。还可以采用实现异常路径识别算法:合法的经济体为了正常的业务需要,资金转移一般都会遵循成本最低和时间最短的原则。此外,通过最小生成树等算法能够在一定程度上直接得到重要的核心交易路线。
通过以上方法,再对整个案件中涉及到的转账、取现、查询等多种事件进行结合考虑,就能全局性地掌握案件动向,甚至可以进行一些串并案的关联分析。关联追溯整体的技术框架如下所示:

图3 大数据关联追溯反洗钱技术框架


REG TECH!




