大数据时代反洗钱工作的智能化发展之道 您所在的位置:网站首页 《大数据时代》作者 大数据时代反洗钱工作的智能化发展之道

大数据时代反洗钱工作的智能化发展之道

2024-07-11 09:33| 来源: 网络整理| 查看: 265

作者:李旭瑞,郑建宾,赵金涛,娄强,刘红宝

来源:中国银联电子支付研究院、风险监控服务中心

一  引言

随着电信诈骗、贪污腐败、非法融资、走私贩毒甚至恐怖活动等犯罪行为的日益猖獗,洗钱已经从一种资金转移手段发展成了一种独立的犯罪行为,对金融机构和国家安全构成越来越严重的威胁。据国际货币基金组织统计,全球每年非法洗钱的数额约占世界GDP的2%至5%,介于6000亿至1.8万亿美元之间,且每年以1000亿美元的数额不断增加。在当前经济全球化、资本流动国际化的情况下,洗钱活动对国家金融体系的安全、对政治经济秩序的危害极大。2003年3月,中国人民银行发布了《金融机构反洗钱规定》、《人民币大额和可疑交易报告管理办法》和《金融机构大额和可疑外汇资金交易报告管理办法》,明确提出了对银行类金融机构的反洗钱监管要求,确立了我国反洗钱报告和反洗钱信息监测制度的基本框架。为履行反洗钱职责,经国务院批准,人民银行于2003年9月成立了反洗钱局,并于2004年4月,组建了中国反洗钱监测分析中心,负责反洗钱情报的接收和分析工作。

中国银联作为国内唯一的银行卡组织,处于银行卡产业的核心和枢纽地位,是实现银行卡系统互联互通的关键,在对洗钱资金进行全链条跟踪监测、完善反洗钱可疑交易协查信息共享机制,提升我国支付行业反洗钱监测工作的有效性上,发挥着重要作用。中国银联根据《银行卡组织和资金清算中心反洗钱和反恐怖融资指引》(银发〔2009〕107号)要求,利用智能风控技术和大数据平台,基于银联跨行交易清算系统(CUPS)建立了反洗钱可疑交易智能化监测分析报送体系,对洗钱和恐怖融资资金跨行转移进行事前、事中、事后全方位的监测。

尽管反洗钱工作已经受到了各方政府和金融机构的高度关注,但由于洗钱手段的的复杂性和多变性,如何有效检测洗钱活动仍然是一个巨大挑战。当前,绝大多数反洗钱系统仍然是基于规则的。这些反洗钱规则虽然能够帮助发现一些异常的洗钱行为,但毕竟大多是根据历史数据总结出来的,过于依赖人工经验,难免疏漏。而且犯罪分子也多多少少掌握了一些反洗钱规则,故意地去规避,这样系统就难以识别了。更加重要的是,当前的洗钱活动往往涉及到团伙犯罪,而反洗钱规则只适用于识别单个账户的洗钱行为,对隐藏在金融交易网络中的洗钱团伙却无法识别。

在这样的背景下,本文提出了一系列针对反洗钱工作的复杂网络以及人工智能创新算法,通过对这些算法进行有效整合,形成一套高效的异常资金转移活动监测方案。本文以银联现有大数据资源为基础,对海量跨行交易数据进行深入挖掘,详实论证了该方案在帮助数据分析人员更加高效监测洗钱行为上的可行性,极大的提高中国银联反洗钱监测分析工作的效率和有效性,从而更好地履行反洗钱的责任。

二  智能化反洗钱整体技术架构

对于根据已知案件进行反查的工作,我们采用大数据关联追溯技术解决方案,而对于主动发现异常洗钱的工作,我们采用异常交易社团发现的解决方案。对于两种方案,一般都需要先使用特定的图计算平台将它们生成特定的网络图。在网络图建立完成之后,再使用各种创新的复杂网络算法来进行案件反查与异常发现。整体技术架构如下图所示。

图1 整体技术架构图

从上图可以发现,我们利用丰富的内、外部数据,依托银联现有的云计算大数据平台对数据处理,对转账、消费、查询等多个事件进行多角度的关联分析。通过结合创新的图计算算法以及可视化交互工具,形成了针对案件追溯反查和异常交易结构主动发现两大类原型工具。其中,针对图计算我们还总结了一套经验型性地解决方案,主要流程如上图右侧所示。即先利用大数据图计算平台GraphX进行相关的图形计算,得到出入度等关键的网络信息,然后着重提取与重点节点有关联的节点信息加载到Neo4j中再进行更为深入的关联分析与可视化交互。

在下面的章节中,我们对上述两大类技术分别进行详细的阐述,并且清楚地展示了使用该套解决方案在实际反洗钱工作中的应用效果。

三  基于大数据关联追溯的智能反洗钱技术

3.1 大数据关联追溯反洗钱系统核心技术

由于每天都涉及几千万笔的交易,数据量巨大,而传统数据库查询需要遍历,所以比较耗时。另外,仅仅得到涉案卡号相关的交易可能遗漏重要的信息,因此有必要进行进一步的深入挖掘更多关联信息,筛选重点可疑账号、核心交易结构以及关键资金路径等,对犯罪团伙进行全方位地打击,并从中总结规律。

针对以上需求,本课题对前期的洗钱关联追溯方案进行了全面升级,主要体现在以下方面:

a)基于大数据平台的关联交易多轮快速追溯

原本的数据库使用的是传统的关系型数据库,速度查询较慢。在改进方案中,我们首先使用大数据工具Hive进行数据库级的关联追溯,取得了一定的效果提升。不过,如若需要深入进行N轮关联追溯,仍然需要N次数据抽取以及N次遍历。在二次改进的方案中,我们引入了SparkSQL的代码级解决方案,只需在程序开始进行1次数据抽取,借助内存计算的力量,后续便可以进行N次遍历,相对Hive大大节省了数据抽取的时间。此外,我们还专门为实时分析场景构建了基于GraphX的模型级追溯平台,借助连通子图算法,构建好标签体系模型,后续只需一次查询便可获得全部关联信息,非常快速。不过这种方案需要对模型进行存储,更适用需要反复查询的应用场景。

b)关键转账枢纽节点发现

社会网络分析(SNA)算法一般可用于分析网络图中各个节点的信息度量。SNA中的部分功能比如小世界网络等不一定适用于反洗钱的需求,不过部分功能可以借鉴,经过移植及修改之后,用于挖掘账号之间关联信息。常用的SNA指标有度中心性、紧密中心性、介数中心度以及特征向量中心性等。

下面将阐述我们是如何使用这些指标来刻画洗钱网络中的节点的。

图2 SNA指标分析示意图

图a中,红色标记的节点是网络中的度中心性最高的账号,表明它在网络中和其他节点的连接是最多的,可能是转账交易中最活跃的节点。图b中两个红色标记的节点能够最好地和网络中其他绝大部分账号成员进行信息传递,具有最大的紧密中心性,很可能是在网络中负责交易中转的节点。图c中,红色标记的节点是左右两部分交易网络中介数最大的一个,所以很可能就是这两个子交易网络之间的桥梁。图d中,红色标记的节点具有最高的特征向量中心性。它与最活跃的几个账号节点都有最直接的联系,因此能够更好地对这些活跃节点产生影响。虽然它与大部分账号节点没有进行直接的联系,但很可能主要负责与一些关键节点进行沟通,让这些关键节点再去与下属洗钱节点进行沟通。

根据实际项目的经验,我们总结了一套SNA指标分析的实战经验:如果我们关注的是交易活动,那么可以采用度数为基础的测度;如果关注对交易的控制,可利用中介中心度;如果分析相对于信息传递的独立性或有效性,可采用紧密中心度;如果想要揪出幕后关键节点,不妨考虑特征向量中心性。

另外,基于以上指标计算衍生出来的链接分析在反洗钱领域具有更加明显的效果,它们原本多是利用图结构计算网页重要性的。在反洗钱项目中可以用来分析重要的个体节点。较为常用的链接分析算法有PageRank、HITS、SALSA、Hilltop等。其中PageRank还有其多种延伸方案。

c)核心交易结构网络发现

使用K-Cores算法实现重点子网络分析技术。这种度量帮助确定在一个网络紧密相连的群体。通过Kruskal等最小生成树算法,能够发现网络图中保持图连通的最少的代表性的边,从而得到最核心的交易结构等。此外,通过一些特定的社团发现算法也能够帮助进行社团划分,划分之后通过上述的SNA指标进行权重得分计算,高得分社团可能涉及核心交易等。这些方法在下文的异常社团发现中重点描述。

d)核心资金流路径分析

在反洗钱过程中,该分析可以用来研究个体、群体之间的联系。例如利用最短路径算法(包括Dijkstra、Floyd-Warshall 、Bellman-Ford、SPFA 和DAG算法等等)来寻找洗钱个体之间最直接的中介等等。还可以采用实现异常路径识别算法:合法的经济体为了正常的业务需要,资金转移一般都会遵循成本最低和时间最短的原则。此外,通过最小生成树等算法能够在一定程度上直接得到重要的核心交易路线。

通过以上方法,再对整个案件中涉及到的转账、取现、查询等多种事件进行结合考虑,就能全局性地掌握案件动向,甚至可以进行一些串并案的关联分析。关联追溯整体的技术框架如下所示:

图3 大数据关联追溯反洗钱技术框架

3.2 基于大数据关联追溯的反洗钱实战分析

利用上述的大数据关联追溯系统在实际的办案过程中已经取得了良好的效果,下面以一起利用盗取的游客卡片信息,制成“克隆卡”进行大规模电信诈骗的非法资金转移活动为例,阐述该套系统的效果。

利用关联追溯的方法,我们首先寻找到了与原始涉案卡号相关的所有转账交易,发现其中大部分2016年7月份是交易最多的,因此我们做了重点调查。7月份的转账交易图如下所示。可以发现该结构中存在一个比较明显的异常结构,以及其他散落的一些账号。

图4 电信诈骗首轮涉案转账交易网络图

从放大的图中可以明显发现以下异常:

17号节点存在明显的集中转入分散转出的异常模式。

节点2和节点6存在明显的大量转出的情况

节点2和节点17同时向同一批账号节点进行了大量转入操作。

基于以上特征,我们初步断定该批账号的确存在异常,但由于涉电信诈骗资金的交易环节复杂、交易层级较多,从转移赃款直至最终清洗完毕可能经过多步复杂过程,在上面的原始交易图中难以发现更多的信息,因此我们以当前交易网络所有节点作为当前种子账号,对关联交易进行了多轮追溯。

下图是第2轮追溯的结果。我们使用过滤器将小额交易的边全部过滤掉,结果如下图所示,发现该异常结构中大额交易非常少。

图5 追溯2轮后过滤小额转账后的交易网络图

直到关联扩展了4轮之后,我们才逐渐发现了较多的大额交易。边越粗表示交易金额越大。

图6 追溯4轮后过滤小额转账后的交易网络图

此外,我们发现了潜在的更大的可疑交易网络。原始的交易网络结构只是这个大型交易网络的冰山一角。这个大型交易网络中也存在着明显的结构化可疑洗钱模式,比原始的交易结构更为复杂,并且先前没有被业务人员发现。这时整个的交易网络图如下所示。

图7 追溯4轮后整体交易网络图及Kcores核心示意图

我们利用Kcores算法可以发现该异常结构中存在多个非常复杂的交易子结构。以上图的Kcores7核心图为例,在该子结构中,每个账号都至少与其他7个账号发生过交易。这是非常可疑的,后续可以针对这个子结构进行进一步深入分析。下面我们还列举了从整个交易网络利用Kcores算法得到的各种可疑洗钱模式结构图。下图仔细分析了一个Kcores核心图的转入转出。从这些图中,我们可以明显的看出,该异常结构竟然分成了明显的3层,每一层之间分别整齐地向其他层的账号进行转入转出,中间那个层不仅是上下两层的资金过渡层,并且三个账号节点之间还互有交易,因此可能是关键的中介节点,介数中心度较高。

图8 转账中介节点示意图

上面仅仅只是一个异常交易结构代表,整个交易网络中存在多个类似的层次化的交易结构,如下图所示,绿色框内的账号表示大量向外层转出资金,而橙色框内的账号代表有大量的资金转入。这种层次化的批量转入转出明显是经过精心设计的。

图9 复杂层次化洗钱示意图

发现了以上层次化的结构之后,接下来要做的就是对那些有大量资金转入但转出很少的账号进行重点排查。为了更清楚地发现资金的最终去向,我们发挥了Neo4j图数据库的作用,结合可视化交互工具,进行了多事件关联分析。如下图所示,我们将一批涉案账号在16年7月1日的多个交易事件在同一张图中进行了显示。其中

→ 蓝色节点代表卡号

→ 绿色节点代表地址

→ 蓝色线条代表两个卡号之间转账

→ 黄色线条代表某卡号在某地址进行查询交易

→ 红色线条代表取现交易

→ 绿色线条代表消费交易

从这张图上我们又发现了以下几点异常:

一批卡号同时在地址1查询,而在另外一个地址2取现。

一批卡号同时在两个不同的地址都发生取现。

该批卡号的转账、查询、取现很多,消费很少,且互相异地

一批卡号互相有转账关系,转完以后在相同地址取现。

通过以上异常点,我们基本可以认定这一批卡号属于同一团伙,并且前期发现的两张卡号向同一批卡号汇入资金的后续资金流向也得到了确认,即这些零散卡号在资金汇入之后,在很短的时间内就进行了跨境取现。

图10 转账、取现、查询多事件关联可视化分析

综上所述,利用大数据关联追溯技术,我们从少量涉案卡号从发现了大量前期未被发现的可疑交易,并且锁定了交易团伙中的关键账号作为突破口。此外,根据以上案件也能够提炼相关规则,作为一种可疑的洗钱模式,后期如若发现类似的交易结构,则可以提早预防,及时截断资金去向。

四  基于异常交易团伙识别的智能反洗钱技术

每天数千万笔的交易量,如何在不依赖已知案件的情况下有效筛选出洗钱风险较高的交易团伙一直是一个难题。对此,本课题从复杂网络的异常交易结构入手,通过对异常交易进行风险量化,从而发现高可疑度的洗钱团伙,为后续集中力量开展洗钱调查打下坚实基础。整体的技术框架如下。

图11 异常交易团伙识别智能反洗钱技术框架

1 异常转账结构发现技术

目前,基于海量转账交易,我们能够主动寻找到一些模式化的的异常资金结构,类举如下:

频繁汇入/汇出

链式交易结构

集中转入/分散转出

分散转入/集中转出

环状交易结构

其他复杂异常交易结构

下图是我们发现到的对应的异常转移结构的一些示例图。

图12 从交易网络中识别出来的部分可疑交易结构示意图

我们主要采用Spark大数据平台进行处理运算。这里的交易图的节点仍然是参与转账的节点,不过由于目的是发现异常洗钱团伙,因此我们对同一对账号之间的交易边进行了融合,交易金额和频次采用累加和作为融合后属性,交易时间采用平均值度量。以上功能使用groupEdges函数即可轻松实现。交易边融合完成后,根据统计得到的频次信息,依照《金融机构大额交易和可疑交易报告管理办法》的相关规定,即可快速定位相关的频繁汇入/汇出异常结构。

对于分散/集中转入/转出这类的异常交易结构,我们主要采用基于阈值过滤的算法。首先我们发现交易图中存在大量转账孤岛(即两账号节点之间仅发生互相转账而与其他账号没有任何转账关系),因此,我们可以事先过滤掉这些转账孤岛,过滤后的节点规模至少缩减一半以上。接着,我们可以根据前期反洗钱经验,设定相应的阈值,将洗钱风险度极小的交易边给删除,例如两账号之间的交易金额小于一定阈值的边全部过滤,这样一来,很多原本非常复杂的交易网络就被缩减甚至拆分。对于中心交易节点来说,一定是入度较小,出度较大。这时,我们只需要设定相应的阈值,比如入度θ2,而对于分散转入/集中转出的模式则条件正好相反。根据此类条件筛选出可疑的节点,寻找出与这些可疑节点的相关交易,便有可能发现相关的异常洗钱模式。而对于环状交易结构,我们使用了基于Tarjan和Kosaraju算法来寻找环状强连通子图,再结合相应的阈值过滤即可得到相应的异常结构。

然而,根据大量的实战分析,我们发现符合这类条件的账号不在少数,但是真正的洗钱交易往往还存在一些其他的潜在特征。这时,我们就需要再额外地添加约束条件,使得调查范围缩减到可控的范围内。一个常见的约束条件就是中心点折损率(转出金额/转入金额)。一个负责洗钱的中介节点,往往都是起过渡作用,大部分转入的钱都会经过各种手段转出。因此如果上述筛选出来的可疑节点的中心折损率接近1,那么该账号就有很大的洗钱风险。因为犯罪分子总是想在较短的时间内完成洗钱,因此时间约束也是一个常用的约束条件。如果一条线上的上下两笔交易差的时间相差太大,我们则认为该结构的洗钱风险较低,可以过滤掉,这样可以大大精简侦查范围。

2  异常转账结构发现实战分析

以某一天内转账交易为例。在经过一系列的过滤之后,我们设置入度>10 && 0



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有