SAC优秀课题 |
您所在的位置:网站首页 › 新浪财经环球网提高自媒体信息发布可信度 › SAC优秀课题 |
中证协2019年度优秀课题选编之二十 基于机器学习模型的财务报告 欺诈风险识别方法研究 广发证券股份有限公司 出处:《中国证券》2020年第5期 作者简介:课题负责人:张汉林,广发证券股份有限公司信息技术部副总经理。课题组成员包括:杜瑞罡,广发证券股份有限公司信息技术部总监;覃剑钊,汇丰环球客户服务(广东)有限公司副总裁;陈海雯,广发证券股份有限公司信息技术部群组经理;黎豪,广发证券股份有限公司信息技术部数据分析工程师。 财务欺诈是指企业管理层和财务人员违反国家法律、法规和制度的规定进行的舞弊行为,通常表现在会计业务中使用欺诈、伪造、变更会计信息等各种形式的欺诈手段,以此来遮盖企业真实财务状况。财务报告欺诈行为的存在,通常会误导投资者做出错误的投资决策,造成重大的经济损失。通过数字化、智能化的手段提高财务报告欺诈识别的效率、准确率及覆盖率,是提高证券公司信用风险控制的重要环节之一,也是证券公司对目标公司相关金融产品进行准确定价的重要环节之一。传统基于人工规则的识别方法能够覆盖的指标相对有限,规则参数设定较为随意,较难制定基于高维度指标的规则,同时较难挖掘指标之间隐藏的深层次关系。而人工智能、机器学习等现代金融科技的飞速发展,无疑为财务报告欺诈行为的识别提供了重要的技术手段。 一、国内外基于机器学习模型的财务报告识别方法综述 (一)国内研究进展 总体来说,国内财务造假识别研究大多从中国上市公司财务造假的特点以及案例分析,选择具有显著相关的特征指标,基于监督学习等方法构建模型,在样本选择上多关注某一行业或某一类型的财务造假问题。而在机器学习模型构建上,有进一步深入研究的空间。 (二)国外研究进展 国外学术界对财务报表造假识别的研究早于国内,具有相对成熟的研究体系。对于财务造假问题的识别,目前的研究成果可分为监督学习算法和非监督学习算法,其中监督学习算法较为广泛应用,例如通过逻辑回归模型、决策树模型、支持向量机模型、神经网络模型和朴素贝叶斯等来识别出某公司的财务造假问题。 二、财务报告欺诈识别特征提取与重要性分析 (一)特征选取思路 企业年报的财务指标是企业财务状况、经营情况的综合反映。有文献实证研究发现,财务欺诈行为会使得企业财务结构出现异常,从而在某些财务指标上显著异于同类公司。之前的研究也证实,部分非财务指标(如高层人员结构、审计意见等)与财务欺诈也有着显著关联。本文基于国内外财务欺诈识别的相关文献,依照有效性、真实性、全面性等原则对指标进行选取,用于初步构建财务欺诈识别的指标体系。 1.非财务指标的选取 在财务欺诈识别的方法中,大量文献基于企业舞弊三角论构建指标体系。该理论认为企业舞弊的产生是由压力、机会和自我合理化三要素组成的。压力因素是企业舞弊的行为动机,与企业经营状况有关;机会因素是指逃避企业舞弊惩罚的时机,主要与企业内部控制、企业内部惩罚措施、审计制度等相关;自我合理化因素与企业舞弊实施者的道德观念、行为准则密切相关,在此处难以量化。因此非财务指标的选取主要从压力因素与机会因素中构建(见表1)。 ![]() 2.财务指标的选取 为尽可能全面、具体、科学地反映公司财务情况,本文从贝格金融数据库中的公司主要财务分析指标表与财务附注表中初步选取了207个财务指标。其中公司主要财务分析指标表选取的指标由三大财务表——公司资产负债表、公司现金流量表、公司利润表计算而得;选用的财务附注表包括财务附注-应付账款表、财务附注-预付账款表等共计15个。 财务欺诈是一个连续的过程,因此须计算上述财务指标近三年的均值与方差作为新特征,并依照公司所属的申万二级行业类别对所有财务指标进行标准化,最终得到629个变量。对缺失率超过80%的指标进行剔除,剩余指标454个。 (二)实验数据集与实验方法简介 1.实验数据集 本文使用的相关数据均来自贝格金融数据库。其中,欺诈样本选自2008-2018年年度报告中因信息披露虚假而被中国证监会处罚的A股上市公司。由于季度报表和半年报表的不完整性,财务指标数据选自年度财务报表中的数据,且把同一公司在不同年份的欺诈行为视为不同的样本数据。本文最终选取的财务欺诈样本总共106个,包含61家公司。 2.数据预处理 实证分析前,对原始数据的整合、清洗与特征筛选必不可少。由于贝格金融数据库中上市公司财务指标数据依照不同类别拆分成多个表,因此需要根据公司代码、截止日期以及行业代码将多个表中的数据进行拼接、合并。在数据标识中,把存在欺诈行为的公司记为正样本,标记为1,不存在欺诈行为的公司记为负样本,标记为0。 由于上市公司年报信息不完整、数据库表格信息缺失等原因,获取的原始数据集存在大量的缺失值。在本文的实验中,我们认为补全缺失率过高的特征容易造成数据失真,故剔除了缺失率超过80%的特征,剩余特征采用中位数进行填补。 ![]() (三)特征重要性分析 在实证研究与模型建立前,需对研究变量进行探索性分析,具体包括:观察研究变量在两类样本间的显著性、分析研究变量对财务欺诈识别的重要性与计算研究变量间的相关性。这些步骤不仅可以提升模型的效率,还增强了模型的可解释性,对财务欺诈的监控与防范都起到了启示作用。 1.Linear-SVM 本文使用Linear-SVM模型(线性支持向量机)对特征重要性进行初步分析(见表2)。 ![]() 观察表2可得,反映公司盈利情况(如摊薄净资产收益率同比增长、近三年价值变动净收益均值),稳定性[如应收账款周转率、近三年期末值标准差(财务附注-盈余公积表)]的特征具有较高的特征重要性。在排名前20位的特征中,有10个特征反映了近三年财务指标的均值或标准差,这证实了时序性与特征的稳定性对财务欺诈识别的有效性。 2.随机森林 本文采用随机森林模型对特征重要性进行分析。随机森林是一种经典的集成算法,属于bagging算法的一种,bagging算法组合多个弱分类器,最终结果通过投票或者取均值,以提高整体模型的精确度与泛化能力。在随机森林计算得到的特征重要性中排名前20位的特征如表3所示。 ![]() 由表3可知,排名前5位的均为非财务指标,表明管理层情况、行业类型与公司国有比重与是否欺诈存在较大的关联。计算这20个特征的Pearson相关系数,发现相关性大于0.8的特征有3对,分别在净资产收益率(摊薄)同比增长、净利润同比增长与归属上市公司股东的净利润同比增长这3个特征中两两产生。 3.XGBoost XGBoost是一种高效的boosting算法,通过将多个弱学习器结合,构建最优模型。利用XGBoost(默认参数)对全体数据集进行特征重要性分析(见表4)。 ![]() XGBoost筛选出的前20个特征中,非财务指标国有法人持股占比、领导人任职年龄依然位列较前。剩余财务指标基本均来自公司主要财务分析指标表,其中反映近三年的现金营运指数位列第一。对这20个特征计算Pearson相关系数,发现线性相关系数大于0.5的特征对仅有1对,为净资产同比增长与总资产同比增长。 三、正负样本严重不平衡问题解决方法研究及分析 在本文研究中,我们把有财务欺诈行为的公司标记为正例,把没有欺诈行为的公司标记为负例。显然,没有欺诈行为的公司(或者暂时没有被发现有欺诈行为的公司)的数量肯定远远大于已被发现有财务欺诈的公司的数量,正例与负例在数据集中的占比极度不平衡。理想情况下,我们想要得到一个分类器可以对正例和反例都能提供一个较好的分类准确率。但实际应用中,若负例占比十分大,分类结果往往在负例得到将近100%的准确率,而在正例中的准确率则十分低。 在金融行业中,漏识别出一个欺诈行为的公司可能让我们付出很大的代价,这样的代价远远高于把没有欺诈行为的公司误判为有欺诈行为的代价。所以对于有财务欺诈的公司,尽量“宁可错杀一千不可放过一个”,因此,需要得到一个分类器,既能对于正例有很高的准确率,同时又不会影响到负例的准确率。类内不平衡通常会对分类器的性能造成很大的影响,所以我们会选用一些方法来对训练集的数据进行一些平衡化的预处理。主要解决不平衡学习问题的方法有过采样、欠采样以及合成采样。采样后我们用随机森林(Random Forest)算法对训练集进行训练。 (一)样本不平衡处理方法 1.过采样方法 针对不平衡数据,最简单的一种方法就是生成少数类的样本。过采样主要是增加一个从少数类中随机选择的样本集合,从少数类集合中随机选择一个子集来增强数据集。常见过采样方法有Random Over-sampling、SMOTE、ADASYN、BorderlineSMOTE-1、BorderlineSMOTE-2等。 2.欠采样方法 欠采样是通过从原始数据集中移除一些样本,减少多数类的样本,使得正负样本相对平衡。常见欠采样方法有Neighbours Cluster Centroids、Random Under Sampling、NearMiss-1、NearMiss-2、NearMiss-3、Edited Nearest Neighbours、Repeated Edited Nearest Neighbours、AllKNN、Condensed Nearest Neighbour、One Sided Selection、Neighbourhood Cleaning Rule、Instance Hardness Threshold等。 3.欠采样和过采样综合法 在之前的SMOTE方法中,当由边界的样本与其他样本进行过采样插值时,很容易生成一些噪音数据。因此,在过采样之后需要对样本进行清洗。这样,将欠采样的方法与过采样相结合就能实现上述的要求。具体方法有SMOTE-ENN、SMOTE-Tomek等。 4.集成分类器 集成分类器是在构建集成学习模型的过程中,在划分子集时实现对数据集的均衡。常用针对样本不平衡问题的集成分类器方法有EasyEnsemble、Balanced Bagging、Balanced Random Forest等。 (二)实验结果及分析 通过实验对上述总结的主要数据不平衡处理算法进行性能比较和分析。与前文采用的实验数据集一致,在实验数据集构造过程中,2009-2015年作为训练集、2016-2017年作为测试集对性能进行评估。 在评估基于过采样和欠采样方法过程中,采用上述过采样和欠采样方法对数据集进行平衡处理后,统一采用Random Forest进行分类,然后根据分类结果对这些方法进行评估。而对基于集成分类器的方法,则直接采用集成分类器进行模型训练和评估。根据研究问题的特性,各方法的性能评估主要采用ROC(Receiver Operating Characteristic)曲线的AUC(Area Under Curve)指标。 可以看到,Balanced Random Forest、Easy Ensemble方法取得了0.90的AUC值,为各类方法中最佳,而Balanced Bagging方法的AUC值为0.89,性能和Easy Ensemble及Balanced Random Forest相当。性能最差的方法为Random Over-sampling、Repeated Edited Nearest Neighbours这两种欠采样方法,两种方法的性能甚至低于原始数据的AUC值,说明采用这两种欠采样方法可能损失了有用的分类信息,导致性能比采用原始数据性能更差。 图1中展示了几大类不平衡数据处理方法的AUC均值。从数据显现:当采用Random Forest作为过采样-欠采样综合法,欠采样法、过采样法的最终分类器时,基于集成分类器的数据不平衡处理方法性能最佳,过欠采样综合法次之,而过采样法性能要优于欠采样法。 ![]() 总体来看,XGBoost在各大类中均表现最佳,其次是Random Forest,而基于KNN的方法表现最差。与Random Forest不同,当采用XGBoost作为平衡处理后数据的分类器,Neighbourhood Cleaning Rule、AllKNN等欠采样方法的表现均小幅优于采用原始数据时的分类效果。说明不同数据处理方法在采用不同的后端分类器时,性能表现也不尽相同。 四、监督学习模型与异常值检测模型融合方法及系统实现 前文构建的上市公司财务欺诈识别模型主要是基于监督学习模型得到的,监督学习模型可以充分利用历史已经被公开因财务欺诈处罚的上市公司样本,且具有易于对模型进行训练和优化的特点。但由于被公开因财务欺诈处罚的上市公司可能只是冰山一角,在正常上市公司中可能存在一些有财务欺诈行为的公司,这增加了监督学习模型构建的难度;目前上市公司的财务欺诈手段层出不穷,监督学习模型对新型财务欺诈手段的适用性会降低。于是,我们尝试将监督学习模型与异常值检测模型相结合,提高模型效果,并构建智能财务欺诈识别监控系统,提高自动化监控能力。 (一)异常值检测模型介绍 由于异常值检测针对的问题中异常类的数据常常占极小的比例,仅能利用已知的样本数据进行学习,因此异常值检测是无监督学习的一类方法。为了提高数据异常检测的可靠性,以及针对数据数值统计分布的多样性,采用多检测模型融合的方法进行异常值检测。 1.高斯(混合)模型 高斯模型异常值检测又称Z-score模型,该方法假定数据服从高斯分布,异常值是高斯分布尾部的数据点。 2.One-Class SVM模型 One-Class SVM模型在异常数据检测中被广泛使用。它通过历史正常数据,并假设原点为唯一异常点,构造一个支撑超平面将正常数据点与原点之间间隔最大化,根据构造的支撑超平面来判断待监控数据是否为正常数据。 3.Isolation Forest模型 Isolation Forest模型是一种无须事先知道数据分布模型的方法,由于异常数据具有在生成树中经过的路径(即树的节点个数)较短的特点,Isolation Forest利用该特性实现异常数据的检测。 4.Dbscan模型 Dbscan是基于密度的聚类算法。该方法根据所要求距离ε以及所选择的距离度量计算每个数据点在半径为ε的n维球体内的包含其他数据点的数量,若数据点的包含点数小于一定阈值,则认为该数据点为异常点,也称为噪声点。 5.Elliptic Envelope模型 Elliptic Envelope模型又称椭圆分布模型,它可以假设数据服从某一概率分布,根据估计值计算各数据点距离中心数据点的马氏距离,当数据点的马氏距离超过一定阈值,可认为是异常点。 6.多指标一致性异常值检测模型 根据对上市公司财务欺诈案例及其财务数据特性分析,财务数据之间有较强的联动性,上市公司想要粉饰财务状况,往往需要对多个指标进行会计调整才能够实现,以满足财务报表的勾稽关系;而且由于单一关键指标在同行业公司中显著异常很容易引起会计师、投资者的关注,同时对多个指标进行会计调整,能够避免单一关键指标显著异常,财务欺诈手法更隐蔽。针对这一特性,需要深入挖掘多指标直接正常的关联关系,对异常的关联关系进行预警。 (二)财务欺诈融合系统实现 在完成模型构建后,下文尝试构建智能财务欺诈识别监控系统,提高自动化监控能力。 1.系统逻辑架构 融合系统整体逻辑架构图如图2所示。系统通过统一的数据总线获取模型所需要的基础数据,基础数据可分为两类:一类是上市公司标准财务数据;另一类是上市公司与财务欺诈有关的另类数据,其主要特点为多以文本数据为主,需要进一步进行处理与挖掘。为了保证系统识别效果以及对新型财务欺诈手段的适应性,会对系统的基础数据处理环节定期进行增减调整。在分析引擎环节,包含监督学习财务指标造假挖掘模型和异常值检测模型。监督学习财务指标造假挖掘模型是根据历史曾发生财务欺诈的上市公司在财务欺诈期间的样本数据以及其他正常上市公司的样本数据,采用监督机器学习进行建模分类以及分析预测。异常值检测模型是根据所有上市公司样本数据进行分类和统计后,采用异常值检测的方法挖掘出上市公司的财务异常状况。 ![]() 2.系统融合评分框架 财务欺诈融合系统的财务欺诈风险综合评分框架如图3所示,上市公司的财务欺诈风险值由“监督学习得分”和“异常值检测模型得分”融合得到。“异常值检测模型得分”分为“单指标异常检测得分”“多维异常检测得分”以及“多指标一致性检测得分”,每个分项的得分融合了各异常值检测模型的结果。在“监督学习模型得分”中,是依据上文分析择优得到的监督学习模型进行打分评估,采用了经样本不平衡处理后的XGBoost模型进行打分,财务欺诈风险越高的上市公司分数越高。 ![]() 3.系统IT主体架构 财务欺诈融合系统的IT主体架构如图4所示。 ![]() 基础设施层主要由容器云、基于Apache Spark/Flink的大数据计算平台及各类数据库组成。基础模块层主要由机器学习算法、自然语言处理算法、任务调度API、消息推送API、数据读取API等通用模块组成。应用模块层由实现系统核心功能的主体模块组成,具体包括数据预处理、监控规则生成与更新、监控计算、监控结果反馈、消息推送等功能模块。用户交互层主要实现Web端、移动APP端的交互功能。 参考文献: [1] 任朝阳.中国上市公司会计舞弊识别与治理研究[D].吉林大学, 2016. [2] 蒋慧峰,朱文杰.我国上市公司财务欺诈识别的实证研究[J].商场现代化,2013(11):137-138. [3] 陈国欣,吕占甲,何峰.财务报告舞弊识别的实证研究——基于中国上市公司经验数据[J].审计研究,2007(03):88-93. [4] 薛巍.上市公司财务欺诈识别模型研究[D].南京大学,2015. [5] Mansor, N., Fraud triangle theory and fraud diamond theory. Understanding the convergent and divergent for future research. International Journal of Academic Research in Accounting, Finance and Management Science, 2015. 1: p. 38-45. [6] Weston, J., et al. Feature selection for SVMs. in Advances in neural information processing systems. 2001. [7] Chen, Y. and C. Lin, Combining SVMs with various feature selection strategies, in Feature extraction. 2006, Springer. p. 315-324. [8] Chen, T. and C. Guestrin. Xgboost: A scalable tree boosting system. in Proceedings of the 22nd acm sigkdd international conference on knowledge discovery and data mining. 2016: ACM. [9] 陈斌等.异常检测综述.山东大学学报(工学版),2009.39(06):13-23. ![]() |
今日新闻 |
点击排行 |
|
推荐新闻 |
图片新闻 |
|
专题文章 |
CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭 |