首页 / 一种财务票据风险值计算方法、装置、设备及存储介质

一种财务票据风险值计算方法、装置、设备及存储介质公开 发明

技术领域

[0001] 本申请涉及财务票据风险评估技术领域,尤其涉及一种财务票据风险值计算方法、装置、设备及存储介质。

相关背景技术

[0002] 在当今数字经济蓬勃发展的背景下,数字自动化转型已成为迫切需求。费用报销管理,作为支撑企业稳健发展的关键环节,其规范化与管理水平的提升显得尤为重要。历经多年的发展与实践,财务共享服务作为一种新兴的财务管理模式应运而生。该模式通过对企业原有的会计与财务业务进行整合与优化,借助科学规范的统一管理手段,有效降低了运营成本,提升了工作效率,确保了信息质量,并减少了管理风险。
[0003] 财务共享中心所积累的大量数据,为企业构建财务数字能力提供了坚实基础。通过深入挖掘数据洞察,企业能够更精准地驱动经营决策,为数字化转型注入强劲动力,进而实现财务领域的全面数字化转型。在这一过程中,风险管理扮演着至关重要的角色。特别是财务欺诈风险,由于其隐蔽性较高,企业往往难以及时发现,常常是在监管部门发出通知后才得知相关风险。为了提前规避此类风险,各公司机构亟需加强内部审计与内部控制的能力,从而确保企业财务的稳健与安全。

具体实施方式

[0049] 为了使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0050] 需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0051] 图1为本申请实施例提供的一种财务票据风险值计算方法的流程图。结合图1所示,本申请实施例提供的财务票据风险值计算方法可以包括:
[0052] S101、获取待进行风险值计算的财务票据。
[0053] 财务票据是财务领域中使用的一种书面证明,它记录了某个经济事件或交易的发生。这些票据在企业的日常运营、财务管理以及税务处理等方面都扮演着重要的角色。
[0054] 财务票据的风险值是指,在正常市场状态及规定置信度的情况下,在给定时间段内,由于票据的某些特性或因素可能导致的预期损失的量度标准。这一风险值可以帮助企业评估和管理与财务票据相关的潜在风险。
[0055] S102、将对所述财务票据进行数据处理后得到的数据输入预先训练好的风险分类模型,基于所述风险分类模型得到所述财务票据的风险概率。
[0056] 在进行票据风险值之前,需要对票据进行处理,以得到票据对应的数据,具体包括对原始财务票据进行如清洗、转换格式、提取关键信息等数据预处理操作,以便将其转换为适合风险分类模型输入的格式。
[0057] 预先训练好的风险分类模型是一个已经使用大量历史数据训练过的机器学习模型,能够基于输入的数据(经过处理的财务票据)预测其风险概率。风险分类模型会根据输入的数据,通过其内部算法计算出一个表示风险大小的概率值。这个概率值越高,表示该财务票据的风险越大。
[0058] 具体的,所述预先训练好的风险分类模型是基于多种异常检测模型和分类模型训练得到的,所述多种异常检测模型用于对输入的数据进行异常检测得到风险数据样本;所述分类模型用于基于风险数据样本得到输入数据的风险概率。异常检测模型专门用于识别数据中的异常点或异常行为。在财务票据风险评估中,异常检测模型可以识别出不符合正常交易模式的票据,如金额异常、交易对手方异常等。基于多种异常检测模型能够实现对数据中具有风险值的数据打标。分类模型用于将输入的数据分类到不同的类别中。在风险分类模型中,分类模型会根据异常检测模型的检测结果和其他特征,直接输出一个表示风险大小的概率值。
[0059] S103、将所述风险概率转换为对应的风险值。
[0060] 在通过预先训练好的风险分类模型得到待进行风险值计算的财务票据的风险概率后,由于有监督模型(分类模型)所预测出的概率虽可反映出票据的欺诈风险程度,但是由于大量票据的阳性风险概率集中在密集区域中,难以区分开来。由于此场景下的欺诈样本较少,数据标签值为0的情况普遍远多于标签值为1的情况,即数据存在非均衡问题,会导致预测出的阳性概率整体偏小,分类模型给出的划分案件是否有风险的阈值较低,因此需要在模型预测的概率基础上进行衍生计算,使其便于直接应用于业务场景中。在本申请实施例的一种实现方式中,基于评分卡模型,对所述风险概率进行处理,得到对应的分值,所述评分卡模型用于将将0‑1的概率非线性转换为0‑1000的分数。具体的,通过评分卡模型可将偏态概率分布有效转为正态分布,解决上述问题。所述评分卡模型将概率值转化为分数的转换公式为:
[0061] score=A‑B×ln(odds)
[0062]
[0063] 其中odds代表目标值中坏样本与好样本的概率比,在本申请实施例中即为阳性案件与非阳性案件的概率比;pdo(point of double odds)代表当odds翻倍时,分值将会减少pdo分;P0代表在某个具体概率比 下的基准分。在应用过程中,需自行设定pdo、P0及值,常见金融风控库scorecardy中设置的默认分数为pdo=50,P0=600,根据不同实际场景、数据分布及业务要求,可自行设定不同的评分卡参数,只需转换出的评分分布均衡合理即可。
[0064] 上述通过一个实施例对本申请中的财务票据风险值计算方法进行了解释,根据上述方法能够得到待检测票据的风险概率,为了使得结果更加准确,进一步的将概率值转换为分数值。此外,在财务风险控制领域,模型的解释性占据着重要的地位,然而,当前主流的机器学习模型普遍面临难以直接揭示局部特征重要性的挑战。为解决这一问题,本申请中引入了SHAP(即SHapley Additive exPlanations)方法。SHAP通过精确计算各特征对模型预测结果的边际贡献,为各特征分配相应的重要性值,从而实现对模型输出的有效解释。该方法能够深入剖析个体预测结果的构成,直观展现单个样本中起主导作用的特征及其影响力度。
[0065] 在本申请中,SHAP方法应用于两个关键环节。首先,在异常检测模型识别出异常点之后,利用SHAP技术可以追溯这些异常点的特征根源,为业务部门提供有力依据,以判断这些异常点是否构成有效的欺诈风险。其次,在构建完成有监督模型后,本申请借助SHAP方法,针对每一条票据输出其风险特征,为业务部门提供明确的指导,助力业务规范的制定与执行。具体的,在所述异常检测模型识别出异常点后,利用模型解释方法SHAP算法分析异常点的特征来源。当所述预先训练好的风险分类模型输出结果时,使用SHAP算法来解释模型的输出。
[0066] 上述通过一个实施例介绍了本申请的一种财务票据风险值计算方法,该财务票据风险值计算方法中使用了预先训练好的风险分类模型,下面结合图2对该风险分类模型的训练过程进行计算,图2为本申请实施例提供的一种分类模型的训练方法的流程示意图,如图2所示,分类模型的训练过程包括:
[0067] S201、构建多种无监督模型,基于构建好的多种无监督模型对样本数据进行异常检测,得到风险数据样本。
[0068] 本申请中构建的多种无监督模型包括isolation forest孤立森林模型、one‑class svm单类支持向量机模型和Local outlier factor(LOF)局部异常因子检测模型,孤立森林是一种无监督的异常检测算法,能处理大规模的多维数据,对高维数据有较好的鲁棒性。其基本原理是:利用一种名为孤立树(iTree)的二叉搜索树结构来孤立样本,由于异常数据数量较少且与大部分样本的疏离性,因此在被隔离时需要较少的步骤,即异常样本更容易快速落入叶子结点。该算法首先从训练数据中递归构建二叉树,形成集合为孤立森林,通过计算样本点在每颗孤立树中的路径长度和平均路径长度,得出每个数据点的异常分数,根据设置的阈值来判定是否为异常数据点;One‑Class SVM通过构建一个超球形决策边界来区分正常类和异常类。OCSVM(One‑Class SVM)目标是通过训练数据学习到一个高维的特征空间,使得正常类数据在该空间中尽可能接近决策边界,而异常类数据则远离决策边界。在训练过程中,算法通过最小化二次损失函数来学习决策边界并使用正则化项来控制模型复杂度,防止过拟合。OCSVM还可通过使用核函数将输入空间映射到一个高维特征空间,从而解决非线性分类问题;局部异常因子算法利用数据点周围的局部邻域信息来计算每个数据点的异常程度,该算法同时考虑了数据集的局部和全局属性。LOF算法的核心思想是,异常点通常在其周围的邻域中具有较低的密度,而正常点则在其周围的邻域中具有较高的密度。因此,可以通过比较一个数据点与其邻域中其他数据点的密度来判断其是否是异常点。具体过程为:对于每个数据点计算其与其它所有点的距离,并按从近到远排序;然后找到每个数据点的k最近邻点,通过LOF计算公式得出相应得分;最后如果LOF值越大,说明数据点越异常,反之如果得分越小,说明数据点越趋于正常。
[0069] 所述基于构建好的多种无监督模型对样本数据进行异常检测包括:
[0070] 利用孤立森林模型、单类支持向量机模型和局部异常因子检测模型对样本数据进行分析;当数据被两个以上模型确认为异常点,则初步确定存在异常风险;对初步确认存在异常风险的数据进行再次风险确认,若确认结果表示仍表示为存在异常风险的数据,则将数据作为风险数据样本。
[0071] 首先利用孤立森林模型、单类支持向量机模型以及局部异常因子检测模型这三种先进的算法,对样本数据进行深入细致的分析。这些模型各自依据不同的原理和机制来识别数据中的异常点。接下来,设定了一个判断标准:若某条数据被两个或两个以上的上述模型同时标记为异常点,则初步认定该数据存在异常风险。这一标准旨在确保异常检测的准确性和可靠性,通过多个模型的交叉验证来降低误判的可能性。
[0072] 然而,初步确认存在异常风险并不意味着最终确定。为了进一步提高检测的准确性,会对这些初步确认存在异常风险的数据进行更为严格的再次风险确认。这一步骤可能涉及更为复杂的分析方法和人工审核。最终,如果经过再次风险确认后,数据仍然被判定为存在异常风险,那么会将其正式归类为风险数据样本。这些风险数据样本将作为后续风险管理和控制的重要依据,帮助及时发现并应对潜在的财务风险。
[0073] S202、基于得到的风险数据样本训练有监督模型,得到训练好的风险分类模型。
[0074] 在得到风险数据样本数据后,对样本数据进行清洗,包括处理缺失值、异常值、重复值等,确保数据质量。然后从处理后的样本数据中提取出约百余个有效字段作为特征,这些特征应能够反映票据的风险特性。对特征进行必要的转换,如编码分类变量、标准化或归一化数值变量等,以提高模型性能。
[0075] 鉴于本申请对应的应用场景中数据量庞大且特征维度高,选择LightGBM算法作为分类模型。LightGBM在处理大规模数据、高维度特征以及分布式计算方面表现出色,同时能够评估全局特征重要性。使用风险数据样本(已标注的数据集)训练LightGBM模型,得到初步的分类模型。利用LightGBM算法评估全局特征重要性,识别出对模型预测贡献较大的特征。根据特征重要度进行筛选,删除重要度较低的特征,以减少模型复杂度,避免过拟合。使用贝叶斯优化方法,比较不同参数组合下模型的损失函数(如对数损失、交叉熵等)和AUC(Area Under Curve,曲线下面积)值,找到最优参数组合。使用筛选后的特征和最优参数组合,重新训练LightGBM模型,得到最优风险分类模型。通过交叉验证、留出法等方法对模型进行验证,确保模型的稳定性和泛化能力。
[0076] 在实际应用中,将实时票据的字段相关信息代入最优风险分类模型中,得到该票据的欺诈预测概率。
[0077] 本申请中在将风险概率转换为对应的风险值之后,进一步的进行了风险等级划分,根据预设的精确率与召回率标准,将计算出的财务票据欺诈风险分数转化为对应的风险等级。这一划分依据业务方的具体要求来确定,例如,若业务方期望精确率达到约90%,且模型预测中600分以上的票据占实际欺诈票据的90%以上,则可将600分设定为欺诈与非欺诈的临界值,并据此将票据划分为不同的风险等级。
[0078] 此外,还设定了一个风险阈值,用于区分高风险和低风险票据。高于此阈值的票据被视为高风险,将直接流入人工审核流程,以确保对这些潜在欺诈案件的深入审查和及时处理。而低于阈值的低风险票据,则进入规则引擎审核阶段。规则引擎内嵌了由业务方制定的多条复合规则,用于检测票据中可能存在的异常条件,如发票号重复、差旅住宿费重叠等。若票据触发这些规则中的任意一条,同样会被标记为高风险,并转入人工审核流程。这一双重审核机制旨在进一步降低风险,提高欺诈检测的准确性和效率。
[0079] 对于进入人工审核流程的票据,将由专业人员进行详细审查,并根据实际情况作出最终判定。这一步骤确保了高风险票据得到妥善处理,同时减少了模型可能存在的误判或漏判情况。通过上述步骤的细化实施,能够有效管理财务票据的风险,确保高风险案件得到及时关注和处理,同时提高整体的风险防控能力。
[0080] 为了能够直观呈现审核结论和风险来源,本申请中还设置了智能化风控平台,该智能化风控平台的核心在于直观呈现审核结论和风险来源。具体而言,数据面板会实时展示财务风险监测模型的结果,包括每张票据的风险得分和风险等级,以及相应的预警提示。这样,用户可以一目了然地了解到当前的风险状况。此外,平台还会详细揭示可能存在的风险类别及具体的财务风险点。这些风险点是基于模型的重要度以及SHAP(SHapley Additive exPlanations)值排序得出的,确保了风险识别的准确性和针对性。为了更直观地展示风险,平台会通过单变量数据分析与业务话术相结合的方式,生成相应的风险描述,为财务相关部门提供有力的数据支撑,便于他们进行风险核查和后续处理。
[0081] 综上所述,通过页面展示功能的加入,该智能化风控管理平台不仅提升了风险识别的效率和准确性,还为财务相关部门提供了便捷的风险管理手段,有助于企业全面掌控财务风险,确保业务运营的稳健性和安全性。
[0082] 以上为本申请实施例提供的一种财务票据风险值计算方法的一些具体实现方式,基于此,本申请还提供了对应的装置。下面将从功能模块化的角度对本申请实施例提供的装置进行介绍。
[0083] 图3为本申请实施例提供的一种财务票据风险值计算装置的结构示意图。结合图3所示,本申请实施例提供的财务票据风险值计算装置300,包括:
[0084] 获取单元310,用于获取待进行风险值计算的财务票据;
[0085] 处理单元320,用于将对所述财务票据进行数据处理后得到的数据输入预先训练好的风险分类模型,基于所述风险分类模型得到所述财务票据的风险概率;所述预先训练好的风险分类模型是基于多种异常检测模型和分类模型训练得到的,所述多种异常检测模型用于对输入的数据进行异常检测得到风险数据样本;所述分类模型用于基于风险数据样本得到输入数据的风险概率;
[0086] 转换单元330,用于将所述风险概率转换为对应的风险值。
[0087] 在本申请实施例的一种实现方式中,所述装置还包括数据解释单元,用于在所述异常检测模型识别出异常点后,利用模型解释方法SHAP算法分析异常点的特征来源。
[0088] 在本申请实施例的一种实现方式中,所述装置还包括数据解释单元,用于当所述预先训练好的风险分类模型输出结果时,使用SHAP算法来解释模型的输出。
[0089] 在本申请实施例的一种实现方式中,所述装置还包括,模型训练单元,用于对分了模型进行训练,所述分类模型的训练过程包括:
[0090] 构建多种无监督模型,基于构建好的多种无监督模型对样本数据进行异常检测,得到风险数据样本;
[0091] 基于得到的风险数据样本训练有监督模型,得到训练好的风险分类模型。
[0092] 在本申请实施例的一种实现方式中,所述基于构建好的多种无监督模型对样本数据进行异常检测包括:
[0093] 利用孤立森林模型、单类支持向量机模型和局部异常因子检测模型对样本数据进行分析;
[0094] 当数据被两个以上模型确认为异常点,则初步确定存在异常风险;
[0095] 对初步确认存在异常风险的数据进行再次风险确认,若确认结果表示仍表示为存在异常风险的数据,则将数据作为风险数据样本。
[0096] 在本申请实施例的一种实现方式中,所述转换单元具体用于,基于评分卡模型,对所述风险概率进行处理,得到对应的分值;所述评分卡模型用于将将0‑1的概率非线性转换为0‑1000的分数。
[0097] 在本申请实施例的一种实现方式中,所述装置还包括风险等级划分单元,用于根据预设的精确率与预设的召回率将财务票据的风险值划分到对应的风险等级;
[0098] 设定风险阈值,将高于阈值的高风险票据流入人工审核流程,低于阈值的低风险票据流入规则引擎审核。
[0099] 本申请实施例还提供了对应的设备以及计算机存储介质,用于实现本申请实施例提供的方案。
[0100] 其中,所述设备包括存储器和处理器,所述存储器用于存储指令或代码,所述处理器用于执行所述指令或代码,以使所述设备执行本申请任一实施例所述的方法。
[0101] 所述计算机存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现本申请任一实施例所述的方法。
[0102] 通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如只读存储器(英文:read‑only memory,ROM)/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如路由器等网络通信设备)执行本申请各个实施例或者实施例的某些部分所述的方法。
[0103] 可以理解的是,在本申请的具体实施方式中,涉及到的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),当本申请以上实施例运用到具体产品或技术中时,需要获得用户许可或者同意,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
[0104] 需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0105] 还需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及装置实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元提示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0106] 以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

当前第1页 第1页 第2页 第3页
相关技术
存储介质相关技术
方法装置相关技术
胡怀予发明人的其他相关专利技术