首页 / 基于决策树的风控决策方法及系统

基于决策树的风控决策方法及系统实质审查 发明

技术领域

[0001] 本发明涉及互联网金融技术领域,特别涉及一种基于决策树的风控决策方法及系统。

相关背景技术

[0002] 互联网金融是传统金融机构与互联网企业利用互联网技术和信息通信技术实现资金融通、支付、投资和信息中介服务的新型金融业务模式。互联网与金融深度融合是大势所趋,将对金融产品、业务、组织和服务等方面产生更加深刻的影响。互联网金融对促进小微企业发展和扩大就业发挥了现有金融机构难以替代的积极作用,为大众创业、万众创新打开了大门。
[0003] 然而,对于实体(例如,个人、机构)贷款的风险评估,在各种情况下,银行会通过人工分析贷款人资质来确定是否批准该借款人的贷款。具体的,可以基于对实体的某些行为(例如,不偿还债务)和/或个人资料信息(例如,收入,职业)的分析来确定贷款风险,基于此种条件下,对于风险评估人员的专业性要求较高,且由于评估材料的复杂性导致风险评估周期较长,风险评估的效率相对于的很低。

具体实施方式

[0053] 为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的若干实施例。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本发明的公开内容更加透彻全面。
[0054] 需要说明的是,当元件被称为“固设于”另一个元件,它可以直接在另一个元件上或者也可以存在居中的元件。当一个元件被认为是“连接”另一个元件,它可以是直接连接到另一个元件或者可能同时存在居中元件。本文所使用的术语“垂直的”、“水平的”、“左”、“右”以及类似的表述只是为了说明的目的。
[0055] 除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
[0056] 现阶段对于实体(例如,个人、机构)贷款的风险评估,在各种情况下,银行会通过人工分析贷款人资质来确定是否批准该借款人的贷款。具体的,可以基于对实体的某些行为(例如,不偿还债务)和/或个人资料信息(例如,收入,职业)的分析来确定贷款风险,基于此种条件下,对于风险评估人员的专业性要求较高,且由于评估材料的复杂性导致风险评估周期较长,风险评估的效率相对于的很低。
[0057] 为此,本发明提出一种基于决策树的风控决策方法,以克服现有技术中存在的问题。
[0058] 请参阅图1,为本发明第一实施例提出的基于决策树的风控决策方法。具体的,该基于决策树的风控决策方法包括以下步骤:
[0059] 步骤S11、获取决策对象的原始数据,并对原始数据进行预处理。
[0060] 本发明实施例中,原始数据获取技术简单来说就是利用数据分析技术,基于海量数据资源构建模型,分析其中隐藏的、价值高的信息,并给决策者提供一定的决策支持。数据采集的方法有很多比较常用的就是从数据库中获取和爬虫。示例而非限定的。本发明实施例可以通过根据银行存储的客户的数据进行提取。该原始数据是非常好的数据源;还有要分析一个公司的基本面的时候,可以通过爬虫技术把需要的企业信息给抓取下来。
[0061] 步骤S12、对预处理后的数据进行清洗,删除数据中的异常值。
[0062] 需要说明的是,如果直接使用原始数据进行建模可能会产生一些问题,比如说数据中有的变量含有大量的缺失值,会严重影响最终的结果;还有的变量中含有大量的重复值,这种变量对于建模的意义是不大的;还有些数据并不是数值的需要进行特征化处理。通过删除这些无意义的数据以使得后续建模的采用的数据源更佳。
[0063] 步骤S13、对数据进行特征提取,获取数据的变量信息。
[0064] 示例而非限定的,由于建模时部分数据并不是变量信息,不能直接被模型所分析,例如分析互联网上的评论对于股票收益率的影响时,评论这些语言不能直接使用,需要提取关键字,赋予关键字一定的数值(变量信息),把文本数值化才能进行后面的分析。因此,本申请中通过对数据进行特征提取,将模型不支持的枚举变量处理呈可被模型分析处理的数值变量。
[0065] 步骤S14、根据变量信息建立决策树模型,并对决策树模型进行调优。
[0066] 其中,通过调节模型参数,以实现模型分析数据变量时可尽量避免模型过拟合以及模型简化的目的。
[0067] 步骤S15、将决策对象的风险评估结果通过可视化决策树展示。
[0068] 综上,本发明实施例提出的基于决策树的风控决策方法,通过将原始数据进行预处理,并对数据进行清洗处理,提取必要且有价值的数据,再将数据进行特征化提取,使得数据处理呈变量形式,可以被模型识别分析,再对模型进行调优,简化模型,避免模型过拟合,再将模型分析后的数据通过可视化决策树进行展示。本发明的有益效果是,可以高效的实现对于决策对象(贷款意向客户)的风险分析把控,相比于专业人员人为进行风险把控的方式,该方法决策速度快,决策效率高,且决策的结果体现直观,降低风控人员的工作量,提升了工作效率。
[0069] 本发明实施例中,原始数据进行预处理步骤具体包括:冗余变量处理、缺失值处理、地方插变量处理以及异常值处理。通过采用上述方法可有效的对原始数据进行优化处理。
[0070] 进一步的,本发明实施例一提出的基于决策树的风控决策方法中,对原始数据进行冗余变量处理的方法具体包括:
[0071] 删除原始数据中对决策树模型不产生影响的变量。
[0072] 可以理解的,冗余变量主要指的是根据信贷业务常识,对于建立模型没有任何实际意义也不会对模型结果产生任何影响的变量,所以要在建立模型前直接做删除处理。
[0073] 需要进一步说明的是,在银行以及贷款机构的系统运行和数据存储时,某些变量值出现缺失值也是比较正常的情况,主要是由于存储数据的时候操作错误或者系统源数据不完整,比如客户留存的信息不齐全等。存在缺失值会对建模分析产生很大影响,所以要对缺失值的进行相应的处理。对于此,请参阅图2,为本发明实施例一提出的基于决策树的风控决策方法中,对原始数据进行缺失值处理的方法流程图,具体的,该方法流程包括:
[0074] 步骤S21、判断原始数据是否存在缺失值。
[0075] 步骤S22、若是,则查询原始数据在前3年是否存在完整数据。
[0076] 步骤S23、若原始数据在前3年存在完整数据,则根据前3年的数据求均值进行填充。
[0077] 步骤S24、若原始数据在前3年不存在完整数据,则对缺失值进行补0填充。
[0078] 通过该缺失值处理方法,极大的降低了系统原始数据不完整导致建模分析偏差的情况发生。
[0079] 进一步的,本发明实施例中,对数据进行特征提取,获取数据的变量信息的步骤具体包括:缺失率筛选、IV值筛选以及相关性筛选。通过上述数据筛选方法,进一步的提升了数据的分析价值。
[0080] 请参阅图3,为本发明实施例一提出的基于决策树的风控决策方法中,缺失率筛选的方法流程图,具体的,该方法流程包括:
[0081] 步骤S31、计算所有变量的缺失率,所述缺失率的计算方式为:缺失率=变量值缺失的数量/变量值的总数量。
[0082] 步骤S32、若任一所述变量的缺失率大于预设值,则删除对应变量。
[0083] 可以理解的,当用来挖掘分析的数据量较小,缺失值在变量所有数值中的比重也比较大的情况下,使用这个变量进行建模分析时,这个变量对于实现模型分析效果来说弊是远远大于利的。但同时,变量产生大量数据缺失的可能还代表着一些特殊的含义,如果完全不进行分析就直接进行变量删除可能也会丢失一些相对重要的信息。示例而非限定的,本发明实施例中,缺失率的判断预设值设置为10%。通过删除变量中缺失率较大的部分数据,有效的克服了上述情况的发生。
[0084] 请参阅图4,为本发明实施例一提出的基于决策树的风控决策方法中,IV值筛选的方法流程图,具体的,该方法流程包括:
[0085] 步骤S41、计算所有变量的IV值。
[0086] 步骤S42,筛选并保留IV值大于预设值的变量。
[0087] 在金融场景中,IV值是一个经常用来衡量特征强弱的指标。IV值如果比较大,说明该特征的区分度比较强,如果IV值比较小则说明特征的区分度比较弱。本发明实施例中,通过对所有变量进行IV值计算,并和设定阈值进行比较判断,用于筛选出预测能力符合要求的变量,示例而非限定的,本发明实施例中IV值的预设值(判定阈值)设置为0.02。
[0088] 请参阅图5,为本发明实施例一提出的基于决策树的风控决策方法中,相关性筛选的方法流程图,具体的,该方法流程包括:
[0089] 步骤S51、利用皮尔逊相关系数对所有变量进行相关性评估。
[0090] 步骤S52、删除相关性大于预设值的变量。
[0091] 综上,通过皮尔逊相关系数对所有的变量进行相关性比较,并删除相关性大于预设值(本发明实施例中,预设值设置为0.7)的变量。用于筛选并去除部分重复性变量信息。以提高决策树模型分析时的精准性。
[0092] 请参阅图6,为本发明实施例一提出的基于决策树的风控决策方法中,对决策树模型进行调优的方法流程图,具体的,该方法流程包括:
[0093] 步骤S61、调节参数至极致测试决策树模型的极限。
[0094] 步骤S62、对决策树模型进行参数调优。
[0095] 其中,涉及到调优的参数包括叶子节点最小样本数、树分枝的最大深度和随机种子、叶子节点最小权重和、节点分枝最小纯度增长量和最大叶子节点数。
[0096] 步骤S63、对决策树模型进行剪枝处理。
[0097] 综上,通过在决策树建模时进行参数调节,可有效的避免模型过拟合情况发生,并且通过对模型进行剪枝处理。有效的简化模型,降低模型的运算强度,提升运算效率。本发明实施例中,剪枝处理的方式具体采用通过对叶节点处所需的最小样本数或树的最大深度进行配置来实现。
[0098] 综上,采用决策树进行贷前分析的技术手段。其有益效果是:决策树容易理解和注释,可以可视化剖析,容易提取出规则;可以同时处置类别型和数值型数据;在处理有缺失属性的数据时有优势;对于不相关的特征也能很好的处理;测试数据集时,运行速率比较快;处理大型数据样本时具有更快的速度。并联合本发明对于原始数据处理的技术手段。极大的提升了决策速度和决策效率,且决策的结果体现直观,极大的降低了风控人员的工作量,提升了工作效率。
[0099] 请参阅图7,为本发明第二实施例提出的基于决策树的风控决策系统,该基于决策树的风控决策系统包括:
[0100] 数据获取模块71:用于获取决策对象的原始数据。
[0101] 预处理模块72:用于对所述原始数据进行预处理。
[0102] 清洗模块73:用于对预处理后的数据进行清洗,删除数据中的异常值。
[0103] 特征提取模块74:用于对所述数据进行特征提取,获取所述数据的变量信息。
[0104] 建模模块75:用于根据所述变量信息建立决策树模型。
[0105] 优化模块76:用于对所述决策树模型进行调优。
[0106] 可视化模块77:用于将所述决策对象的风险评估结果通过可视化决策树展示。
[0107] 综上,本发明实施例提出的基于决策树的风控决策系统,用于实现上述的基于决策树的风控决策方法,通过将原始数据进行预处理,并对数据进行清洗处理,提取必要且有价值的数据,再将数据进行特征化提取,使得数据处理呈变量形式,可以被模型识别分析,再对模型进行调优,简化模型,避免模型过拟合,再将模型分析后的数据通过可视化决策树进行展示。本发明的有益效果是,可以高效的实现对于决策对象(贷款意向客户)的风险分析把控,相比于专业人员人为进行风险把控的方式,该方法决策速度快,决策效率高,且决策的结果体现直观,极大的降低了风控人员的工作量,提升了工作效率。
[0108] 另外,结合附图描述的本申请实施例基于决策树的风控决策方法可以由计算机设备来实现。该计算机设备可以包括处理器以及存储有计算机程序指令的存储器。
[0109] 该计算机设备可以基于获取到的数据信息,执行本申请实施例中的基于决策树的风控决策方法,从而实现结合图1描述的基于决策树的风控决策方法。
[0110] 另外,结合上述实施例中的基于决策树的风控决策方法,本申请实施例可提供一种计算机可读存储介质来实现。该计算机可读存储介质上存储有计算机程序指令;该计算机程序指令被处理器执行时实现上述实施例中的任意一种基于决策树的风控决策方法。
[0111] 在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
[0112] 以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

当前第1页 第1页 第2页 第3页