技术领域
[0001] 本公开涉及人工智能领域,更具体地,涉及风险评估模型生成方法和装置、电子设备以及程序产品。
相关背景技术
[0002] 近年来,随着大数据和人工智能技术的迅速发展,机器学习和深度学习技术在金融风控领域得到了广泛应用。金融机构利用这些技术训练风险评估模型,得以实现信贷风险控制、反欺诈和客户评级等功能。这些模型通常采用各种机器学习和深度学习算法,并综合运用各种技术来处理复杂的数据。
[0003] 然而,在实际应用中,这些机器学习模型的训练和部署面临诸多挑战。
[0004] 目前已提出了基于虚拟机进行风控模型训练的方案。然而,基于虚拟机的训练方案效率低下。同时,持有相关数据以及使用风控模型的用户往往是金融机构,他们在部署训练时可能会面临困难。
[0005] 当前,也有风险评估平台提供风险评估模型管理工具,其试图帮助用户、如金融机构管理机器学习模型的全生命周期,从开发、训练到部署。然而,用于风险评估的金融相关数据往往比较敏感和隐私,并要求合法合规使用。当前的风险评估模型管理工具难以针对多用户或多任务提供有效的数据隔离和/或访问控制,对于团队协作场景下的风险评估模型管理也缺乏相关安全审计机制。当用户、如金融机构的风控模型管理涉及跨团队、跨地域协作时,该问题更为突出。此外,当前的风险评估模型管理工具在算法框架共享和协同开发方面也有待改进。
[0006] 由此,亟需一种改进的风险评估模型生命周期管理的技术方案。
[0007] 本背景技术描述的内容仅为了便于了解本领域的相关技术,不视作对现有技术的承认。
具体实施方式
[0031] 为使本公开的目的、技术方案和优点更加清楚明白,下面结合具体实施方式和附图,对本公开做进一步详细说明。在此,本公开的示意性实施方式及其说明用于解释本公开,但并不作为对本公开的限定。
[0032] 由于金融数据的高度敏感性,限制了相关用户使用平台化的风险评估模型管理工具的意愿。对此,本公开实施例提供了风险评估模型生成方案,其能够以安全可靠的方式,尤其是在满足数据安全和可审计的情况下,允许金融用户使用风险评估模型生成平台,为机构用户提供跨团队,跨地域协作生成所需的风险评估模型提供了有效支持。
[0033] 对此,本公开实施例提供了一种风险评估模型生成方法和装置,还提供了可以用于实施该方法或者运行该装置的风险评估模型系统、电子设备、程序产品、存储介质等。
[0034] 参考图1,示出了本公开实施例所涉及的一种风险评估模型系统100的系统架构图。该风险评估模型系统100可以用于实施根据本公开实施例的风险评估模型生成方法和/或用于运行根据本公开实施例的风险评估模型生成装置。在本公开实施例中,风险评估模型可以应用于需要进行风险评估的技术领域,例如金融科技(FinTech)领域、医疗健康领域、保险评估领域等。在应用到金融科技时,风险评估模型具有金融科技领域的已知含义并作宽泛解释,可以是但不限于涵盖风控模型或评分模型、如信用评分模型或信贷评估模型等。
[0035] 该风险评估模型系统100可以包括云平台和前端模块,一些示例中,如图1所示,前端模块为前端应用150。在一些实施例中,风险评估模型系统100的云平台可包括平台底座模块、交互环境、模型训练模块、数据源等。风险评估模型系统100还可包括若干前端模块。
[0036] 如图1所示,该风险评估模型系统100可以具有用于实现风险评估模型系统的各种基础功能的平台底座模块110。如图1所示,平台底座模块110可以为整个风险评估模型系统100提供任务调度、数据存储以及资源调度等基础功能。如图1所示,平台底座模块110可以包括用于实现任务调度的任务调度系统,其例如包括但不限于基于Kubernetes集群。根据数据资源请求,任务调度集群动态调度一个或多个计算节点的计算资源以供模型训练使用。如图1所示,平台底座模块110可以包括用于实现模型生成(训练)时的数据存储的数据存储系统,包括但不限于Ceph等分布式存储系统。
[0037] 如图1所示,该风险评估模型系统100可以提供交互环境120,例如基于Jupyter(也称为Jupyter Notebook)实现的网页式交互环境。在本公开实施例中,交互环境120将提供用户(用户的操作人员)可以与风险评估模型系统交互的用户界面,并提供隔离式模型训练所需的多租户认证和生成用户对话,如下文进一步描述。并且,交互环境120支持模型训练所用的多种语言进行编程,多种语言例如包括但不限于Python、R以及PySpark等。
[0038] 如图1所示,该风险评估模型系统100可以具有用于相关的模型训练的模型训练模块130。在该模型训练模块130中可以提供具有多种预设模型的模型库,且模型训练模块130支持使用多种编程语言进行数据分析和模型训练,包括但不限于Python、R以及PySpark等。在本公开实施例中,模型训练模块140可结合有AutoML(Automated Machine Learning,自动化机器学习)以简化模型训练流程。
[0039] 如图1所示,该风险评估模型系统100可以包括多种不同的数据源140。数据源140可以支持多种形式的存储系统或数据服务,包括但不限于文件传输协议(FTP)服务器、分布式数据仓库(如Hive)以及本地数据等,从而允许用户通过交互环境130选择不同的数据来源并导入到风险评估模型系统100进行数据处理并在模型训练140进行训练任务。在本公开的优选实施例中,数据源140可以包括源自用户的用户数据源和源自平台的
[0040] 如图1所示,该风险评估模型系统100可以具有若干前端应用150。在一些实施例中,前端应用150可以以web形式提供,由此在此可称为web应用。前端应用110可包括但不限于项目管理、资源管理、模型管理以及数据源管理,用户可使用相应的前端应用110与风险评估模型系统100进行远程云端交互并执行相关操作,例如处理数据源120、选择模型框架等,该前端应用110可以在用户终端提供或运行,用户终端包括但不限于用户侧的个人计算机、移动智能设备和智能面板等电子设备,在此不做限定。
[0041] 下面将结合附图来对本公开的实施例进行说明。
[0042] 参考图2,示出了本公开实施例提供的风险评估模型生成方法,风险评估模型生成方法可应用于风险评估模型系统来实施。
[0043] 如图2所示,该风险评估模型生成方法可包括以下步骤:
[0044] S210:响应于用户生成风险评估模型的请求,请求用于对待训练风险评估模型进行训练的计算资源,并创建对应用户的容器化部署单元。
[0045] 在本公开实施例中,用户做宽泛性解释,可以被理解为风险评估模型系统所认证的对象,包括但不限于机构用户,如金融机构,金融机构例如银行、保险或信贷机构等。在本公开一些实施例中,例如当用户为机构用户时,用户和操作人员存在区别,例如单个用户(如机构用户)可以带有多个操作人员,如项目管理人员、训练人员、数据处理人员、模型部署人员等;以及/或者,单个用户(如机构用户)可以带有多个团队和/或跨地域的团队或操作人员。但是,本公开实施例所述的用户也涵盖个人用户。本公开实施例中所述的用户请求涵盖用户(如机构用户)的操作人员发起的请求。
[0046] 在一些实施例中,用户生成风险评估模型的请求可以包括由用户的操作人员、如项目管理员在前端(如web端)创建模型生成项目,并且可选地设定其他操作人员,如训练人员、部署人员等。在一些实施例中,可以由用户的操作人员进入风险评估模型系统(云平台)的工作空间来创建模型生成项目。
[0047] 本公开一些实施例中,用户的请求可包括获取对待训练模型进行训练所需的计算资源的请求。可选地,可以在前端应用中配置相关的资源信息,资源信息包括配属于该用户的资源信息、以及对应于该用户的该模型生成项目的动态调度信息。在另外的实施例中,可以根据用户请求训练的待训练风险评估模型的模型条件,确定对待训练模型进行训练所需的计算资源。在一些实施例中,模型条件可包括待训练模型的模型类型、训练算法以及训练数据量大小等,例如使用深度神经网络模型将比线性回归模型需要更多的计算资源,又例如选择随机森林(Random Forest)算法将比选择逻辑回归(Logistic Regression)需要更多的计算资源。在本公开一些实施例中,计算资源包括但不限于图形处理器(GPU,Graphics Processing Unit)资源,但本公开不限于此,计算资源还可以包括CPU、内存资源等。
[0048] 在本公开实施例中,例如在上述步骤S210中,所收到用户请求可由风险评估模型系统的任务调度系统进行处理,根据用户请求在工作空间中创建对应于该用户的容器化部署单元,该容器化部署单元可用于风险评估模型的训练任务,例如在该容器化部署单元中部署该风险评估模型,后续的风险评估模型训练过程均此容器化部署单元中进行。
[0049] 在一个示例性实施例中,任务调度系统例如包括但不限于基于Kubernetes集群。Kubernetes(简称K8s)为适于运行容器化应用的容器编排系统。在本公开实施例中,容器化部署单元为可以封装一个或多个容器的部署单元。在一个示例性实施例中,所述容器化部署单元包括Kubernetes的Pod。Pod可以直译为“豆荚”,其是Kubernetes中最小的可部署计算单元,为容器调度、编排和管理而设计,并且Pod可以封装一个或多个一起操作的容器。在一些实施例中,在本公开实施例的模型训练中,Pod内包含一个对应的容器。
[0050] 相应地,在本公开实施例中,例如在上述步骤S210中,对应于不同用户的不同容器化部署单元之间彼此隔离,隔离包括不同容器化部署单元之间的模型以及数据隔离,但本公开不止于此。
[0051] 在示例性实施例中,可以通过交互环境的对话启动所述容器化部署单元,即Pod。在一实施例中,可以在用户或用户的操作人员(如训练人员)进入风险评估模型系统或风险评估模型平台的工作空间并启动模型生成项目时,启动上述容器化部署单元(进而启动对应本次模型生成的交互对话)。可选地,可以在启动前,提供多租户认证过程,以便根据前端应用中配置的用户资源信息以及训练用的资源调度信息创建交互环境的依赖。在一个具体实施例中,交互环境可以基于Jupyter实现。Jupyter是交互式计算环境,可以支持多种编程语言,其允许使用者创建实时代码、可视化和解释性文本等文档,包括多个兼容组件,如Jupyterlab和Jupyterhub。在本公开实施例中,所述工作空间可以由Jupyterlab实现,多租户认证可以在Jupyterhub中实现。
[0052] S220:从风险评估模型系统的预设模型库选择至少一个模型框架作为待训练风险评估模型。
[0053] 在本公开实施例中,例如在上述步骤S220中,风险评估模型系统的预设模型库中包括用于风险评估的多种模型框架,各模型框架基于不同算法构建。在本公开实施例中,模型框架的算法例如但不限于逻辑回归、决策树、神经网络等。
[0054] 在本公开一些实施例中,用户在选择至少一个模型框架作为待训练风险评估模型后,还可进一步指定待训练风险评估模型的类型、名称、版本等信息。在本公开另一些实施例中,用户也可自行上传一个或多个模型到框架到模型库中,作为待训练风险评估模型的备选并用于后续训练。
[0055] 在本公开一些实施例中,被用户选择确定后的待训练风险评估模型被部署到前述步骤S210中所创建的对应于该用户的容器化部署单元中,在该容器化部署单元中进行后续的训练任务。
[0056] S230:在所述容器化部署单元对应的交互对话中导入样本数据,对导入的所述样本数据进行数据处理,获得风险评估训练数据。
[0057] 在本公开实施例中,样本数据将被导入工作空间中进行训练前的数据处理。在本公开实施例中,结合参考图1和图2,导入的样本数据可以有多种来源,包括来源于用户的用户样本数据以及来源于平台的平台样本数据。在另一些实施例中,还可以包括第三方数据。在此,可以通过例如图1所示的各种数据源导入。在本文中,所述“导入”涵盖用户从本地上传的数据。如上文所述,风险评估模型系统或风险评估平台可具有数据存储系统,如基于Ceph搭建的系统,导入的数据可以被存储在该系统中以便进行训练前的数据处理和用于后续的训练。如上文所述,可以通过前端应用的数据源管理应用来配置导入的样本数据的数据源参数信息。
[0058] 为了保证模型训练数据的隔离性,本公开实施例的方法中还在导入样本数据时对样本数据的敏感字段值是否暴露进行强制检测。本公开所涉及的数据、信息以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理均遵守相关国家和地区的相关法律法规和标准。
[0059] 在具体实施例中,如图3所示在所述样本数据被导入时,该风险评估模型生成方法还包括:S310:检测导入的样本数据的至少部分字段值是否加密;S320:若至少部分字段值未加密,则对至少部分字段值进行加密处理,从而在交互对话的用户界面以加密形式显示至少部分字段值。
[0060] 在本公开实施例中,所使用的样本数据往往是具有高敏感性的金融数据,并且可能涵盖大量身份敏感信息以及用户行为数据。用户、如金融机构并不愿意让其他方获知相关的数据,甚至不愿意用户的操作人员自身获知这些数据。尤其是,当该风险评估模型生成项目是由用户、如金融机构的跨地域、跨团队的方式执行时,不同人的权限不同,数据的暴露会造成损害后果。这也阻碍了风险评估模型的用户使用非私有化的模型生成平台来生成以及后续部署其风险评估模型。另一方面,模型生成平台提供者为了便于用户训练生成模型,其往往也希望能够提供模型训练用的样本数据;但是,平台提供者自身也有数据使用的合规性要求,这种合规性要求阻碍了他们向用户提供样本数据的能力,这可能造成模型生成平台的用户使用友好度下降。
[0061] 对此,在本公开实施例中,通过对导入的样本数据的至少部分字段值进行加密检测并且在未加密时,进行强制加密,实现了敏感数据(字段值)的有效保护。在一些实施例中,所述至少部分字段值包括身份敏感信息字段对应的值。
[0062] 在本公开一些实施例中,对所述部分字段加密(例如对身份敏感信息加密)往往不会影响模型的训练效果。在一示例中,可以通过后续的数据处理对加密信息进行转码以进行训练。
[0063] 在另外的实施例中,还提出了在用户选择的模型的基础上附加对应于前述加密的解密层,从而实现了数据从用户导入端到模型输入端的加密,即端到端的加密,进一步保护用户的敏感数据。在一示例中,所述加密可包括部分加密,对应的所述解密也可包括部分解密。
[0064] 具体地,在该实施例中,在将所述训练数据输入所述待训练风险评估模型之前,风险评估模型生成方法还包括S240’(图中未示出):在待训练风险评估模型的输入层之前添加解密层。在该实施例中,解密层用于执行对应所述样本数据的加密处理的解密处理。
[0065] 在进一步的实施例中,还提出可以对样本数据的不同的给定字段值进行区别加/解密的方案。
[0066] 在一实施例中,步骤S310:A1:根据预设规则确定导入的样本数据中是否存在第一部分字段值和/或第二部分字段值;A2:判断第一部分字段值和/或第二部分字段值是否加密。
[0067] 在该实施例中,预设规则可由用户管理员设置,以确定传入数据中是否存在如前所述的需要加密的信息,如第一部分字段值和/或第二部分字段值。
[0068] 在一实施例中,步骤320可包括:A3:在第一部分字段值未加密时,对第一部分字段值进行第一加密处理;A4:在第二部分字段值未加密时,对第二部分字段值进行第二加密处理。
[0069] 在一实施例中,在对字段值进行加密处理时该可附加加密属性参数。其中,加密属性参数可包括加密等级以及加密算法。在该实施例中,第二部分字段值的加密等级高于第二部分字段值的加密等级。在一具体示例中,该第一加密处理附加的加密属性参数例如为“高,算法1”,该第二加密处理附加的加密属性参数例如为“低,算法2”。在本实施例中,通过设置不同加密等级的加密属性参数,能够使加密等级属性参数高的字段值始终处于加密状态,确保了高密级性数据的使用满足合规性要求,并且未对模型的训练产生过多影响和阻碍。
[0070] 在本公开实施例中,所述加密和/或解密可以采用任何合适的加(解)密算法,包括但不限于哈希函数算法、例如MD5或SHA‑256,对称加密算法、例如AES、DES,非对称加密算法、例如RSA等,在此不做限制。
[0071] 在该实施例中,解密层用于执行对应所述样本数据的第二加密处理的解密处理。换言之,在该实施例中,第一部分字段值被加密后,在被输入待训练模型时未进行解密,而第二部分字段值被加密后,通过附加到待训练模型的输入层的解密层进行解密后输入到待训练模型中。
[0072] 在该实施例中,解密层可根据字段值中附加的加密属性参数来区分第一部分字段值以及第二部分字段值,并对于第一部分字段值不进行解密,对于第二部分字段值进行解密。在一具体示例中,解密层例若确认该字段值附带的加密属性参数为“高,算法1”,则确认该字段值为第一部分字段值并不进行解密;若确认该字段值附带的加密属性参数为“低,算法2”,则确认该字段值为第二部分字段值,并根据预设的解密参数基于“算法2”对其进行解密。通过本实施例提供的方案,加密属性参数高的第一部分字段值将始终处于加密状态,从而能够使高密级性数据的使用满足合规性要求,并且未对模型的训练产生过多负担和阻碍。
[0073] 在该实施例中,该第一部分字段例如为身份敏感信息,即第一部分字段值为身份敏感信息数据,该第一部分字段值应被严格加密,无论是在数据导入端还是模型输入端都应防止被显示/读取。该第二部分字段例如为用户行为特征,从而该第二部分字段值例如为用户行为数据,例如可用于用户画像的数据,该第二部分字段可用于模型的训练,但同样应该防止被轻易显示/读取。作为解释而非限制地,该实施例能够针对样本数据实现了基于敏感度的区分加/解密;并且发明人注意到,对所述部分字段加密、尤其是对身份敏感信息加密往往不会影响模型的训练效果,而某些具有一定敏感度的数据可以采用合理的端到端的加密以确保数据使用满足合规性要求,并且对模型训练未产生过多负担和障碍。
[0074] 为了确保数据的安全性以及数据操作的可审计性,在本公开实施例中,在所述交互对话的用户界面中禁止所述导入的样本数据的分发操作和下载操作。这例如可以通过改造Jupyter Notebook,使其禁止数据下载和分享来实现。
[0075] 在某些实施例中,风险评估模型生成方法还包括:B1:实时检测在所述交互对话的用户界面中对导入的样本数据的复制操作;B2:当检测到被复制的所述导入的样本数据超过预定数量时,拒绝再次检测到的复制操作,生成预警日志信息。在该实施例中,例如可以通过改造Jupyter Notebook监控剪切板实现,此时例如可以在操作人员在给定时间内复制超过若干条(如10)条数据而触发预警和记录预警日志,以为后续的数据审计提供数据支持。在一示例中,预警日志可包括预警时间戳、操作人员标识、操作设备信息等,其中预警时间戳可用于记录触发预警的具体时间,操作人员标识可包括操作人员的唯一标识符(如用户名、ID等),操作设备信息可包括操作时的设备ID、IP地址、MAC地址等。在后续审计中,可利用预警日志作为数据支持,统计异常操作数据,以及基于时间、操作人员等维度查询预警日志,对操作合规性进行分析。在一示例中,审计中可以增设异常操作数量阈值或频率阈值,对于异常操作高于阈值的用户/机构进行重点标记。
[0076] 在本公开实施例中,还可以对导入的数据进行数据(预)处理,例如但不限于数据清洗、特征工程等,在此不赘述。
[0077] 经数据处理和模型选择(以及可选的添加解密层)后,可以在步骤S240中对待训练风险评估模型进行训练,相应地还可以在训练时可视化训练过程、训练前/后进行模型评估和/或模型稳定性(PSI)验证。
[0078] S240:将训练数据输入待训练风险评估模型,从而在容器化部署单元中执行待训练风险评估模型的训练任务。
[0079] 在本公开实施例中,例如在上述步骤S240中,风险评估模型训练可接收训练数据并在容器化部署单元中进行训练任务。在本公开实施例中,所述训练任务可利用多种算法来训练选定的多种模型。在一个具体实施例中,使用逻辑回归算法训练评分卡模型,例如信贷评分卡模型。训练时例如可以通过梯度下降算法和反向传播算法迭代更新模型参数来训练模型,在此不赘述。在本公开一些实施例中,根据需要,在进行训练时,数据将通过解密层(如有)进行解密处理再被输入到输入层。在本公开实施例中,模型的输入层(Input Layer)具有其常规的含义,是指所选择的正常模型框架的最初的层结构或者选择的多个正常模型框架中的第一个模型框架的最初的层结构,其可用于接受外部输入的数据,并将这些数据转化为适合模型进行处理的形式,其可不包括本公开实施例中可选地添加的解密层。
[0080] 在本公开一些实施例中,容器化部署单元可以是前述Kubernetes提供的Pod中对应于风险评估模型的容器,风险评估模型可利用容器提供的库、运行环境以及基础变量等进行训练任务。
[0081] 在本公开一些实施例中,在上述步骤S240后,还可选根据用户请求对经训练的风险评估模型进行模型评估、模型稳定性(Population Stability Index,PSI)验证以及模型打分,以判断经训练的模型是否适合进一步的应用或部署。在本公开实施例中,模型评估包括通过一系列指标来衡量经训练的风险评估模型的性能,评估指标例如但不限于准确率、召回率、精确度等。在本公开实施例中,模型稳定性(PSI)验证包括通过计算PSI来评估风险评估模型在不同时间点或不同数据分布上的稳定性。在本公开实施例中,模型打分包括利用经训练模型对数据样本进行预测,为每个样本生成一个分数或概率值以用于决策支持。
[0082] 在本公开一些实施例中,例如在上述步骤S240中,响应于模型训练任务的执行,风险评估模型系统可创建对应训练任务的任务标识,从而能够基于任务标识获取训练任务日志。
[0083] 在本公开一些实施例中,例如在上述步骤S240中,风险评估模型系统可以可视化待训练风险评估模型的训练任务。在一些实施例中,可视化通过TensorBoard实现,但本公开不限于此。在本公开实施例中,TensorBoard作为可视化工具能够实时将风险评估模型训练任务过程中产生的训练任务日志进行实时图形化展示,以便于开发人员直观地跟踪和分析关键的模型训练指标。在本公开一些实施例中,例如可以通过TensorBoard可视化风险评估模型训练的KS(Kolmogorov‑Smirnov)值、AUC(Area Under the Curve)值等。在本公开实施例中,KS值是衡量风险评估模型对于正负样本分类能力的指标,而AUC值是评估风险评估模型整体性能的指标。
[0084] 在本公开一些实施例中,风险评估模型的模型训练任务可与可视化任务可分别被部署在不同的容器化部署单元中,不同容器化部署单元彼此隔离,从而可避免因可视化的配置导致的模型训练任务异常或失败的风险。
[0085] 在本公开一些实施例中,当待训练风险评估模型开始在容器化部署单元中进行训练时,对应的训练日志就被实时输出并存储至风险评估模型的指定存储目录,进而风险评估模型可以对训练日志进行持久化存储。在本公开一些实施例中,训练日志可包括用户的所有操作行为以及风险评估模型的注册信息,以便于后续对用户行为进行审计和实现模型的可追溯。
[0086] S250:获取经训练生成的风险评估模型。
[0087] 在本公开实施例中,例如在上述步骤S250中,经训练生成的风险评估模型可被存储在风险评估模型系统中的存储服务中,存储服务例如但不限于Ceph文件存储系统。在本公开实施例中,Ceph文件存储系统是分布式存储系统,可将模型数据在自动分散存储于分布式物理设备上以提供高性能、高可靠性和高可扩展性的数据存储,但本公开不限于此。
[0088] 在本公开一些实施例中,例如在上述步骤S250中,生成的风险评估模型还可被注册到风险评估模型平台的管理模块中。在本公开实施例中,注册可包括添加生成的风险评估模型的模型类型、名称、版本等信息以便于后续的管理、查询和版本控制。
[0089] 在本公开一些实施例中,例如在上述步骤S250中,操作/部署人员可从风险评估模型平台中获取存储的经训练生成的风险评估模型,并在实际应用环境中部署上线该风险评估模型。
[0090] 本公开实施例提供一种风险评估模型生成方案,其响应于用户生成风险评估模型的请求,请求用于对待训练风险评估模型进行训练的计算资源,并创建对应所述用户的用于待训练风险评估模型训练的容器化部署单元,从所述风险评估模型系统的预设模型库选择至少一个模型框架作为待训练风险评估模型;在所述容器化部署单元对应的交互对话中导入样本数据以进行数据处理,从而获得风险评估训练数据,在所述样本数据在被导入时:检测所述导入的样本数据的至少部分字段值是否加密,且在所述至少部分字段值未加密时,对所述至少部分字段值进行加密处理,从而在所述交互对话的用户界面以加密形式显示所述至少部分字段值;将所述风险评估训练数据输入所述待训练风险评估模型,从而在所述容器化部署单元中执行所述风险评估模型的训练任务;获取经训练生成的所述风险评估模型,由此,本公开实施例的风险评估模型生成方案能够针对金融数据的高度敏感性,增强模型训练及其数据隔离性,确保了数据安全和可审计。
[0091] 相应地,本公开实施例还可提供一种风险评估模型生成装置。在本公开实施例中,风险评估模型生成装置可以基于软件实现,并且可以运行于由本公开实施例提供的风险评估模型系统,例如可以运行于例如图1所示的风险评估模型系统100。
[0092] 参考图4,风险评估模型生成装置400可包括创建单元410、选择单元420、导入单元430、输入单元440以及获取单元450。在本公开实施例中,创建单元410可配置成响应于用户生成风险评估模型的请求,请求用于对待训练风险评估模型进行训练的计算资源,并创建对应所述用户的容器化部署单元,其中对应所述用户的容器化部署单元与对应其他用户的容器化部署单元隔离。选择单元420可配置成从所述风险评估模型系统的预设模型库选择至少一个模型框架作为待训练风险评估模型。导入单元430可配置成在所述容器化部署单元对应的交互对话中导入样本数据,对导入的所述样本数据进行数据处理,获得风险评估训练数据。输入单元440可配置成所述风险评估训练数据输入所述待训练风险评估模型,从而在所述容器化部署单元中执行所述待训练风险评估模型的训练任务。获取单元450可配置成获取经训练生成的所述风险评估模型。
[0093] 在本公开实施例中,导入单元430可包括:检测子单元431,配置成检测所述上传的样本数据的至少部分字段值是否加密,以及加密子单元432,配置成若所述至少部分字段值未加密,则对所述至少部分字段值进行加密,从而在所述交互对话的用户界面以加密形式显示所述至少部分字段值。
[0094] 在进一步的实施例中,风险评估模型生成装置400还可包括实时检测单元460和预警单元470。该实时检测单元460可配置成实时检测在所述交互对话的用户界面中对导入的样本数据的复制操作。该预警单元470可配置成当检测到被复制的所述导入的样本数据超过预定数量时,拒绝再次检测到的复制操作,生成预警日志信息。
[0095] 在进一步的实施例中,风险评估模型生成装置400还可包括添加单元480。该添加单元480可配置成在所述待训练风险评估模型的输入层之前添加解密层,解密层用于执行对应所述样本数据的加密处理的解密处理。
[0096] 在进一步的实施例中,风险评估模型生成装置还可以包括其他实施例中提供的风险评估模型系统和/或风险评估模型生成方法的其他特征、功能和效果,反之亦然,这均落入本公开的范围内,在此不赘述。
[0097] 图5示出了可以实施本公开实施例的方法或实现本公开实施例的电子设备500的示意图,在一些实施例中可以包括比图示更多或更少的电子设备。在一些实施例中,可以利用单个或多个电子设备实施。在一些实施例中,可以利用云端或分布式的电子设备实施。
[0098] 如图5所示,电子设备500包括处理器501,其可以根据存储在只读存储器(ROM)502中的程序和/或数据或者从存储部分508加载到随机访问存储器(RAM)503中的程序和/或数据而执行各种适当的操作和处理。CPU 501可以是一个多核的处理器,也可以包含多个处理器。在一些实施例中,处理器501可以包含一个通用的主处理器以及一个或多个特殊的协处理器,例如图形处理器(GPU)、神经网络处理器(NPU)、数字信号处理器(DSP)等等。在RAM 503中,还存储有电子设备500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。
[0099] 上述处理器与存储器共同用于执行存储在存储器中的程序,所述程序被计算机执行时能够实现上述各实施例描述的文件传输的方法的步骤或功能。
[0100] 以下部件连接至I/O接口505:包括键盘、鼠标、触摸屏等的输入部分506;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分507;包括硬盘等的存储部分508;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器510上,以便于从其上读出的计算机程序根据需要被安装入存储部分508。图5中仅示意性示出部分组件,并不意味着计算机系统500只包括图5所示组件。
[0101] 在一些实施例中所述电子设备500指代的是移动终端或者计算机,包括手机,车载终端,智能电视等,以手机为例,所述电子设备500中还包括带触摸功能的显示屏,外放音响,陀螺仪,摄像头,4G/5G天线等装置模块。
[0102] 上述实施例阐明的系统、装置、模块或单元,可以由计算机或其关联部件实现。计算机例如可以为移动终端、智能电话、个人计算机、膝上型计算机、车载人机交互设备、个人数字助理、媒体播放器、导航设备、游戏控制台、平板电脑、可穿戴设备、智能电视、物联网系统、智能家居、工业计算机、服务器或者其组合
[0103] 尽管未示出,在本公开实施例中,提供一种程序产品,包括计算机程序,所述计算机程序被处理器执行时实现任一本公开实施例的方法。
[0104] 尽管未示出,在本公开实施例中,提供一种存储介质,所述存储介质存储有计算机程序,所述计算机程序配置成被运行时实现任一本公开实施例的方法。
[0105] 在本公开的实施例的存储介质包括永久性和非永久性、可移动和非可移动的可以由任何方法或技术来实现信息存储的物品。存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD‑ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。
[0106] 在本公开的实施例的方法、程序、系统、装置等,可以在单个或多个连网的计算机中执行或实现,也可以在分布式计算环境中实践。在本说明书实施例中,在这些分布式计算环境中,可以由通过通信网络而被连接的远程处理设备来执行任务。
[0107] 本领域技术人员应明白,本说明书的实施例可提供为方法、系统或计算机程序产品。因此,本领域技术人员可想到,上述实施例阐明的功能模块/单元或控制器以及相关方法步骤的实现,可以用软件、硬件和软/硬件结合的方式实现。
[0108] 除非明确指出,根据本公开实施例记载的方法、程序的动作或步骤并不必须按照特定的顺序来执行并且仍然可以实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0109] 在本文中,针对本公开的多个实施例进行了描述,但为简明起见,各实施例的描述并不是详尽的,各个实施例之间相同或相似的特征或部分可能会被省略。在本文中,“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”意指适用于根据本公开的至少一个实施例或示例中,而非所有实施例。上述术语并不必然意味着指代相同的实施例或示例。在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
[0110] 已参考上述实施例具体示出并描述了本公开的示例性系统及方法,其仅为实施本系统及方法的最佳模式的示例。本领域的技术人员可以理解的是可以在实施本系统及/或方法时对这里描述的系统及方法的实施例做各种改变而不脱离界定在所附权利要求中的本公开的精神及范围。