技术领域
[0001] 本发明涉及大数据分析技术领域,尤其涉及一种企业变革价值数据分析方法、装置、设备及存储介质。
相关背景技术
[0002] 企业变革价值数据对于了解各企业的行为模式和特征对于分析企业至关重要,其中主要是基于企业的价值链分析,随着科技的快速发展,企业在面对市场竞争和客户需求的变化时,越来越依赖于数字技术。数字创新能力与企业价值链变革的融合,代表了现代企业在数字化转型过程中必不可少的一部分,数字创新能力通过应用大数据分析优化决策、云计算提升资源灵活性、物联网实现实时监控和管理、人工智能自动化业务流程等手段,从而对企业进行精准的分析和管理。
[0003] 目前,企业变革价值数据分析方法存在数据分析效率低、信息提取不准确等问题,其无法对大量不同的企业数据信息进行分析,导致企业群之间的数据画像分析不准确,难以用于实际应用之中,无法对企业群画像数据进行高效且准确地分析。
具体实施方式
[0047] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0048] 实施例一
[0049] 请参照图1,为本发明实施例提供的一种企业变革价值数据分析方法,包括以下步骤S101‑S103:
[0050] 步骤S101:获取企业群数据,并根据所述企业群数据,生成企业相关的指标对象类型;其中,所述企业群数据包括若干企业对象以及每一企业对象所对应的若干指标对象。
[0051] 作为本实施例的优选方案,所述获取企业群数据,并根据所述企业群数据,生成企业相关的指标对象类型,具体包括:
[0052] 获取各企业所上传的报告文本数据,构建对应该企业的文本语料数据库,并整合各个企业的文本语料数据库,作为企业群数据;根据所述企业群数据中的各文本语料数据库,依次计算得到各文本语料数据库中各词与文本之间的词频逆文本概率;根据文本等级算法,将所述文本语料数据库中的文本分割成若干单元,从而构建节点连接图,并计算各文本中句子之间的相似度,进而通过迭代计算得到所述文本语料数据库中各句子的文本等级值;根据所述词频逆文本概率和所述文本等级值,选取该企业相关的语料文本,并预设聚合算法对所述语料文本进行聚合,得到该企业相关的指标对象类型。
[0053] 在本实施例中,获取各企业所上传的报告文本数据,可以通过采集企业的年终总结报告、研究报告、数字化建设报告等文本数据构建语料数据库,并进行格式转换、文本清理、词性标注等预处理,来构建对应该企业的文本语料数据库。其中,每一个企业对应有一个文本语料数据库,进而整合所有企业的文本语料数据库,生成并作为企业群数据。其中,企业群数据包括各企业所对应的文本语料数据库,即企业群数据是所有企业的文本语料数据库的集合。
[0054] 在本实施例中,通过企业群数据中的各文本语料数据库,依次计算得到各文本语料数据库中各词与文本之间的词频逆文本概率。其中,每一个文本语料数据库包括对应该企业的年终总结报告、研究报告、数字化建设报告等文本数据信息,从而能够对该文本语料数据库的所有文本数据信息中的各词与文本之间的词频逆文本概率进行计算,即基于该企业对应的文本语料数据库,从而在所有文本数据信息中统计计算出词频逆文档概率:
[0055]
[0056] TF‑IDF(t,d)=TF(t,d)×IDF(t)
[0057] 其中,TF‑IDF为词t在文档d中的词频逆文档概率,ft,d表示词t在文档d中出现的频次;N表示文档的总数;|{d∈D:t∈d}|表示包含词t的文档数。
[0058] 在本实施例中,通过文本等级算法,优选地,可以采用TextRank算法,将所述文本语料数据库中的文本分割成若干单元(句子),从而构建节点连接图,并计算各文本中句子之间的相似度,从而用句子之间的相似度作为边的权重,进而通过迭代计算得到所述文本语料数据库中各句子的文本等级值:
[0059]
[0060] 其中,TR(Vi)表示句子i的权重,Wji表示两个句子的相似程度,TR(Vj)表示上次迭代出的句子j的权重,d是阻尼系数。
[0061] 在本实施例中,根据词频逆文档概率和文本等级值,从而选取与企业信息强相关的语料文本数据信息,进而根据预设聚合算法对该企业的预料文本数据信息进行聚类分析,得到的聚类中心对象,作为指标对象类型。可理解的是,企业对象可以有企业对象A、企业对象B和企业对象C等等,而每一企业对象,例如企业对象A则包括若干指标对象及其指标对象所对应的特征值(对应该指标对象的数据信息,例如可以是对应该指标对象的文本语料信息),而每个企业对象所包括的指标对象并不完全相同,可示例性地,企业对象A包括指标对象1、指标对象2和指标对象3,而企业对象可以包括指标对象2和指标对象4。
[0062] 步骤S102:根据所述指标对象类型,对各企业对象所对应的所有指标对象进行清洗,并逐一将清洗后的指标对象及其对应的企业对象作为该企业的变革价值数据,直至得到所有企业的变革价值数据,作为企业群变革价值数据。
[0063] 作为本实施例的优选方案,所述根据所述指标对象类型,对各企业对象所对应的所有指标对象进行清洗,并逐一将清洗后的指标对象及其对应的企业对象作为该企业的变革价值数据,直至得到所有企业的变革价值数据,作为企业群变革价值数据,具体包括:
[0064] 对各企业所对应的指标对象类型作并集处理,得到所有的指标对象类型;根据预设指标频次概率阈值,对所有的指标对象类型进行清洗,从而剔除掉频次低于预设指标频次概率阈值的指标对象类型,得到各企业所对应的指标对象及其特征值;对各企业所对应的指标对象及其数据,以及对应的企业对象,作为对应该企业的变革价值数据,最终得到企业群变革价值数据。
[0065] 在本实施例中,通过对各企业进行聚类计算后所得到的指标对象类型进行并集处理,从而得到所有的指标对象类型,进而可以根据预设指标频次概率阈值,对所有指标对象类型进行清洗,从而剔除掉各指标对象类型在所有指标对象类型中出现频次低于预设指标频次概率阈值的指标对象类型,进行剔除,进而在企业的文本语料数据库中提取与清洗和剔除后的指标对象类型相对应的指标对象及其特征值,以及对应的企业对象,作为该企业的变革价值数据,直至得到所有企业的变革价值数据后,得到企业群变革价值数据,即对应企业群画像数据,企业群画像数据可以用于了解各企业的行为模式和特征,从而分析企业的价值链。
[0066] 可以理解的是,通过对所有企业的指标对象类型进行并集处理,从而能够得到所有的指标对象类型,进而再结合预设指标频次概率阈值,来对在所有指标对象类型中出现频次低于预设指标频次概率阈值的指标对象类型进行剔除,能够提高所提取的企业数据信息的准确性以及普遍性,避免了单一因素的指标数据信息影响整体的分析结果,若存在有企业没有对应的指标对象类型的数据信息的情况时,可以将该企业的指标对象类型设置为空值,即该企业对于该维度的数据为空值向量数据。
[0067] 步骤S103:将所述企业群变革价值数据输入至预设决策树模型,生成各企业变革价值的评估结果,实现企业群的数据分析。
[0068] 作为本实施例的优选方案,所述预设决策树模型的构建方法,包括:
[0069] 获取企业群的样本数据以及对应该样本数据的人工标注数据,作为训练数据集;其中,所述企业群的样本数据包括若干企业对象以及每一企业对象所对应的若干指标对象的样本数据,所述人工标注数据包括对该样本数据进行人工标注的评估值;根据所述训练数据集,计算得到每一指标对象及其数据所对应的基尼系数;选择基尼系数最小的指标对象作为初始决策树模型中的待定节点,并将基尼系数最小的指标对象对应的特征值作为待定节点的切分点,进而对初始决策树模型进行迭代训练,直至该迭代训练的决策树模型满足预设停止建树条件,则将最后一次迭代训练的决策树模型作为预设决策树模型;其中,所述待定节点为根节点或分支节点。
[0070] 在本实施例中,获取企业群的样本数据以及对应该样本数据的人工标注数据,其中,企业群的样本数据包括若干企业对象以及每一企业对象所对应的若干指标对象的样本数据,样本数据可以是在先获取其他企业(并非是对应于步骤S101和S102中的企业对象)的文本语料数据库,进而通过对应的步骤S101和S102中相同的数据提取、清洗和处理方式,来得到对应训练模型的样本数据,而人工标注数据则是经过人工对样本数据进行分析决策结果最终的评估值的标注而得到的,可示例性地,该分析决策结果最终的评估值可以是数字化程度指标、企业财务指标、风险管理指标、研发指标或运营效率指标等等,从而生成对应数字化程度、财务、风险管理、研发或运营的建议报告,可以根据所需要对企业群进行分析所得到的决策结果数据进行设定,可示例性地,分析决策结果最终的评估值为数字化程度指标较低,则可以根据调用外部大预言模型,例如GPT模型等等,从而生成相应的提高数字化程度指标的建议,并作为决策结果数据进行反馈;进一步地,也可以通过训练的预设决策数据模型,并在训练过程中加入对应各数字化程度指标、企业财务指标、风险管理指标、研发指标或运营效率指标的改进建议,进而训练得到能够直接反馈决策结果数据的预设决策数据模型。
[0071] 在本实施例中,企业群的样本数据作为自变量,人工标注数据作为因变量,所获取的企业群的样本数据以及对应该样本数据的人工标注数据,还需要按照预设比例提取部分来作为测试数据集与验证数据集,其划分比例可根据实际使用需求进行设置,例如训练集数据、测试集数据喝验证机数据可设置为6:2:2。
[0072] 在本实施例中,基于所述训练数据集以及预设的决策树算法对预先建立的决策树模型进行训练,获得训练后的初始决策树模型,即可以根据所提供的训练数据集和预设的决策树算法,对预先建立的决策树模型进行训练,得到训练后的初始决策树模型。首先,计算训练数据集中每个指标对象在每个特征值下的基尼系数。然后,选择基尼系数最小的指标对象作为初始决策树模型中的待定节点,这个节点可以是根节点或者分支节点。接着,将基尼系数最小的指标对象的特征值作为待定节点的切分点。重复这个过程,直到满足预设的停止建树条件,将当前的决策树模型作为最终的初始决策树模型。
[0073] 作为本实施例的优选方案,所述根据所述训练数据集,计算得到每一指标对象及其数据所对应的基尼系数,具体包括:
[0074] 根据所述训练数据集中的每一指标对象及其数据,计算得到第一基尼系数;所述第一基尼系数的计算公式为:
[0075]
[0076] 其中,Ai为训练数据集中的第i个指标对象,D为训练数据集,Gini(D,Ai)为在指标对象Ai影响下的基尼系数,而D1和D2分别为被特征指数Ai分为两个数据集的子集,|D1|和|D2|分别为两个子集的指标对象及其数据,x=1或2,K为指标对象的总数量,|Ck|为第k个指标对象所对应企业对象的数量,Dx为子集的基尼系数。
[0077] 作为本实施例的优选方案,所述选择基尼系数最小的指标对象作为初始决策树模型中的待定节点,并将基尼系数最小的指标对象对应的特征值作为待定节点的切分点,具体包括:
[0078] 基于所有第一基尼系数,从训练数据集的所有指标对象中筛选出具有最小第一基尼系数的第一指标对象,并获取其对应的第一特征值;将第一指标对象作为决策树模型的根节点,并将第一特征值作为根节点的切分点;针对根节点的切分点,获取每个分支下的分支训练数据集;针对每个分支训练数据集中的每一个指标对象及其每个特征值,计算分支训练数据集的第二基尼系数;基于所有第二基尼系数,从分支训练数据集的所有指标对象中筛选出具有最小第二基尼系数的第二指标对象,并获取其对应的第二特征值;将第二指标对象作为每个分支的分裂节点,并将第二特征值作为分裂节点的切分点。
[0079] 在本实施例中,预设决策树模型的具体实现步骤包括:
[0080] S11:针对训练数据集中的每一个指标对象及其每个特征值,计算训练数据集的第一基尼系数;
[0081] S12:基于所有第一基尼系数,从训练数据集的所有指标特征中筛选出具有最小第一基尼系数的第一指标对象,并获取其对应的第一特征值;
[0082] S13:将第一指标对象作为决策树模型的根节点,并将第一特征值作为根节点的切分点;
[0083] S14:针对根节点的切分点,获取每个分支下的分支训练数据集;
[0084] S15:针对每个分支训练数据集中的每一个指标对象及其每个特征值,计算分支训练数据集的第二基尼系数;
[0085] S16:基于所有第二基尼系数,从分支训练数据集的所有影响特征中筛选出具有最小第二基尼系数的第二指标对象,并获取其对应的第二特征值;
[0086] S17:将第二影响特征作为每个分支的分裂节点,并将第二特征值作为分裂节点的切分点;
[0087] S18:判断当前的决策树模型是否满足预设的停止建树条件;
[0088] S19:若当前的决策树模型满足停止建树条件,则将当前的决策树模型作为预设决策树模型
[0089] S110:若当前的决策树模型不满足停止建树条件,则重新返回至步骤S4。
[0090] 作为本实施例的优选方案,所述预设决策树模型的构建方法,还包括:
[0091] 对训练后的预设决策树模型进行剪枝,得到对应的多个剪枝后的预设决策树模型,并基于交叉验证从所有剪枝后的决策树模型中选择出最优决策树模型;对最终的最优决策树模型进行精度评估,并判断是否评估通过;若评估通过,将所述最优决策树模型作为最终的预设决策树模型。
[0092] 在本实施例中,对在获得上述预设决策树模型后,利用测试数据集对该初始模型进行剪枝,得到多个剪枝后的决策树模型,通过交叉验证从中选择最优的决策树模型。具体地,剪枝是在预设决策树模型上进行的,通过对固定正则化参数α的选择,找到使损失函数Cα(T)最小的树Tα。对于每个固定的α值,都存在一个相应的最优树,使损失函数最小化。由于不同的α值会导致不同的最优树,因此需要将α值的取值范围划分为一系列区域,在每个区域内选择一个α值,并得到相应的最优树。最终,从所有这些最优树中选择使损失函数最小的作为最终的最优决策树模型。
[0093] 在本实施例中,预设决策树模型的具体剪枝步骤包括:
[0094] S21:将测试数据集中的所有数据输入预设决策树模型,并在所有数据进入模型后,计算每个节点的损失。
[0095] S22:从预设决策树模型最底层具有子节点的节点开始,逐个遍历每个节点的子节点,进行裁剪,并计算每个节点的新损失。
[0096] S23:将每个节点的新损失与原损失进行比较,得到裁剪前后的损失比较结果。
[0097] S24:根据损失比较结果,对预设决策树模型进行剪枝,裁剪那些剪枝后损失较小的节点和枝节。从最底层开始裁剪,保存并逐层向上裁剪,直至根节点。每次裁剪后都会得到一个剪枝后的决策树模型。
[0098] S25:从剪枝后的所有决策树模型中选择损失最小的模型。
[0099] S26:将损失最小的决策树模型确定为最优决策树模型。
[0100] 在本实施例中,在获得最优决策树模型后,需要对其进行精度评估,并确定是否达到了预设的精度要求。首先,使用验证数据集中的每组数据分别输入最终决策树模型,获取模型输出的预测结果,并计算正确预测结果占总预测结果的比例。如果该比例超过预设的比值阈值,则认为评估通过,否则评估不通过。若评估通过,则将最优决策树模型确定为目标决策树模型。若评估不通过,则需要重新生成新的最终决策树模型,直到满足精度要求。最终,将待预测的指标对象输入目标决策树模型,输出对应的预测决策判断。
[0101] 在本实施例中,若评估通过,将最优决策树模型作为最终的预设决策树模型,进而将企业群变革价值数据输入至最终的预设决策树模型中,通过最终的预设决策树模型输出各个企业所对应的企业变革价值的评估结果。
[0102] 可以理解的时,指标对象即对应企业在各个维度的多个方向的考量参数和指标,而对应该指标对象的值即为由企业的年终总结报告、研究报告、数字化建设报告等组成的文本数据,本发明实施例的改进点在于基于文本数据信息的所对应的词频逆文档概率、文本等级值等文本处理算法,来对指标对象进行提取、清洗和处理,即对应文本大数据处理的方式,而现有并不存在对大量企业的文本数据进行处理的技术方案,导致对于大数据分析企业无法准确且高效地对数据进行处理与分析,而本实施例对企业大数据进行处理,实现了对企业数据的转换与分析,提高了企业大数据分析的准确性和效率。
[0103] 作为另一实施例,指标对象包括数字创新能力指标、企业价值链绩效指标、干扰变量和企业数字化程度指标。
[0104] 作为另一实施例,数字创新能力指标可以是技术投入、数据分析能力、员工数字素养等指标,另外对于指标对象的特征值,其可以是文本数据信息;也可以是使用LDA(Latent Dirichlet Allocation)模型进行主题建模,分析文本中所涉及到的不同的数字化创新主题,进而对于每个主题中所提取的实体关键词,构建多维词向量的向量数据信息;也可以是从主题向量中提取特征,如主题的词向量分布、主题的稀有程度等,对不同数字创新指标进行评分,得到数字创新能力指标评分向量,通过对DIC进行加权评分,分析企业的数字化程度指标,数字化程度指标记为DIX;其中,DIC={D1,D2,...,Dn},Di标识数字创新能力的各个具体指标分数。
[0105] 作为另一实施例,企业价值链绩效指标为:VCI={V1,V2,...,Vm};其中,Vi表示企业价值链各个环节的绩效指标,例如供电可靠性和用户满意度,供电可靠性是指客户平均停电时间、客户平均停电次数,客户满意度是指通过电力行业用户满意度调查问卷、实地访谈等,获得的客户打分均值。
[0106] 作为另一实施例,干扰变量为:C={C1,C2,...,Ck};其中Ci表示市场环境、政策变化、竞争对手行为等外部因素,该外部因素可以是文本语料数据,也可以是进行文本特征计算后的向量特征数据。
[0107] 作为另一实施例,企业数字化程度指标可以包括网络覆盖率、云计算使用率、移动设备接入率、使用数字化工具种类数量、数字化产品的比例和客户通过数字渠道的互动频率等等。
[0108] 可以理解的是,通过上述训练得到能够直接反馈决策结果数据的预设决策数据模型,可以对企业的各种信息进行决策,从而得到所对应该指标对象相关的决策信息结果,即可以是数字化程度指标、企业财务指标、风险管理指标、研发指标或运营效率指标等等,从而生成对应数字化程度、财务、风险管理、研发或运营的建议报告,从而能够直接对大量的企业数据进行分析与处理,生成相应的企业变革价值的评估结果,避免了人为对大量数据的处理与分析,能够简化大数据处理的方式,并大幅提高了企业大数据处理的效率和准确性。同时,本实施例聚焦于对大量的企业数据进行提取的方式,能够避免大量的无用文本数据对具体指标对象的影响,提高了所提取文本数据的准确性和高效性。
[0109] 实施以上实施例,具有如下效果:
[0110] 本发明的技术方案通过获取企业群数据,从而能够生成企业相关的指标对象类型,进而对各企业对象所对应的所有指标对象进行清洗,得到所有企业的变革价值数据作为企业群变革价值数据,避免了现有技术中无法对大量不同的企业信息数据进行准确且高效的处理,也避免了大量企业数据的存在导致信息提取不准确的问题,从而通过对企业群数据处理与提取来提高对后续企业群画像进行分析的准确性和有效性,进而预设决策树模型生成各企业变革价值的评估结果,以准确地实现对企业群画像的分析,也避免了数据分析效率低的情况,对现有常规大数据处理的方式进行了优化,提高了用户对于大数据分析的使用体验。
[0111] 实施例二
[0112] 请参阅图,其为本发明所提供一种企业变革价值数据分析装置,包括:获取模块201、清洗模块202和分析模块203;
[0113] 所述获取模块201,用于获取企业群数据,并根据所述企业群数据,生成企业相关的指标对象类型;其中,所述企业群数据包括若干企业对象以及每一企业对象所对应的若干指标对象;
[0114] 所述清洗模块202,用于根据所述指标对象类型,对各企业对象所对应的所有指标对象进行清洗,并逐一将清洗后的指标对象及其对应的企业对象作为该企业的变革价值数据,直至得到所有企业的变革价值数据,作为企业群变革价值数据;
[0115] 所述分析模块203,用于将所述企业群变革价值数据输入至预设决策树模型,生成各企业变革价值的评估结果,实现企业群的数据分析。
[0116] 作为本实施例的优选方案,所述获取企业群数据,并根据所述企业群数据,生成企业相关的指标对象类型,具体包括:
[0117] 获取各企业所上传的报告文本数据,构建对应该企业的文本语料数据库,并整合各个企业的文本语料数据库,作为企业群数据;
[0118] 根据所述企业群数据中的各文本语料数据库,依次计算得到各文本语料数据库中各词与文本之间的词频逆文本概率;
[0119] 根据文本等级算法,将所述文本语料数据库中的文本分割成若干单元,从而构建节点连接图,并计算各文本中句子之间的相似度,进而通过迭代计算得到所述文本语料数据库中各句子的文本等级值;
[0120] 根据所述词频逆文本概率和所述文本等级值,选取该企业相关的语料文本,并预设聚合算法对所述语料文本进行聚合,得到该企业相关的指标对象类型。
[0121] 作为本实施例的优选方案,所述根据所述指标对象类型,对各企业对象所对应的所有指标对象进行清洗,并逐一将清洗后的指标对象及其对应的企业对象作为该企业的变革价值数据,直至得到所有企业的变革价值数据,作为企业群变革价值数据,具体包括:
[0122] 对各企业所对应的指标对象类型作并集处理,得到所有的指标对象类型;
[0123] 根据预设指标频次概率阈值,对所有的指标对象类型进行清洗,从而剔除掉频次低于预设指标频次概率阈值的指标对象类型,得到各企业所对应的指标对象及其特征值;
[0124] 对各企业所对应的指标对象及其数据,以及对应的企业对象,作为对应该企业的变革价值数据,最终得到企业群变革价值数据。
[0125] 作为本实施例的优选方案,所述预设决策树模型的构建方法,包括:
[0126] 获取企业群的样本数据以及对应该样本数据的人工标注数据,作为训练数据集;其中,所述企业群的样本数据包括若干企业对象以及每一企业对象所对应的若干指标对象的样本数据,所述人工标注数据包括对该样本数据进行人工标注的评估值;
[0127] 根据所述训练数据集,计算得到每一指标对象及其数据所对应的基尼系数;
[0128] 选择基尼系数最小的指标对象作为初始决策树模型中的待定节点,并将基尼系数最小的指标对象对应的特征值作为待定节点的切分点,进而对初始决策树模型进行迭代训练,直至该迭代训练的决策树模型满足预设停止建树条件,则将最后一次迭代训练的决策树模型作为预设决策树模型;其中,所述待定节点为根节点或分支节点。
[0129] 作为本实施例的优选方案,所述根据所述训练数据集,计算得到每一指标对象及其数据所对应的基尼系数,具体包括:
[0130] 根据所述训练数据集中的每一指标对象及其数据,计算得到第一基尼系数;所述第一基尼系数的计算公式为:
[0131]
[0132] 其中,Ai为训练数据集中的第i个指标对象,D为训练数据集,Gini(D,Ai)为在指标对象Ai影响下的基尼系数,而D1和D2分别为被特征指数Ai分为两个数据集的子集,|D1|和|D2|分别为两个子集的指标对象及其数据,x=1或2,K为指标对象的总数量,|Ck|为第k个指标对象所对应企业对象的数量,Dz为子集的基尼系数。
[0133] 作为本实施例的优选方案,所述选择基尼系数最小的指标对象作为初始决策树模型中的待定节点,并将基尼系数最小的指标对象对应的特征值作为待定节点的切分点,具体包括:
[0134] 基于所有第一基尼系数,从训练数据集的所有指标对象中筛选出具有最小第一基尼系数的第一指标对象,并获取其对应的第一特征值;
[0135] 将第一指标对象作为决策树模型的根节点,并将第一特征值作为根节点的切分点;
[0136] 针对根节点的切分点,获取每个分支下的分支训练数据集;
[0137] 针对每个分支训练数据集中的每一个指标对象及其每个特征值,计算分支训练数据集的第二基尼系数;
[0138] 基于所有第二基尼系数,从分支训练数据集的所有指标对象中筛选出具有最小第二基尼系数的第二指标对象,并获取其对应的第二特征值;
[0139] 将第二指标对象作为每个分支的分裂节点,并将第二特征值作为分裂节点的切分点。
[0140] 作为本实施例的优选方案,所述预设决策树模型的构建方法,还包括:
[0141] 对训练后的预设决策树模型进行剪枝,得到对应的多个剪枝后的预设决策树模型,并基于交叉验证从所有剪枝后的决策树模型中选择出最优决策树模型;
[0142] 对最终的最优决策树模型进行精度评估,并判断是否评估通过;
[0143] 若评估通过,将所述最优决策树模型作为最终的预设决策树模型。
[0144] 所属领域的技术人员可以清楚的了解到,为描述的方便和简洁,上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0145] 实施以上实施例,具有如下效果:
[0146] 本发明的技术方案通过获取企业群数据,从而能够生成企业相关的指标对象类型,进而对各企业对象所对应的所有指标对象进行清洗,得到所有企业的变革价值数据作为企业群变革价值数据,避免了现有技术中无法对大量不同的企业信息数据进行准确且高效的处理,也避免了大量企业数据的存在导致信息提取不准确的问题,从而通过对企业群数据处理与提取来提高对后续企业群画像进行分析的准确性和有效性,进而预设决策树模型生成各企业变革价值的评估结果,以准确地实现对企业群画像的分析,也避免了数据分析效率低的情况,对现有常规大数据处理的方式进行了优化,提高了用户对于大数据分析的使用体验。
[0147] 实施例三
[0148] 相应地,本发明还提供一种终端设备,包括:处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现如上任意一项实施例所述的企业变革价值数据分析方法。
[0149] 该实施例的终端设备包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序、计算机指令。所述处理器执行所述计算机程序时实现上述实施例一中的各个步骤,例如图1所示的步骤S101至S103。或者,所述处理器执行所述计算机程序时实现上述装置实施例中各模块/单元的功能,例如清洗模块202。
[0150] 示例性的,所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。所述一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备中的执行过程。例如,所述清洗模块202,用于根据所述指标对象类型,对各企业对象所对应的所有指标对象进行清洗,并逐一将清洗后的指标对象及其对应的企业对象作为该企业的变革价值数据,直至得到所有企业的变革价值数据,作为企业群变革价值数据。
[0151] 所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,示意图仅仅是终端设备的示例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备还可以包括输入输出设备、网络接入设备、总线等。
[0152] 所称处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field‑Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述终端设备的控制中心,利用各种接口和线路连接整个终端设备的各个部分。
[0153] 所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据移动终端的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0154] 其中,所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read‑Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
[0155] 实施例四
[0156] 相应地,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上任意一项实施例所述的企业变革价值数据分析方法。
[0157] 以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,应当理解,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围。特别指出,对于本领域技术人员来说,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。