首页 / 一种基于双向Transformer的选取合作企业的预测方法及系统

一种基于双向Transformer的选取合作企业的预测方法及系统实质审查 发明

技术领域

[0001] 本发明属于数据分析技术领域,涉及一种基于双向Transformer的选取合作企业的预测方法及系统。

相关背景技术

[0002] 在全球化和数字化深度融合的商业格局中,尤其在印刷装备制造业这一细分领域,构建高效、低成本的印刷装备制造生态已成为塑造核心竞争力不可或缺的一环。而印刷装备制造生态的构建,关键在于如何科学地选择企业伙伴来实现印刷机的外协生产。
[0003] 在传统的印刷供应链合作模式下,印刷装备制造企业一般是通过合同的方式或固定的配套企业展开合作,由于严重缺乏必要的数据支持和客观参照基准,对优质、高效外协企业的发掘与甄选在很大程度上过度依赖于人的主观判断。这种高度依赖性在面对瞬息万变的市场需求以及技术持续革新的大背景下,使得供应链体系很难充分发掘最具性价比及效能最优的外协合作伙伴,从而限制了整体供应链效率和竞争力的提升。
[0004] 随着大数据、云计算、物联网以及人工智能的快速发展,实时获取和处理海量异构数据的能力显著增强。尽管技术进步带来了前所未有的机遇,印刷装备制造企业合作伙伴预测仍面临着一系列挑战:
[0005] 第一、印刷装备制造企业合作伙伴间的交互关系复杂多变,涉及到企业的多个维度,需要有并行处理大量数据的能力。
[0006] 第二、数据质量和完整性问题突出,在处理伙伴信息时难以兼顾全局信息,容易导致预测局限在局部范围。
[0007] 第三、面对印刷装备制造业中不断变化的伙伴数量和交易模式,现有的预测方法难以灵活适应。

具体实施方式

[0052] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
[0053] 因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0054] 应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0055] 在本发明实施例的描述中,需要说明的是,若出现术语“上”、“下”、“水平”、“内”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该发明产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0056] 此外,若出现术语“水平”,并不表示要求部件绝对水平,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。
[0057] 在本发明实施例的描述中,还需要说明的是,除非另有明确的规定和限定,若出现术语“设置”、“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
[0058] 下面结合附图对本发明做进一步详细描述:
[0059] 参见图1至图3,本发明实施例公开了一种基于双向Transformer的选取合作企业的预测方法,包括以下步骤:
[0060] 步骤1:构建印刷装备制造企业合作伙伴数据集;
[0061] 具体包括以下步骤:
[0062] 获取多个陕西省印刷制造企业的数据作为数据集,并最后以CSV格式进行存储。为了在不同维度上追踪单个企业,为每个企业创建一个全局唯一的标识符,如EnterpriseID_001、EnterpriseID_002等,以确保数据间的一致性和可关联性。得到原始数据集后要对它进行全面审查,将数据细致划分多个类别并以标准化描述,
[0063] 参见图1,所属类别包括:
[0064] 加工企业基本信息、加工企业制造能力和加工企业历史合作。
[0065] 进一步的,加工企业基本信息包括:企业ID、企业名称、成立日期、企业地址和注册资本。
[0066] 进一步的,加工企业制造能力包括:金属切削机床类型、可加工零件类型、零件尺寸和零件加工精度。
[0067] 进一步的,加工企业历史合作包括合作方名称、具体合作项目和合作满意度。
[0068] 还包括零件加工精度和合作满意度,其中:
[0069] 零件加工精度的子类包括:表面粗糙度、零件同轴度、零件平行度、零件垂直度、重复定位精度。
[0070] 合作满意度的子类包括产品满意度、服务水平满意度、沟通效率满意度。
[0071] 最终将获取的所有陕西省印刷制造企业数据整合为数据集。
[0072] 步骤2:对步骤1所构建的印刷装备制造企业合作伙伴数据集进行清洗和预处理。
[0073] 具体包括以下步骤:
[0074] 印刷装备制造企业合作伙伴数据集的清洗和预处理:
[0075] 首先,要验证跨表或跨列数据的信息匹配无误,如企业名称、注册资金在所有相关记录中应保持统一。
[0076] 然后,对于非结构化的文本数据,如具体合作项目等,进行规范化处理,如去除无关字符、空格、标点符号,进行关键词提取或标准化词语转换。
[0077] 最后,结合业务知识和数据特性创造新的特征变量,如上述提到的企业制造能力可以通过加权求和方式得到一个能力指数。
[0078] 进一步的,将预处理后的数据集按照8:1:1的方式划分为训练集、测试集和验证集,用于后续模型开发和评估。
[0079] 步骤3:根据步骤2预处理后的数据集建立双向Transformer架构,参见图2;
[0080] 采用包含三层的双向Transformer架构的多头注意力机制设计,该结构处理多企业数据,可以捕捉并整合企业在不同时期的关键动态信息。如果使用单向Transformer,模型只能从前向后逐步预测。当预测当前合作伙伴时仅能依据之前的时间步信息,而在一些情况下,未来伙伴的选择可能与过去某个特殊时期的合作决策有着密切联系,双向Transformer则更能有效捕捉到这种远距离依赖关系。
[0081] 双向Transformer架构的第一层是输入层设计,对预处理的印刷装备制造企业数据进行Embedding词嵌入操作,将复杂文本信息映射到向量的实数空间,然后将这些向量拼接成连续的长向量加上位置编码作为模型输入。
[0082] 第二层是编码器设计,编码器部分采用六层双向Transformer编码器结构,每一层都在整个序列上捕获前后语境信息。编码器各层间采用残差连接和层归一化。
[0083] 第三层输出层设计,采用预处理后的训练集对双向Transformer架构的多头注意力机制模型进行训练,获得最优配置参数的神经网络模型。
[0084] 具体的双向Transformer架构的预测模型对数据集的处理过程为:
[0085] 双向Transformer主要结构为词嵌入、位置编码、前向多头注意力、后向多头注意力、残差连接和归一化和前馈神经网络。
[0086] 具体为,将处理好的数据集转化为向量,建立嵌入矩阵,其中每行表示一个企业的Token嵌入;
[0087] 位置编码向量与Token嵌入向量相加,形成带有位置信息的Token嵌入向量;
[0088] 具体的,双向Transformer架构的输入层中位置编码模块通过下式计算:
[0089] 奇数维度:
[0090] PE(pos,2i)=sin(pos/10000)2i/dmodel
[0091] 偶数维度:
[0092] PE(pos,2i+1)=cos(pos/10000)2i/dmodel
[0093] 其中,pos表示印刷制造企业顺序序列,i表示维度索引,dmodel是模型的隐藏层维度大小;
[0094] 双向Transformer架构的编码器层自注意力机制包括前向多头注意力头和后向多头注意力头;
[0095] 前向多头注意力头中,所有Token嵌入与查询矩阵Q计算点积,通过softmax获得注意力权重,使用注意力权重对所有Token嵌入进行加权求和,生成加权向量;
[0096] 后向多头注意力头中,所有Token嵌入与查询矩阵Q计算点积,通过softmax获得注意力权重,使用注意力权重对所有Token嵌入进行加权求和,生成加权向量;
[0097] 进一步的,双向Transformer架构的编码器层自注意力机制的计算如下:
[0098]
[0099] 其中,Q是查询矩阵,表示查询印刷制造企业的编码向量;K是键矩阵,表示候选伙伴企业的特征编码向量集合;V是值矩阵,表示候选伙伴企业的特征价值向量集合;dK是键向量的维度。
[0100] 其中,xi是输入序列中第i个位置的印刷制造企业特征嵌入向量;WQ、WK、WV是可训练的权重矩阵。
[0101] 加权向量和注意力权重会经过残差连接和归一化的线性变换和激活函数处理,进一步提取印刷制造企业特征和提升印刷制造企业数据非线性化;
[0102] 在前几层处理后,使用前馈神经网络进一步处理特征,以更好地捕捉印刷制造企业数据间中的复杂模式和关系。
[0103] 进一步的,本实施例中,双向Transformer架构的编码器层前馈神经网络计算如下所示:
[0104] FNN(Xi)=max(0,XiWi+bi)Wi+1+bi+1
[0105] 其中,Xi是第i印刷制造企业的特征向量、Wi是第i层的权重矩阵、bi是第i层的偏置项、ReLU函数是一个激活函数,表示为max(0,z),起引入非线性特征的作用。
[0106] 双向Transformer架构的编码器层Query矩阵、Key矩阵、Value矩阵计算:
[0107] Query矩阵:Qi=xiWQ
[0108] Key矩阵:Ki=xiWK
[0109] Value矩阵:Vi=xiWV
[0110] 其中,xi是输入序列中第i个位置的印刷制造企业特征嵌入向量;WQ、WK、WV是可训练的权重矩阵。
[0111] 步骤4:对步骤3输出层后增添全连接层和Softmax层,参见图3;
[0112] 根据Softmax层给出的企业合作概率分布,选择概率最高的印刷装备制造企业为合作伙伴
[0113] 在双向Transformer架构的底层复杂非线性特征学习基础上,为了进一步整合和提取这些复杂的高层语义特征,并将其转化为易于进行分类判断的形式,所以在模型的末端添加了一个全连接层。全连接层的作用在于,它允许每个输入节点与下一层的所有节点都进行全连接,并通过加权求和的方式对来自Transformer层的高维特征向量进行全局的线性组合,形成一个新的、低维的数值向量。
[0114] 进一步的,对于全连接层运算产生的输出向量,应用Softmax函数进行处理。Softmax函数的主要作用是将全连接层输出的数值向量转换成一个归一化的概率分布,确保所有可能的合作伙伴类别对应的概率之和为1。这样每个候选企业的合作概率就可以直接比较。
[0115] 具体的处理过程为:
[0116] 经过前馈神经网络处理得到的企业特征向量,通过全连接层权重矩阵的线性变换,映射到了更高维度的空间;
[0117] 通过线性激活函数Softmax将经过全连接层处理后的数据进行映射处理,将原始的数值输出转换为概率值,用于输出最终的企业伙伴预测;
[0118] 步骤5:设定交叉熵损失函数来对架构模型进行优化;
[0119] 利用交叉熵损失函数计算预测概率与真实标签之间的误差,作为优化目标来调整模型参数,以提高模型的性能和准确性。
[0120] 在训练过程中,模型会借助反向传播算法,依据交叉熵损失函数计算出的梯度自动更新模型参数,从而来优化模型的内部参数。
[0121] 交叉熵损失函数计算如下:
[0122]
[0123] 其中,yic是样本数据集中第i个印刷制造企业与第c个印刷制造企业形成伙伴关系的真实标签(0表示未形成伙伴,1表示已经形成伙伴关系),Pic是模型预测第i个印刷制造企业与第c个印刷制造企业形成伙伴关系的概率。
[0124] 本实施例还公开了一种基于双向Transformer的选取合作企业的预测系统,包括:
[0125] 数据集获取模块,用于获取待合作企业的数据集;
[0126] 特征获取模块,用于构建基于双向Transformer的预测模型,将数据集作为预测模型的输入,获取企业特征向量;
[0127] 预测模块,用于在预测模型的输出层后添加全连接层和Softmax层,将企业特征向量作为全连接层和Softmax层的输入,依次完成企业特征向量的映射和数值转换,获取企业预测的概率值。
[0128] 本发明公开的方法凭借先进的双向Transformer技术能够发掘并遴选兼具性价比与卓越效能的外协合作伙伴,以此有力推进印刷装备制造企业构建一个高效、低成本的印刷装备制造生态。
[0129] 本发明一实施例提供的终端设备的示意图。该实施例的终端设备包括:处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序。所述处理器执行所述计算机程序时实现上述各个方法实施例中的步骤。或者,所述处理器执行所述计算机程序时实现上述各装置实施例中各模块/单元的功能。
[0130] 所述计算机程序可以被分割成一个或多个模块/单元,所述一个或者多个模块/单元被存储在所述存储器中,并由所述处理器执行,以完成本发明。
[0131] 所述终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备可包括,但不仅限于,处理器、存储器。
[0132] 所述处理器可以是中央处理单元(CentralProcessingUnit,CPU),还可以是其他通用处理器、数字信号处理器(DigitalSignalProcessor,DSP)、专用集成电路(ApplicationSpecificIntegratedCircuit,ASIC)、现成可编程门阵列(Field‑ProgrammableGateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
[0133] 所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述终端设备的各种功能。
[0134] 所述终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read‑OnlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
[0135] 以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页 第1页 第2页 第3页
相关技术
双向选取相关技术
合作企业相关技术
刘善慧发明人的其他相关专利技术