技术领域
[0001] 本发明属于数据处理技术领域,具体涉及基于多阶段学习的大模型传染病预测和预警方法及系统。
相关背景技术
[0002] 传染病一直是对人类健康的主要威胁,例如手足口病和乙型肝炎病毒预警系统有利于传染病风险的管理,随着全球化和人口流动的加剧,传染病的传播速度和范围不断扩大,给公共卫生安全和社会经济带来巨大挑战。预测技术是预警系统的基础,这有助于医疗保健和干预策略的决策,传统的传染病预测方法主要依赖于统计分析和经验判断,存在预测精度低、时效性差等问题。
[0003] 近年来,随着大数据、人工智能等技术的快速发展,基于机器学习和深度学习的传染病预测方法逐渐成为研究热点,由于注意机制在时间序列预测中的成功,为了提高预测技术,有部分预测模型将其引入传染病发病人数的预测上,这些注意力机制集中在输入数据的一些重要的时间步长上,所以传染病门诊病例数预测常常被看成是时间序列预测问题,之前的注意力机制主要关注不同时刻的时间序列对预测的影响,然而,该方法大多侧重于单一模型或单一阶段的预测,忽略了传染病传播过程中的复杂性和动态性,无法融合不同的数据信息综合判断传染病的传播增长率,从而不能给出准确的传染病数据预警。
具体实施方式
[0079] 下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制;相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
[0080] 第一方面本申请提出基于多阶段学习的大模型传染病预测和预警方法,如图1所示,包括以下步骤:
[0081] S100:获取传染病数据的特征性描述信息,将所述特征性描述信息输入预构建的自编码模型中,得到传染病数据的基础特征表示;
[0082] 其中,特征性描述信息包括病例数量、传播途径、人群分布和气候环境的等基础特征;
[0083] 在一些实施例的一些可选的实现方式中,所述获取传染病数据的特征性描述信息,将所述特征性描述信息输入预构建的自编码模型中,得到传染病数据的基础特征表示,包括:
[0084] 设输入自编码模型的特征性描述信息为 ,表示一个n维的数据集合,其中每个元素都有n维特征;
[0085] embedding层接受输入x并把x映射到指定维度的向量表示,embedding层的计算为:
[0086]
[0087] 其中, 和 分别表示embedding层的权重矩阵和偏置矩阵;
[0088] 编码器由线性层和激活函数组成,embedding层输出的结果 输入编码器进行计算:
[0089]
[0090] 其中, 和 分别表示隐藏层的权重矩阵和偏置矩阵, 表示基础特征学习完毕的所述基础特征表示, 是非线性激活函数,非线性激活函数的计算为:
[0091]
[0092] 其中, 是非线性激活函数 接收的输入。
[0093] S200:利用门控循环单元模型捕捉所述特征性描述信息的时序特征,其中,对所有的时序特征中的特征值按时间顺序排序后进行学习提取,得到时序特征表示;
[0094] 在一些实施例的一些可选的实现方式中,所述利用门控循环单元模型捕捉所述特征性描述信息的时序特征,其中,对所有的时序特征中的特征值按时间顺序排序后进行学习提取,得到时序特征表示,包括:
[0095] 时序特征的学习提取采用GRU网络的模型结构,由多个门控网络组成,包括重置门、候选门和更新门,通过多个门控网络计算得到的最终隐藏状态为所述时序特征表示。
[0096] 其中,时序特征学习:利用门控循环单元模型,捕捉传染病数据的时间序列特征,时序特征包括对有按时间进度统计的特征信息,如统计时间、疫苗接种率和人口流动等,对所有的特征中的特征值按时间顺序排序,对里面的时序特征进行学习提取;
[0097] 在一些实施例的一些可选的实现方式中,所述时序特征的学习提取采用GRU网络的模型结构,由多个门控网络组成,包括重置门、候选门和更新门,通过多个门控网络计算得到的最终隐藏状态为所述时序特征表示,具体计算为:
[0098] 重置门:
[0099]
[0100] 其中, 和 分别是重置门的权重矩阵, 是重置门的偏置矩阵, 和 分别表示特征性描述信息的当前输入字符和前一个字符的隐藏状态表示;
[0101] 候选门的计算分为两种情况:接收前一隐藏状态和不接收前一隐藏状态;
[0102] 当接收前一隐藏状态:
[0103]
[0104] 其中, 和 分别为当前网络层的权重矩阵和偏置矩阵;
[0105] 当不接收前一隐藏状态:
[0106]
[0107] 其中, 和 分别为当前网络层的权重矩阵和偏置矩阵;
[0108] 更新门:
[0109] ( )
[0110] 其中, 和 分别是更新门的权重矩阵, 是更新门的偏置矩阵;
[0111] 得到最终隐藏状态:
[0112]
[0113] 其中, 为所述时序特征表示。
[0114] S300:将所述特征性描述信息转化组织为自然语言描述,使用大模型对自然语言描述进行扩充,将扩充后的文本转化为向量表示,得到扩充特征表示;
[0115] 在一些实施例的一些可选的实现方式中,所述将所述特征性描述信息转化组织为自然语言描述,使用大模型对自然语言描述进行扩充,将扩充后的文本转化为向量表示,得到扩充特征表示,包括:
[0116] 构造输入大模型的提示词指令:将获取到的所述特征性描述信息的每一行数据对应的特征名称及特征内容构造为嵌套列表格式数据,构造的数据记作content,之后再拼接上给大模型的任务指令prompt,将content和prompt拼接后的格式作为输入,输入到大模型中进行特征扩充;
[0117] 其中,构造输入大模型的提示词指令具体为:
[0118] 将现有的所述特征性描述信息的每一行数据对应的特征名称及特征内容,构造为嵌套列表格式数据,如:[['时间', '2023‑04‑01'], ['新增病例', 50], ['传播途径', '飞沫传播为主,接触传播为辅'], ['人群分布', '青壮年为主,老年人次之'], ['人口流动', '清明节假期后,返乡人员增多'], ['气候环境', '春季'], ['防控措施', '加强公共场所消毒,提醒市民佩戴口罩'], ['疫苗接种率', 50], ['医疗资源利用情况', '医院床位紧张,部分区域需增设临时医疗点']],构造的数据记作content。
[0119] 之后再拼接上给模型的任务指令prompt:“请基于当前的数据,结合传染病的医学知识,进行数据改写和扩充,丰富里面的信息,如里面的‘春季’,可以结合季节与温度对当前传染病的影响,补充为:‘春季,气温回升,湿度适中,有利于病毒传播’”,把content和prompt拼接,输入大模型中,进行特征扩充。
[0120] 使用全连接层将大模型扩充完毕的特征文本转为向量表示:
[0121]
[0122] 其中, 和 分别是全连接层的权重矩阵和偏置矩阵, 是接收的大模型特征扩充后的文本, 是对大模型特征扩充后的文本转化的向量表示,即为所述扩充特征表示。
[0123] S400:通过注意力机制模型将所述基础特征表示、时序特征表示和扩充特征表示进行融合,得到综合特征表示;
[0124] 在一些实施例的一些可选的实现方式中,所述通过注意力机制模型将所述基础特征表示、时序特征表示和扩充特征表示进行融合,得到综合特征表示,包括:
[0125] 将 、 和 分别经过三个第一线性层,得到三个Query向量: 、 和 ,三个所述第一线性层的权重矩阵和偏置矩阵采用相同的权重:
[0126]
[0127] 其中, 和 分别代表每个第一线性层中的权重矩阵和偏置矩阵, 、 和 存在一个集合中,记作 ;
[0128] 将 、 和 分别经过三个第二线性层,得到三个Key向量 , 和 ,三个所述第二线性层的权重矩阵和偏置矩阵也采用相同的权重:
[0129]
[0130] 其中, 和 分别代表每个第二线性层中的权重矩阵和偏置矩阵, , 和 存在一个集合中,记作 ;
[0131] 将 、 和 分别经过三个第三线性层,Value向量 , 和 ,三个所述第三线性层的权重矩阵和偏置矩阵也采用相同的权重:
[0132]
[0133] 其中, 和 分别代表每个第二线性层中的权重矩阵和偏置矩阵, , 和 存在一个集合中,记作 ;
[0134] 对 , , 中保存的Query向量、Key向量和Value向量进行两两互相组合的计算得到向量组合,遍历所有向量组合的组合方式并分别计算每种向量组合中Query向量、Key向量和Value向量的Att结果;
[0135] 其中,具体为:
[0136] 对 , , 之间保存的Query向量、Key向量、Value向量三者之间互相组合计算,组合方式如:[Q1,K1,V1],[Q1,K2,V1]等,遍历所有的组合方式,共有3*3*3=27种;
[0137] 对每种组合中的Q,K,V进行分别计算,对于Q,K,V:
[0138]
[0139] 以此类推,共有27种计算的Att结果;
[0140] 对每种所述Att结果中的Query向量、Key向量和Value向量赋予对应的权重影响因子,根据赋值的权重影响因子对所有所述Att结果进行求和,将求和结果和每个所述Att结果相乘得到获取融合权重信息的注意力分值,将融合权重信息的注意力分值作为所述综合特征表示进行传染病预测。
[0141] 其中,对于Q1,Q2,Q3,人工各自赋予一个权重影响因子1、2、3,其中1+ 2+ 3=1,同样的,对于V1,V2,V3和 ,2,3,也采用Q1,Q2,Q3相同的权重影响因子,用来区分不同阶段的学习结果的特征权重。
[0142] 对于每一个Att结果,把里面用到的Q,K,V各自对应的权重影响因子进行加和,加和结果记为 ,如:Att2里面用到了Q1,K2,V1,则对应的 计算为:
[0143]
[0144] 最终,27个计算的Att结果对应有27个 值,继续计算,把注意力Att和对应的进行相乘,获取融合权重信息的注意力分值,之后进行求和计算,再除以27进行平均,除以 的累加和进行计算还原:
[0145]
[0146] 将多源信息计算的Att结果作为综合特征表示进行输出,用于计算下一阶段的感染人数;
[0147] S500:基于所述综合特征表示,使用回归模型进行传染病传播趋势的预测,并根据设定的阈值进行预警。
[0148] 其中,基于融合多阶段模型学习信息的综合特征表示,经过回归模型进行最终阶段的预测,预测出下一时间点的感染人数,根据预测结果,进行预警,提交预警信息和分析报告到相关疾控部门。
[0149] 在一些实施例的一些可选的实现方式中,所述基于所述综合特征表示,使用回归模型进行传染病传播趋势的预测,并根据设定的阈值进行预警,包括:
[0150] 将所述综合特征表示输入回归模型,回归模型分为隐藏层和全连接层,隐藏层计算过程为:
[0151]
[0152] 其中, 和 分别为隐藏层的权重矩阵和偏置矩阵, 为综合特征表示;
[0153] 全连接层计算为:
[0154]
[0155] 其中, 和 分别为全连接层的权重矩阵和偏置矩阵, 为最终预测的下一时间点的感染人数;
[0156] 所述 用于统计与当前时间点的感染人数的增长率rate:
[0157]
[0158] 设置预警阈值threshold,当rate超过了threshold时,自动触发预警机制,输出感染失控预警,将模型预测结果和预警信息发送至有关部门进行预警提示。
[0159] 第二方面基于多阶段学习的大模型传染病预测和预警系统,如图2所示,包括基础特征表示获取模块、时序特征表示获取模块、扩充特征表示获取模块和特征融合模块和传染病传播趋势预测预警模块;
[0160] 所述基础特征表示获取模块,用于获取传染病数据的特征性描述信息,将所述特征性描述信息输入预构建的自编码模型中,得到传染病数据的基础特征表示;
[0161] 所述时序特征表示获取模块,用于利用门控循环单元模型捕捉所述特征性描述信息的时序特征,其中,对所有的时序特征中的特征值按时间顺序排序后进行学习提取,得到时序特征表示;
[0162] 所述扩充特征表示获取模块,用于将所述特征性描述信息转化组织为自然语言描述,使用大模型对自然语言描述进行扩充,将扩充后的文本转化为向量表示,得到扩充特征表示;
[0163] 所述特征融合模块,用于通过注意力机制模型将所述基础特征表示、时序特征表示和扩充特征表示进行融合,得到综合特征表示;
[0164] 所述传染病传播趋势预测预警模块,用于基于所述综合特征表示,使用回归模型进行传染病传播趋势的预测,并根据设定的阈值进行预警。
[0165] 第三方面本申请提出一种电子设备,包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述方法的步骤。
[0166] 第四方面本申请提出一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述方法的步骤。
[0167] 所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0168] 在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
[0169] 本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本公开的范围。
[0170] 在本公开所提供的实施例中,应该理解到,所揭露的装置/计算机设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/计算机设备实施例仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
[0171] 作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0172] 另外,在本公开各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0173] 集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读存储介质中。基于这样的理解,本公开实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,计算机程序可以存储在计算机可读存储介质中,该计算机程序在被处理器执行时,可以实现上述各个方法实施例的步骤。计算机程序可以包括计算机程序代码,计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读介质可以包括:能够携带计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(Read‑Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、电载波信号、电信信号以及软件分发介质等。需要说明的是,计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如,在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
[0174] 以上仅是本发明优选的实施方式,需指出的是,对于本领域技术人员在不脱离本技术方案的前提下,作出的若干变形和改进的技术方案应同样视为落入本权利要求书要求保护的范围。