技术领域
[0001] 本发明属于药物重定位技术领域,具体涉及基于生物调控机制图表示学习的疾病与药物间关联关系预测方法及系统。
相关背景技术
[0002] 现有的药物重定位计算方法通常融合了药物的SMILES描述符信息、疾病的MeSH语义信息、以及蛋白质的序列信息等多种分子生物学知识,以增强模型的预测准确性。然而,这些方法往往忽视了挖掘生物网络内部丰富的连接模式的重要性,而这种深入理解网络结构信息对于揭示生物分子间交互作用的机制至关重要。特别地,对于生物网络中的调控机制,例如药物分子通过其独特的化学结构与生物大分子(如受体蛋白、酶等)的功能基团结合,实现治疗效果的机制,在异构生物网络的研究中尤为关键。
[0003] 尽管有一些考虑基于异构网络的药物重定位方法已被实现,但它们所预测的药物和疾病关联关系在准确性上的表现欠佳。
具体实施方式
[0058] 本发明提供了一种基于生物调控机制图表示学习的疾病与药物间关联关系预测方法,包括:
[0059] 将疾病名称输入训练好的关联关系预测模型,获得该疾病的候选药物及预测分数;所述关联关系预测模型为图表示学习模型;
[0060] 所述关联关系预测模型的训练过程包括:
[0061] 建立包括已知药物和疾病的关联网络、已知药物和蛋白质的关联网络、蛋白质和疾病的关联网络的训练集;
[0062] 基于训练集构建异构生物网络;
[0063] 采用元路径策略构建药物、疾病和蛋白质的调控图;
[0064] 根据药物、蛋白质和疾病的调控图,采用图信息传播机制得到不同调控图的图表示特征,进而得到药物和疾病的图表示特征矩阵;
[0065] 基于药物和疾病的图表示特征矩阵,采用XGBoost分类器得到训练好的关联关系预测模型。
[0066] 下面结合附图和实施例对本发明的技术方案进行详细的说明。
[0067] 实施例1
[0068] 本发明的实施例1提供了一种基于生物调控机制图表示学习的疾病与药物间关联关系预测方法,按下列步骤进行:
[0069] 步骤1:收集已知药物和疾病的关联网络、药物和蛋白质的关联网络、以及蛋白质和疾病的关联网络;
[0070] 步骤2:基于步骤1中的药物和疾病的关联网络、药物和蛋白质的关联网络、蛋白质和疾病的关联网络以及药物、蛋白质、疾病的生物知识构建一个异构生物网络;
[0071] 定义异构生物网络为G={V,E};
[0072] 其中,V表示异构生物网络所有节点构成的集合,V={VDR,VDI,VPR};VDR表示药物抽DI象为网络中的节点, 表示第i个药物,N表示药物的数量;V 表示疾
PR
病抽象为网络中的节点 表示第j个疾病,M表示疾病的数量;V 表
示蛋白质分子抽象为网络中的节点 表示第l个蛋白质分子,P表示
蛋白质分子的数量;
[0073] E表示异构生物网络所有边构成的集合,E={EDD,EDP,EPD};EDD表示将药物和疾病之DP间的关联关系抽象为网络中的边;E 表示将药物和蛋白质分子之间的关联关系抽象为网络PD
中的边,E 将蛋白质分子和疾病之间的关联关系抽象为网络中的边。
[0074] 步骤3:基于步骤2中异构生物网络,应用元路径策略构建出药物、疾病和蛋白质的调控图;
[0075] 具体的计算药物、疾病和蛋白质的调控图的方法如下:
[0076] 步骤3‑1:定义一系列的元路径集合MP={MPm},以阐释不同的调控机制。例如,元路径MP1={drug→protein→disease}和MP2={drug→protein→drug→disease}展示了该集合中的调控示例。其中,drug,protein,disease分别表示药物、蛋白质分子和疾病。
[0077] 步骤3‑2:定义基于元路径MPm构建的调控图为 它由一组特定的实例组成,表示为P_{m}={P1,P2,…,Pi…,Ps}。这里,m∈MP,P_{m}表示集合MP中预定义的元路径之一,sm表示根据P生成的路径总数。路径Pi由L个顺序节点组成,记为v1→…→vi→vi+1→…vL(v∈V),其中,vi到vi+1的转移概率为:
[0078]
[0079] 其中t表示节点类型,它属于定义的节点类型集合{drug,disease,protein},函数Φ(t‑1)用于指定如果当前节点vi的类型为t,那么下一个节点vi+1应该具有的类型。集合N(vi,Φ(t‑1))|包含了所有与节点vi相邻且符合函数Φ定义的类型为t‑1的节点。
[0080] 步骤3‑3:由上述公式得到元路径集合MPm,应用元路径策略得到药物、疾病和蛋白质的调控图
[0081] 定义调控图 的邻接矩阵为 对于调控图 中的节点的图表示特征可以通过图信息传播机制来得到:
[0082] Xl=σ(AmXl‑1)
[0083] 其中Xl代表节点在第l层的表征,当神经网络传播层数l=0时,X作为初始特征矩阵,这里采用的是one‑hot编码为每个节点初始化特征。
[0084] 由上述公式得到加权平均不同层次的特征:
[0085]
[0086] 其中 是一个列表,包含了所有节点v∈V的最小传播层l
数l,ε是特征阈值,α是调整不同层贡献的权重系数。A 表示节点特征在图 中传播l步后的状态。
[0087] 定义一个张量T来整合来自不同调控图的图表示特征:
[0088]
[0089] 其中Xm表示表示调控图 中的节点的特征,M是初始设置的调控图类型总数。
[0090] 步骤3‑4:根据张量T,应用非线性变换函数来聚合每个调控图中节点的图表示特征:
[0091]
[0092] 其中 是第m个视图调控图中节点v的特征向量, 是一个可训练m
的权重矩阵,b是偏置项。
[0093] 应用softmax函数对不同调控图之间的权重系数进行归一化:
[0094]m m
[0095] 其中β为调控图 的相对重要性,e是注意力分数,Watt是一个可训练的权重矩阵。
[0096] 根据调控图权重βm计算所有调控图的图表示特征进行加权求和,得到药物和疾病的最终特征矩阵
[0097]
[0098] 步骤4:基于步骤3中药物和疾病的特征矩阵 应用XGBoost分类器训练出关联关系预测模型:
[0099] 定义一个药物‑疾病对数据集,表示为S={(si,yi)},其中1≤i≤|S|,si是从导出的第i个药物‑疾病对的特征向量,yi∈{0,1}是相应的标签,表示药物和疾病之间是否存在关联关系,|S|是数据集中药物‑疾病对的总数量。将S输入到XGBoost分类器完成训练如下的目标函数:
[0100]
[0101] 其中损失函数 被用来衡量第i个药物‑疾病对的实际标签yi和预测标签 之间的偏差,K表示决策树的总数。此外,Ω(fk)是正则化项,目的是约束过于复杂的模型结构,具体计算过程如下:
[0102]
[0103] 其中Le是决策树叶子节点的数量,γ和λ分别表示决策树的复杂度和权重约束的参数,||ω||是决策树的2范数;fk(si)表示第i个药物‑疾病对的特征向量,由第k棵决策树计算出预测结果。
[0104] 步骤4‑1:输入XGBoost分类器的参数K;
[0105] 步骤4‑2:根据药物和疾病的特征矩阵H,应用XGBoost分类器来训练输入特征矩阵H,获得关联关系预测模型。
[0106] 步骤5:根据步骤4所得的关联关系预测模型,获取所需的候选药物及预测分数;
[0107] 将每个疾病和候选药物的关联关系构建为测试输入特征矩阵Y,使用上述得到药物发现模型来测试输入特征矩阵Y,获得该疾病的候选药物的预测分数。该候选药物的预测分数越高说明该候选药物越适合于输入的疾病。
[0108] 关联关系预测模型为图神经网络模型。
[0109] 实施例2
[0110] 如图1所示,本发明还提供一种基于生物调控机制图表示学习的疾病与药物间关联关系预测系统,基于实施例1的方法实现,所述系统包括预测输出模块和模型训练模块,[0111] 预测输出模块,用于将疾病名称输入训练好的关联关系预测模型,获得该疾病的候选药物及预测分数;所述关联关系预测模型为图表示学习模型;
[0112] 模型训练模块,用于将药物、蛋白质、疾病的生物关联网络和生物知识构建成为一个异构生物网络,对异构生物网络中药物和疾病的多级子图进行提取,得到药物和疾病的图表示特征矩阵,训练出关联关系预测模型。
[0113] 预测输出模块包括:药物发现子模块、结果输出子模块。
[0114] 药物发现子模块,用于根据关联关系预测模型输入预测数据生成预测结果,并将这些结果传递给结果输出子模块。
[0115] 模型训练模块和药物发现子模块相连接,药物发现子模块与结果输出子模块相连接。
[0116] 模型训练模块包括网络构建子模块、特征学习子模块和模型训练子模块。
[0117] 网络构建子模块,用于将药物、蛋白质、疾病的生物关联网络构建成为一个异构生物网络,并将构建好的异构生物网络传递给特征学习子模块;
[0118] 网络构建子模块通过引入蛋白质作为中介,构建了一个包含药物、蛋白质以及疾病的异构生物网络,来增强药物和疾病之间的连通性。
[0119] 特征学习子模块,用于对异构生物网络中药物、疾病和蛋白质的调控图进行提取和学习,得到药物和疾病的特征矩阵,并将特征矩阵传递给模型训练子模块;
[0120] 特征学习子模块更有效地模拟生物体内的药物调控机制,通过提取和学习药物、疾病和蛋白质的调控图来进行训练关联关系预测模型,能够更准确地给定疾病的候选药物。
[0121] 模型训练子模块,用于根据特征学习子模块的结果训练关联关系预测模型。
[0122] 实施例3
[0123] 本发明还可提供一种计算机设备,包括:至少一个处理器、存储器、至少一个网络接口和用户接口。该设备中的各个组件通过总线系统耦合在一起。可理解,总线系统用于实现这些组件之间的连接通信。总线系统除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。
[0124] 其中,用户接口可以包括显示器、键盘或者点击设备。例如,鼠标,轨迹球(track ball)、触感板或者触摸屏等。
[0125] 可以理解,本申请公开实施例中的存储器可以是易失性存储器或非易失性存储器,或可包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(Read‑Only Memory,ROM)、可编程只读存储器(Programmable ROM,PROM)、可擦除可编程只读存储器(Erasable PROM,EPROM)、电可擦除可编程只读存储器(Electrically EPROM,EEPROM)或闪存。易失性存储器可以是随机存取存储器(Random Access Memory,RAM),其用作外部高速缓存。通过示例性但不是限制性说明,许多形式的RAM可用,例如静态随机存取存储器(Static RAM,SRAM)、动态随机存取存储器(Dynamic RAM,DRAM)、同步动态随机存取存储器(Synchronous DRAM,SDRAM)、双倍数据速率同步动态随机存取存储器(Double Data Rate SDRAM,DDRSDRAM)、增强型同步动态随机存取存储器(Enhanced SDRAM,ESDRAM)、同步连接动态随机存取存储器(Synchlink DRAM,SLDRAM)和直接内存总线随机存取存储器(Direct Rambus RAM,DRRAM)。本文描述的存储器旨在包括但不限于这些和任意其它适合类型的存储器。
[0126] 在一些实施方式中,存储器存储了如下的元素,可执行模块或者数据结构,或者他们的子集,或者他们的扩展集:操作系统和应用程序。
[0127] 其中,操作系统,包含各种系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务。应用程序,包含各种应用程序,例如媒体播放器(Media Player)、浏览器(Browser)等,用于实现各种应用业务。实现本公开实施例方法的程序可以包含在应用程序中。
[0128] 在本上述的实施例中,还可通过调用存储器存储的程序或指令,具体的,可以是应用程序中存储的程序或指令,处理器用于:
[0129] 执行上述方法的步骤。
[0130] 上述方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行上述公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合上述公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
[0131] 可以理解的是,本发明描述的这些实施例可以用硬件、软件、固件、中间件、微码或其组合来实现。对于硬件实现,处理单元可以实现在一个或多个专用集成电路(Application Specific Integrated Circuits,ASIC)、数字信号处理器(Digital Signal Processing,DSP)、数字信号处理设备(DSP Device,DSPD)、可编程逻辑设备(Programmable Logic Device,PLD)、现场可编程门阵列(Field‑Programmable Gate Array,FPGA)、通用处理器、控制器、微控制器、微处理器、用于执行本申请所述功能的其它电子单元或其组合中。
[0132] 对于软件实现,可通过执行本发明的功能模块(例如过程、函数等)来实现本发明技术。软件代码可存储在存储器中并通过处理器执行。存储器可以在处理器中或在处理器外部实现。
[0133] 实施例4
[0134] 本发明还可提供一种非易失性存储介质,用于存储计算机程序。当该计算机程序被处理器执行时可以实现上述方法实施例中的各个步骤。
[0135] 最后所应说明的是,以上实施例仅用以说明本发明的技术方案而非限制。尽管参照实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,对本发明的技术方案进行修改或者等同替换,都不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。