首页 / 一种结合时序特征与多维指标的临床医学数据可视分析方法

一种结合时序特征与多维指标的临床医学数据可视分析方法实质审查 发明

技术领域

[0001] 本发明涉及医学数据分析领域,更确切地说,它涉及一种结合时序特征与多维指标的临床医学数据可视分析方法。

相关背景技术

[0002] 随着临床医学数据的快速增长,有效地管理和分析这些数据对公共健康具有重大意义。特别是对于全球性的慢性疾病,如糖尿病,其数据分析在风险评估、病程预测和治疗效果评价方面尤为关键。然而,传统的数据分析方法在处理临床医学数据的高维度、非线性和复杂性方面面临着显著挑战,尤其是在精确度、效率和可解释性方面。
[0003] 面对这些挑战,深度学习技术以其在处理复杂数据结构方面的潜力,引起了医疗健康领域的广泛关注。尽管深度学习在某些医疗数据分析任务中展现出了潜力,但其在一些具有多维度指标和时序特征的数据集中,例如糖尿病数据集,依然缺乏足够的探索。以糖尿病数据集为典型的多维时序数据集,现有的研究主要集中于在应用传统机器学习模型进行分析,这往往需要复杂的特征工程,并且无法让研究人员深入了解不同指标之间,以及和时序特征的内在关联性。
[0004] 尽管可视化技术为医疗数据分析提供了直观的理解方式,但现有方法在利用深度学习模型探索的复杂性和高维数据的内在关联性方面还存在不足。如何高效整合分析多维时序临床医学数据是一个非常重要的问题。

具体实施方式

[0052] 下面结合实施例对本发明做进一步描述。下述实施例的说明只是用于帮助理解本发明。应当指出,对于本技术领域的普通人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干修饰,这些改进和修饰也落入本发明权利要求的保护范围内。
[0053] 实施例1:
[0054] 本申请实施例1提供了一种结合时序特征与多维临床指标的医学数据可视分析方法,该方法旨在结合图神经网络的强大数据处理能力和高效的可视化技术,揭示临床医学数据的复杂模式和内在关联性。如图1所示,该方法包括:
[0055] S1、基于T2G深度学习模型的方法,提取多维临床指标内在关系。
[0056] 本发明所关注的特征关系包含临床医学数据集中各项生物标志物和临床指标之间的关系,如生化指数、免疫标志物、体征数据等特征之间的关联。
[0057] 具体的,S1包括:
[0058] S101、获取特征数据,并对所述特征数据进行预处理;所述预处理包括数据归一化和缺失值处理。
[0059] S102、对所述特征数据进行筛选处理,保留对预测目标重要性大的特征;构建特征数据集,作为模型输入。
[0060] S102中,根据先验知识提取重要性特征,然后将其转换为数值特征与分类特征,并对分类特征进行编码处理,作为模型的输入,最后通过T2G模型得到特征关系(如S103)。
[0061] S103、进行T2G特征关系挖掘。
[0062] 本发明采用了基于T2G深度学习模型的方法抽取。考虑到临床医学数据涵盖的范围广泛,其管理和预测依赖于从这些数据中挖掘深层次的生物标志物和临床指标之间的相互作用。
[0063] 具体的,S103包括:
[0064] S1031、对于数据集中的每一项特征xi,通过特征向量化过程将其映射为高维空间中的向量表示,公式为:
[0065] vi=f(xi;θf)
[0066] 其中,θf代表向量化函数的参数集合,f(·)是特征向量化函数,将原始特征映射到向量空间。其可以通过公式We*ei得到,We是一个可学习的嵌入矩阵,ei是xi对应的原始特征向量,通常是one‑hot编码或其他编码形式。这一转换旨在捕获每个特征的深层次语义信息。
[0067] S1032、使用参数化的相互作用函数g来估计任意两个特征vi和vj之间的关系强度评分,公式为:
[0068]
[0069] 其中,W为学习到的权重矩阵,用于调节特征间交互的重要性,g(·)为计算特征间关系强度的函数;
[0070] S1033、计算适应性边权重以及静态拓扑知识;
[0071] 适应性边权重的计算公式为:
[0072]
[0073] 其中,fih,fjt是对应特征的嵌入向量,τ是通过学习得到的关系权重向量,diag(τ)是其矩阵的对角形式;
[0074] 静态拓扑知识的计算公式为:
[0075]
[0076] 其中,ehi和etj是从学习到的列嵌入中提取的特征表示,用于表达表格特征的语义。
[0077] S1034、将适应性边权重与静态知识拓扑结合,计算最终的特征关系图;
[0078] 特征关系图的计算公式为:
[0079]
[0080] 其中,σ2是一个竞争激活函数,fnsi是一个无自环函数,用于明确排除图中的自环,而A是根据静态知识拓扑计算得到的全局图拓扑,表示哈达玛乘积(即元素间乘法)。
[0081] S1035、利用构建的特征关系图,通过图神经网络进一步分析和抽取特征之间的细致关系。
[0082] 分析和抽取特征之间的细致关系的迭代过程描述为:
[0083] V(k+1)=GNN(Vk,E,W,θGNN)
[0084] 其中,Vk在迭代步骤k的节点特征表示,E是边集,代表特征之间的潜在关系,W是边权重集,代表特征关系的强度,θGNN表示GNN模型的参数集合。
[0085] 这一步骤旨在揭示临床医学数据中相关特征间的复杂交互模式,包括但不限于生物标志物之间的相互作用、临床指标的因果关系,以及这些因素与慢性疾病风险的相关性。
[0086] 基于以上方法提取临床医学数据中有用的特征关系,针对提取到的特征关系进一步设计一种交互式的可视化分析方法(S2‑S4),高效直观地辅助医护人员进行病人指标之间差异性挖掘。
[0087] S2、采用多维尺度降维技术生成总体数据的降维投影视图。
[0088] S3、采用线图将病人的临床指标数据随时间的变化进行可视化。
[0089] S4、采用二维可视化方法进行差异化信息展示,展现S1中所抽取出的不同病人之间的特征关系。
[0090] 实施例2:
[0091] 在实施例1的基础上,本申请实施例2提供了更具体的结合时序特征与多维临床指标的医学数据可视分析方法,包括:
[0092] S1、基于T2G深度学习模型的方法,提取多维临床指标内在关系。
[0093] 对于特征关系的抽取,本发明所关注的特征关系包含数据集中各项生物标志物和临床指标之间的关系。以糖尿病数据集,作为一个具体应用案例,特征关系可以包括血糖水平、胰岛素反应、体重、血压等特征之间的关联。
[0094] 对于生物标志物和临床指标等在医学上对疾病分级具有显著影响等特征,将其手动地筛选出来,并打上标记,确保医学上对疾病分级具有显著影响的生物标志物和临床指标等关键特征不被遗漏。
[0095] 为了不忽视那些在医学上可能对疾病分级有内在影响但尚未被确认为显著的特征,可以利用XGBoost算法来评估特征的重要性。XGBoost提供了一种量化特征贡献的方法,通常基于特征在构建决策树时的分裂增益(split gain)。
[0096] 首先,每当一个特征用于分裂决策树的节点时,可以计算出一个分裂增益Gain(fi),这是一个评估该特征分裂前后损失函数改善程度的指标。对于回归问题,这通常是平方误差的减少量;对于分类问题,这可能是基尼不纯度(Gini impurity)的减少。特征重要性I(fi)可以通过累加在所有树中该特征所带来的分裂增益来计算:
[0097] 其中,T是模型中树的总数,Nt是第t棵树中节点的总数,Gain(fi,t,n)是特征fi在第t棵树的第n个节点的分裂增益。最终,可以按照I(fi)的值对所有特征进行排名,选择排名靠前的特征。根据这种方法,可以标记出重要性排名靠前的特征,即使它们在传统的统计测试中可能不显著,也确保不会忽视它们可能对疾病分类具有的潜在影响。这为进一步的深入分析提供了基础,从而能够更好地理解这些特征如何共同作用于糖尿病等慢性疾病的发展。进一步地,S1中的融入自动化特征工程的构建,对于训练集中的特征,根据先验知识提取重要性特征,然后将其转换为数值特征与分类特征作为模型的输入,最后通过T2G模型得到特征关系。
[0098] S2、采用多维尺度降维技术生成总体数据的降维投影视图。
[0099] 为增强临床医学数据集分析的直观性,让医生对病人整体的分布有一个概念,本发明采用多维尺度降维(MDS)技术生成总体数据的降维投影视图。
[0100] 首先,通过预处理和选择关键特征如指标水平和胰岛素反应等,然后应用MDS技术将高维数据映射到二维空间。具体步骤如下:
[0101] S201、首先,从临床医学数据集中选取关键特征F={f1,f2,f3...,fn},其中fi代表一个特定的特征,如指标水平、胰岛素反应等。
[0102] S202、对这些特征进行预处理,包括缺失值处理、异常值剔除以及归一化处理,以*确保数据的质量和一致性。归一化处理可以表示为: 其中fi 是归一化后的特征值,min(F)和max(F)分别是特征集F中的最小值和最大值。
[0103] S203、在降维后的数据上,使用散点图进行可视化,通过不同颜色映射不同病情类别,提供直观的特征关系展示。此外,还支持交互式操作,如点击散点探索更多细节,提供刷选、点击的功能与其余视图形成交互提供细节信息展示,从而为研究人员提供一个直观且互动的数据探索工具。
[0104] 这一方法不仅简化了复杂数据的解析过程,还助于揭示临床医学数据中特征间的潜在关联,为进一步的科研探究和临床决策过程提供了坚实的依据。
[0105] S3、采用线图将病人的临床指标数据随时间的变化进行可视化。
[0106] 采用线图将病人最重要的临床指标数据随时间的变化进行可视化。X轴代表时间,Y轴代表指标水平。通过线图,可以直观地展示指标水平在一天内或长期内的波动趋势。在线图上标注出病人饮食、用药等关键时间点,以及相应的指标水平。这有助于分析饮食、用药等因素对指标水平的影响。对指标水平的波动进行分析,识别出指标控制不稳定的时间段或模式,如餐后指标升高等。提供交互式界面,允许用户选择不同的时间范围、比较不同时间段的指标变化,或对特定事件进行深入分析。
[0107] S4、采用二维可视化方法进行差异化信息展示,展现S1中所抽取出的不同病人之间的特征关系。
[0108] 具体而言,视图中的每一个叠加的柱体都代表了一个病人类别,柱体的高度则直观地反映了该类别病人在某一特征下的相对重要性。柱体上会标注百分比,用来反映该类别病人在某一特征下相对于其他类别病人的相对重要性。
[0109] S4包括:
[0110] S401、特征排名评估。使用T2G算法得到的注意力特征关系矩阵来评估每个特征的重要性。通过计算特征关系矩阵的PageRank值,可以得到每个特征的重要性得分:其中,PR(fi)是特征fi的PageRank得分,表示其重要性;
d是阻尼因子,通常设为0.85;N是特征的总数;M(fi)是指向特征fi的其他特征集合;Aji是特征fj到fi的注意力权重,代表特征间的关系强度;F是所有特征的集合。
[0111] S402、特征差异性评估。对T2G得到的注意力特征关系矩阵中每行特征进行威尔科克森检验(Wilcoxon test),分析特征间的相互关系。威尔科克森检验用于评估两个配对样本的差异显著性,其计算如下: 其中,W是威尔科克森统计量,Ri是特征差异在所有差异中的排名,n是特征对的数量。通过该检验,可以得到特征间差异的显著性,从而更准确地刻画特征间的相互作用。
[0112] S403、视图构建。为了更加直观地呈现和分析不同类别病人在各个特征下的差异性和重要性,专门采用了基于二维视图的可视化方法进行了视图构建。
[0113] 将基于S401步骤得到的特征排名进行整合,选取每类病人中排名靠前的特征,这些特征被视为最能代表各自类别病人的关键属性。记每类病人选取的特征集合为Si,i为对应类别的病人。
[0114] 随后,对这些特征集合进行求并集的操作,旨在获取一个全面覆盖多种病人重要特征的综合集合。记最终得到的特征集合为C。对每个病人的每个特征的Pagerank值进行了归一化处理。这一步骤的目的是将原始的Pagerank值转换到0‑1的区间内,使得不同特征之间的重要性能够在一个统一的尺度上进行比较。
[0115] 最终,以C中的特征作为X轴,Y轴则代表相对特征重要性,其取值范围限定在0‑1之间。在此基础上,采用叠加柱状图进行描述,其中,每一个叠加的柱体都代表了一个病人类别,柱体的高度则直观地反映了该类别病人在某一特征下的相对重要性。柱体上会标注百分比,用来反映该类别病人在某一特征下相对于其他类别病人的相对重要性,其计算公式为: 其中Peri代表第i类特征下某类柱体上标注的百分比,H表示某个类别病人在第i类特征下的相对重要性,即该类别病人所选取的特征集合中对应特征的归一化后的Pagerank值,∑Hi表示所有类别病人在第i类特征下的相对重要性的总和,即对所有类别病人的特征集合中对应特征的归一化后的Pagerank值求和。
[0116] 如图三所示,在糖化血红蛋白这个特征下的柱体,是由三种不同颜色的柱体叠加而来,分别表示了不同类别的病人。对应柱体中的百分比数值,反映了该类柱体所代表的病人在该特征下相对于其他类别病人的相对重要性。在糖化血红蛋白这个特征下的柱体,白色柱体最高,灰色柱体最低。证明在此特征下,白色所代表的某类病人对比其他类别病人的特征重要性较高,灰色所代表的某类病人对比其他类别病人的特征重要性较低。通过这样细致入微的可视化表达,准确地反映了每个类别病人在某一特征下的相对重要性,有助于更好地理解不同类别病人之间的差异和重要特征。
[0117] 需要说明的,本实施例中与实施例1相同或相似的部分可相互参考,在本申请中不再赘述。
[0118] 实施例3:
[0119] 在实施例1、2的基础上,本申请实施例3提供了一种结合时序特征与多维指标的临床医学数据可视分析系统,包括:
[0120] 提取模块,用于基于T2G深度学习模型的方法,提取多维临床指标内在关系;
[0121] 生成模块,用于采用多维尺度降维技术生成总体数据的降维投影视图;
[0122] 可视化模块,用于采用线图将病人的临床指标数据随时间的变化进行可视化;
[0123] 展示模块,用于采用二维可视化方法进行差异化信息展示,展现提取模块中所抽取出的不同病人之间的特征关系。
[0124] 通过深入分析这四个模块所涵盖的临床医学问题,不仅能够精准地识别出每位病人在疾病表现、治疗反应等方面的个体差异性,还能够有效归纳出整个患者群体在病理生理机制、疾病进程以及管理需求上的集体共同性。这种全面的分析方法,为研究人员进行临床数据高效分析和临床管理策略制定提供了方法和技术基础。
[0125] 具体的,本实施例所提供的系统为实施例1、2提供的方法对应的系统,因此,在本实施例中与实施例一相同或相似的部分,可相互参考,在本申请中不再赘述。

当前第1页 第1页 第2页 第3页