首页 / 一种基于机器学习预测冠心病的辅助诊断方法、系统、介质及处理器

一种基于机器学习预测冠心病的辅助诊断方法、系统、介质及处理器实质审查 发明

技术领域

[0001] 本发明涉及统计预测技术领域,特别涉及一种基于机器学习预测冠心病的辅助诊断方法、系统、介质及处理器。

相关背景技术

[0002] 冠心病(coronary artery disease,CAD)是全球范围内引起最多死亡的疾病之一,作为心血管疾病中的一种,冠心病引起的死亡病例也呈现增长趋势。
[0003] 许多测试可能有助于冠心病的诊断,包括:心电图、心脏压力测试、冠状动脉计算机断层造影和冠状动脉造影等,其中冠状动脉造影为主要诊断依据的。但是在一般情况下,只有当症状出现且非常严重的时候,才会开展冠脉造影的检查。所以,目前缺少简单、有效冠心病的排查手段。现有技术中,专利号为CN117637174A的冠心病预测模型的训练方法、计算机设备及可读存储介质虽然对冠心病不同进展阶段建立预测模型,降低不良心血管事件的发生率。但是,该方案用于模型训练的数据仅为外周血核心细胞,包含的信息量比较有限,对冠心病的预测准确率不高。

具体实施方式

[0038] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0039] 应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0040] 还应当理解,在本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0041] 还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0042] 请参阅图1,本申请实施例一种基于机器学习预测冠心病的辅助诊断方法,包括以下步骤:
[0043] 步骤S01、获取医院记录病人的历史数据,包括所有冠心病患者的历史数据和心内科就诊的非冠心病患者的历史数据;
[0044] 获取医院记录所有冠心病患者的历史数据和心内科就诊的非冠心病患者的历史数据,历史数据包括实验室检查数据(如血常规、肾常规、肝常规等)、医疗器械检查数据(如心电图、超声等)、病史数据(如饮酒史、吸烟史等)、家族病史数据(家族病史等)、病人基本信息(身高、性别、体重、籍贯等)等共167项数据。
[0045] 步骤S02、提取所述历史数据中与冠心病症状相关的多项关键特征,并将每个病人的多项关键特征作为一个样本形成样本集;
[0046] 将所述历史数据分成分类数据(如性别)、文字数据(如病史描述)和数字数据(如血压)形式的数据;通过数据转换将文字数据、数字数据均转换为分类数据;将转换后的分类数据进行过滤处理,得到与冠心病症状相关的多项关键特征(本实施例中为96项),并将每个病人的多项关键特征作为一个样本形成样本集。
[0047] 步骤S03、将所述样本集按预设比例划分成训练集和验证集,并输入两层机器学习模型进行学习形成具有输出冠心病风险评分的冠心病预测模型;
[0048] 在本实施例中,将样本集以80%和20%的比例分成训练集和验证集,并将所述训练集分别进行随机森林模型和梯度提升数树模型进行超参数优化,根据训练集的交叉验证得到最优的超参数组合;
[0049] 交叉验证法(Cross Validation)的基本原理是对样本集进行分组,每组中一部分数据作为训练集来训练模型,其余部分作为验证集来测试模型,以此作为模型的性能评价指标。交叉验证是指将样本集分割成大小近似相等的n组,然后将这n组每个子集数据分别做一次验证集,其余,n‑1组子集作为训练集用来训练模型,交叉验证重复n次,平均n次的测试结果,最终得到一个估测值。
[0050] 利用最优超参数组合对随机森林模型和梯度提升树模型进行训练,得到随机森林模型和梯度提升树模型配置为输出每个样本的冠心病概率;
[0051] 将所述每个样本的冠心病概率作为后验概率输入中性神经网络机器进行超参数优化,得到训练好的中性神经网络模型;
[0052] 将所述随机森林模型和梯度提升树模型作为冠心病预测模型的第一层,将所述中性神经网络模型作为冠心病预测模型的第二层,得到基于两层机器学习的冠心病预测模型。
[0053] 利用测试集进行验证冠心病预测模型的精确度是否符合要求,如果不符合要求,需要我重新进行模型第一层的随机森林模型和梯度提升树模型参数调优,并进行学习训练,以及模型第二层的中性神经网络模型参数调优,并进行学习训练,直到模型满足测试精确度要求。
[0054] 步骤S04、将就诊病人的多项关键特征输入所述冠心病预测模型,得到所述就诊病人的冠心病风险评分。
[0055] 在本实施例中将就诊病人的多项关键特征输入所述冠心病预测模型,并以所述冠心病预测模型的中性神经网络模型计算得到的后验概率作为冠心病风险评分。
[0056] 需要说明的是,医院记录病人的历史数据为病人检查产生的数据,包括门诊就诊、检查数据。心内科门诊疑似病人,通过门诊开具的检查单,完成病人身体检查,包括医疗仪器检查、实验室检查、病史问诊、基本情况问诊等,形成一系列健康数据。
[0057] 在本实施例中,通过数据转换方法,将文字数据、数字数据均转换为分类数据。具体的实施方式为:例如原本的分类数据在“性别”中,将“Male”和“Female”分别编码为“1”和“0”;文字数据采用同样的方法进行转换成分类数据,在“是否患有哮喘”、“走路或爬楼梯是否有严重困难”、“是否为重度饮酒者”、分别将“Yes”和“No”编码为“1”和“0”的分类形式。数字数据同样原理,在“血压是否超过阈值”中,将“Yes”和“No”编码为“1”和“0”的分类形式。通过将数字数据和文字数据转换后成分类数据,刻印提高计算机的运行识别效率。
[0058] 在数据进行转换处理后进行过滤处理,将缺失的数据过多(根据实践经验设置为>30%以上)的个人或数据项删除。过滤后的数据(过滤数据)仍然存在部分数据缺失,通过随机森林缺失数据填补算法填入数据,使得数据完整,提升数据质量。这里涉及的缺失数据填补算法,包括平均算法(使用其余样品数据的平均值作为缺失值)、相似度插补法(计算缺失样本与非缺失样本之间的相似度,然后通过非缺失样本的加权值来估计缺失值)、MissForest预测填补法(寻找非缺失数据列与缺失数据列之间的内在关联,通过非缺失的数据预测并填入缺失数据)等。
[0059] 在本实施例中被选出来的96项关键特征是除了进行自动过滤的处理外,同时基于专家临床经验进行综合选取,96项关键特征挑选出对模型性能影响最大的特征子集,提高模型精度,减少运行时间,特征选择的目的是要用尽量少的特征训练出综合指标尽量好的模型。
[0060] 在另一个实施例中,利用入院数据预测冠心病的两层架构机器学习辅助诊断方法,所涉及的两层机器学习冠心病预测模型预测结果如图3,使用双层机器学习冠心病预测模型预测冠心病风险的接受者操作特征曲线面积(AUROC)可达0.88,预测的准确性可达到0.8以上(样本量2400人)。本结果表明使用双层机器学习冠心病预测模型预测冠心病风险可达到较好的预测结果,具有较好的实用效果。
[0061] 本发明的一种基于机器学习预测冠心病的辅助诊断方法通过获取医院记录病人的历史数据,包括所有冠心病患者的历史数据和心内科就诊的非冠心病患者的历史数据;提取所述历史数据中与冠心病症状相关的多项关键特征,并将每个病人的多项关键特征作为一个样本形成样本集;将所述样本集按预设比例划分成训练集和验证集,并输入两层机器学习模型进行学习形成具有输出冠心病风险评分的冠心病预测模型;将就诊病人的多项关键特征输入所述冠心病预测模型,得到所述就诊病人的冠心病风险评分。本发明自动化处理大量数据,基于机器学习辅助诊断可以减少医生在诊断过程中的主观性和不确定性,提高诊断效率。同时基于两层机器学习的预测模型可以为每位患者提供定制化的风险评估,帮助医生更准确地了解患者的冠心病风险水平。
[0062] 具体的,本申请的一种优选实施方式中,一种基于机器学习预测冠心病的辅助诊断方法还包括:
[0063] 将所述就诊病人的冠心病风险评分与预设风险阈值进行比较,根据比较结果输出就诊病人的检查项目。
[0064] 在具体实施中,当就诊病人的冠心病风险评分大于或等于预设风险阈值时,此时说明病人患冠心病的概率很高,需要进行冠脉造影检查,以证明是否确认冠心病;当就诊病人的冠心病风险评分小于预设风险阈值时,可以排除病人冠心病风险,安排做其他检车即可。
[0065] 请参阅图2,本申请实施例还提供一种基于机器学习预测冠心病的辅助诊断系统,应用于前述的基于机器学习预测冠心病的辅助诊断方法,包括:
[0066] 数据获取单元,用于获取医院记录病人的历史数据,包括所有冠心病患者的历史数据和心内科就诊的非冠心病患者的历史数据;
[0067] 特征提取单元,用于提取所述历史数据中与冠心病症状相关的多项关键特征,并将每个病人的多项关键特征作为一个样本形成样本集;
[0068] 模型学习生成单元,用于将所述样本集按预设比例划分成训练集和验证集,并输入两层机器学习模型进行学习形成具有输出冠心病风险评分的冠心病预测模型;
[0069] 患病预测单元,用于将就诊病人的多项关键特征输入所述冠心病预测模型,得到所述就诊病人的冠心病风险评分。
[0070] 在本实施例中,各单元对应的功能解释如前述的一种零碳供电所碳评估分类指标体系的构建方法解释相同,技术效果也与实施例的一种基于机器学习预测冠心病的辅助诊断方法的技术效果相同,在此不在重复赘述。
[0071] 本申请实施例还一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,在所述程序运行时控制所述计算机可读存储介质所在设备执行前述的基于机器学习预测冠心病的辅助诊断方法。
[0072] 该实施例的技术效果与实施例的一种基于机器学习预测冠心病的辅助诊断方法的技术效果相同,在此不再重复赘述。
[0073] 本发明可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
[0074] 本申请实施例还一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行前述的基于机器学习预测冠心病的辅助诊断方法。
[0075] 该实施例的技术效果与实施例一种基于机器学习预测冠心病的辅助诊断方法的技术效果相同,在此不再重复赘述。
[0076] 在本实施例的处理器可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、或其他数据处理芯片。
[0077] 本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0078] 在本发明所提供的实施例中,应该理解到,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元可结合为一个单元,一个单元可拆分为多个单元,或一些特征可以忽略等。
[0079] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0080] 所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read‑0nlyMemory)、随机存取存储器(RAM,RandomAccessMemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
[0081] 最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围,其均应涵盖在本发明的权利要求和说明书的范围当中。

当前第1页 第1页 第2页 第3页
相关技术
冠心病辅助相关技术
学习预测相关技术
莫丽雯发明人的其他相关专利技术