技术领域
[0001] 本发明涉及生物诊断工程领域,尤其涉及一种II型糖尿病因果特征选择方法。
相关背景技术
[0002] II型糖尿病是一种病因复杂且高发的慢性疾病,其患病率呈现逐年上升趋势。如果没有得到及时治疗与控制,患者可能产生一系列并发症,所以II型糖尿病早期诊断和预测对其治疗和避免并发症具有重要意义。
[0003] 近年来,研究人员发现机器学习算法有助于疾病的早期检测与分析,且随着机器学习研究的不断深入,面向II型糖尿病的机器学习预测模型应用也越来越多。但当样本数据量较大时,模型训练就变得十分困难,通常需要对数据进行预处理。
[0004] 特征选择是数据预处理方法的重要环节,可以起到剔除无用数据、减少模型训练时间和提高机器学习模型精度的作用。II型糖尿病预测模型的构建首要考虑的是特征选择方法的设计合理性。现有特征选择算法往往根据预测特征之间的相关性、预测特征与类变量之间的相关性来选择特征,其并不试图捕捉它们之间的因果关系。事实证明,了解变量之间的因果关系对建立可解释且稳健的预测模型具有潜在好处,这是因为因果关系直接反映了系统的内在机制。因此,基于因果关系的II型糖尿病危险因素特征选择方法的研究越来越受到关注。基于此,本发明了一种II型糖尿病因果特征选择方法,为糖尿病诊断与预防研究提供助力。
[0005] 此外,一方面由于对本领域技术人员的理解存在差异;另一方面由于申请人做出本发明时研究了大量文献和专利,但篇幅所限并未详细罗列所有的细节与内容,然而这绝非本发明不具备这些现有技术的特征,相反本发明已经具备现有技术的所有特征,而且申请人保留在背景技术中增加相关现有技术之权利。
具体实施方式
[0060] 为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。对于本领域的普通技术人员而言,可以具体情况理解术语在本发明中的具体含义。
[0061] 本实例提供一种II型糖尿病因果特征选择方法。为验证本发明的可行性和有效性,进行了三组实验,分别是预测模型对比实验、不同特征选择方法对比实验和实例实验,为减少随机性误差,模型训练重复次数为1000次,实验中涉及到的评价指标AUC、训练集精度、测试集精度、准确率、召回率、F1值和模型训练时间均为1000次的平均值。
[0062] 实验数据有3个:①样本量768的皮马人(PIMA)糖尿病数据集;②医学城医院实验室(LMCH)公布的伊拉克国民糖尿病数据集,样本量947;③National Health and Nutrition Examination Survey(NHANES)网站搜索合成的糖尿病数据集,样本量5087。
[0063] 其中,PIMA数据集包含怀孕次数、2小时葡萄糖浓度、舒张压、三头肌皮肤褶皱厚度、2小时胰岛素含量、身体质量指数、糖尿病血统函数、年龄8项变量;LMCH数据集包含性别、年龄、尿素、肌酐比值、糖化血红蛋白、胆固醇、甘油三酯、高密度脂蛋白、低密度脂蛋白、极低密度脂蛋白和身体指数11项变量;NHANES数据集包含性别、年龄、种族、教育水平、婚姻状况、能量、蛋白质、碳水化合物、脂肪、饱和脂肪酸、单不饱和脂肪酸、多不饱和脂肪酸、摄入胆固醇、膳食纤维、钙、磷、镁、铁、锌、铜、钠、钾、硒、咖啡因、可可碱、酒精、水分、脉搏、脉搏是否规律、收缩压、舒张压、体重、身高、BMI、臂围、腰围、白蛋白、肌酐、甘油三酯、低密度脂蛋白、胆固醇、高密度脂蛋白、糖化血红蛋白、空腹血糖、胰岛素、饮酒、吸烟、家中是否有人吸烟等48项变量。
[0064] (1)预测模型对比实验
[0065] 采用上述3个数据集在随机森林、逻辑回归、K近邻和决策树等4种典型糖尿病分类预测模型进行训练对比分析。
[0066] ①标准特征选择方法对比分析
[0067] 标准特征选择的预测模型精度对比如图4~7所示。四种模型在三个数据集上的精度保持在与原始特征相当的水准,AUC值同样没有下降。可见,标准特征选择不会降低预测模型的性能,并且由于AUC值没有下降,说明模型的适用性强。
[0068] 同时,由图4~7可知,经过特征选择之后的预测模型相比于原始数据预测模型,训练精度和测试精度有一定程度的提高,训练精度和测试精度之间的差值变小,AUC值也有所增加。这是因为特征选择之后,筛选了信息增益大、且相互联系小的特征,减少了特征间的相互干扰,降低了模型过拟合程度,提高了模型泛化能力。
[0069] 图8为各模型训练时间对比图。从图8可知,经过特征选择之后,各模型训练时间都相应减少,尤其随着样本量和特征维度的增大,训练时间的减少更加明显。但对不同预测模型,训练时间变化会有所不同,如随机森林方法可以并行计算、独特的样本抽样和特征选择方式,决定了它可以有效处理高维数据,其训练时间的减少不明显;其他三种分类算法的训练时间减小十分明显。
[0070] ②循环特征选择方法对比分析
[0071] 循环特征选择的预测模型精度对比如图9~12所示。从图9~12中可知,经过特征选择之后,预测模型在精度和AUC值方面也都没有降低。同样,在绝大多数情况下,训练精度、测试精度和AUC值都有一定程度的增加。所以,循环特征选择方法也具有减小模型过拟合程度、增加模型泛化能力的特点。
[0072] 各模型的训练时间对比如图13所示。由图13可知,三个数据集的训练时间都有所减少,效果和标准特征选择方法类似。在本文的实验中,PIMA和LMCH数据集在两种特征选择方法流程得到了相同特征,故不进行对比分析;对NHANES数据集,循环特征选择方法筛选得到的特征比标准特征选择方法多,所以训练时间的减少程度不如标准特征选择方法,如在决策树模型下,前者训练时间较少39%,后者训练时间减少49%。
[0073] (2)不同特征选择方法对比实验
[0074] 采用随机森林预测模型,对比本文方法与递归特征消除、mRMR、RRliefF、主成分分析等4种常见特征选择方法的性能;选用NHANES数据集。其中标准特征选择方法和循环特征选择方法筛选的特征数量分别为30和33,分别进行实验对比,实验结果如表1~2所示。
[0075] 由表1~2可知,相比其他四种特征选择方法,本文所提的两种特征选择流程都有精度上的优势。在表1中,标准特征选择方法在准确率上略低于mRMR和RReliefF方法,但是在召回率上优势明显,因为准确率和召回率相互影响,召回率上升可能会导致准确率下降,所以综合来看,标准特征选择方法具有最好的性能。在表2中,循环特征选择方法的准确率略低于递归特征消除、mRMR和RReliefF方法,同样在召回率优势明显,故循环特征选择方法具有最好的性能。可见,本文所提特征选择方法在算法性能指标和训练时间上都有明显的优势。
[0076] (3)实例实验
[0077] AdaBoost是一种高性能的糖尿病预测模型,通过Boosting技术的不断迭代,拥有令人满意的预测精度,但是缺点是模型的训练时间较长,故选择此模型作为调优模型,结合本文所提特征选择方法,进行实验分析。
[0078] 由图14~15可知,相较于原始AdaBoost模型,其过拟合程度和训练时间都明显减小,在PIMA和NHANES数据集下,AUC值都有所提高,特别在NHANES数据集下,训练时间减小更加明显;在LMCH数据集下,由于数据集的数据结构较为简单,模型精度方面没有提升,模型的过拟合现象得到了一定程度的降低。
[0079] 表1
[0080]
[0081] 表2
[0082]
[0083] 需要注意的是,上述具体实施例是示例性的,本领域技术人员可以在本发明公开内容的启发下想出各种解决方案,而这些解决方案也都属于本发明的公开范围并落入本发明的保护范围之内。本领域技术人员应该明白,本发明说明书及其附图均为说明性而并非构成对权利要求的限制。本发明的保护范围由权利要求及其等同物限定。本发明说明书包含多项发明构思,诸如“优选地”“根据一个优选实施方式”或“可选地”均表示相应段落公开了一个独立的构思,申请人保留根据每项发明构思提出分案申请的权利。在全文中,“优选地”所引导的特征仅为一种可选方式,不应理解为必须设置,故此申请人保留随时放弃或删除相关优选特征之权利。