首页 / 用于分类算法的预处理

用于分类算法的预处理失效专利 发明

技术领域

[0001] 本发明的不同示例通常涉及对由测量数据组描绘的至少一个特征进行分类。本发明的不同示例尤其涉及在将分类算法应用于预处理的测量数据组之前将预处理算法应用于测量数据组。在此描述了一种用于调整预处理算法的技术。

相关背景技术

[0002] P.Kadlec等人在Memetic Computing,第1卷,第4号,2009年9月29日,第241-269页,ISSN:1865-9284发表的“Architecture for development of adaptive on-line prediction models,用于开发自适应在线预测模型的架构”中描述了在线预测模型(Online-Vorhersagemodell)的架构。在此,预处理方法和学习方法被用于处理数据。
[0003] 人工智能可以实现对测量数据组中的特征的识别。例如,可以结合下面应用的一个或多个来使用相应的特征分类:分析医学数据;分析机器的运行数据;识别语音、图像或文字;分析工件和材料;等等
[0004] 在与特征分类有关的不同的情景下,期望对分类的质量进行优化。已知一种通过将预处理算法应用于相应的测量数据组来优化分类的质量的技术,参见欧洲专利申请17 179 817.6。
[0005] 然而,这种技术是相对静态的,并且通常可能难以合适地设置预处理算法。

具体实施方式

[0045] 结合下面结合附图详细解释的对实施例的描述可以更清楚且明晰地理解本发明的上面描述的特性、特征和优点以及实现它们的方式。
[0046] 下面参考附图根据优选的实施方式更详细地解释本发明。在附图中,相同的附图标记表示相同或相似的元件。附图是本发明的不同实施方式的示意性表达。附图中示出的元件不一定忠于比例地示出。而是以本领域技术人员能够理解其功能和通用用途的方式再现附图中所示的不同元件。附图中所示的、功能单元与元件之间的连接和耦合也可以被实现为间接的连接或耦合。连接或耦合可以以有线或无线的方式实现。功能单元可以被实现为硬件、软件或硬件与软件的组合。
[0047] 下面对技术进行描述,以便对由测量数据组描绘的一个或多个特征进行分类。为此,可以将一个或多个分类算法应用于本文描述的不同示例。在此,本文描述的技术不限于特定的分类算法;而是可以在不同示例中使用不同类型的分类算法。例如,可以使用KNN或CNN或SVM或PLS回归或PLSDA回归。
[0048] 本文描述的不同示例基于以下知识:通常会期望,在将相应的数据馈送到分类算法之前,通过应用预处理算法来处理测量数据组以获得预处理的测量数据组。在此,可以通过应用预处理算法(根据预处理算法和/或根据测量数据组)来实现不同的效果。例如,可以通过应用预处理算法来获得预处理的、具有减少的数据量的测量数据组。;由此可以实现,能够特别快速地并且能够以相对较小的计算资源负载执行分类算法的应用。在另外的示例中,替换地或附加地,可以通过应用预处理算法获得预处理的、具有改变的数据结构的测量数据组,改变的数据结构可以实现特别可靠地或准确地对相应的预处理的测量数据组中的特征进行分类。
[0049] 下面根据说明性的示例来描述所述情况。例如,在化学、食品化学或生物化学以及生物学和医学的许多领域中使用光谱方法,以确定或分类物质和/或系统状态。这种光谱方法通常基于:所采集的光谱被用作研究样本的原子/化学/分子组成的特征指纹以进行分析。为了能够将记录的谱用于分类,通常可能需要提供关于要区分的类别的典型特性的先验知识,也就是说,涉及相应的测量数据组的物理技术环境的先验知识。因此,例如通常在谱的预定范围内分析信号的峰值,以便分析氢含量或氧含量,从而分离出明显的测试样本。然而,如果要研究其原子/分子/生化特性未知或仅部分已知的物质,则通常不能使用这种技术。
[0050] 对此的一个示例是借助近红外范围内的光谱对肿瘤细胞进行分类。在这种情形下,作为分类算法例如可以使用学习技术,诸如KNN或线性回归、例如PLS回归。在此,将谱记录为大小为(1*n)的高维向量,其相应于分辨的波长包含大量单个特征。然而,在这种对谱的解释中通常会丢失信息,因为谱数据表示具有物理上建立的阶的值的一维序列。这意味着,谱的各个能量通道之间的相邻关系也包含关于分类的有效力的信息。在此,在许多参考实施中,通过分类算法在不考虑这种相邻关系的情况下对在不同通道中测量的值进行分析。但是,也可以借助合适的分类算法、例如借助KNN来考虑这种相邻关系。
[0051] 特别地,在考虑相邻关系的这种情形下可能期望,将预处理算法应用于相应的测量数据组以获得预处理的测量数据组。然而在此,预处理算法在这方面应考虑这种相邻关系,使得该相邻关系不会被预处理抑制或者以其他方式歪曲。
[0052] 在此可以想到不同的预处理算法。例如,预处理算法可以将以下运算中的至少一个应用于测量数据组:缩放、合并、微分和积分。还可以想到庞加莱截面。例如,通过预处理算法通常可以相对于测量数据组的数据量改变预处理的测量数据组的数据量;例如,尤其是可以减少测量数据组的数据量。通过减少预处理的测量数据组的数据量,通常可以加快分类算法的应用或者可以减少所需的计算资源。
[0053] 根据合并技术,确定测量数据组的多个数据点,这些数据点结合测量值部分被综合为预处理的测量数据组的组合的数据点。测量值部分能够作为测量数据组中的位置的函数进行变化。此外,在合并的框架中,必要时还可以合适地确定各个测量值部分的偏移量。
[0054] 例如,可以将测量数据组的一个或多个共轭的数据点综合到预处理的测量数据组的单个数据点或数字元组中。如果给具有低能量的数据点分配大多整数倍的输出能量作为谱谐波,即例如将0.5eV的数据点与数字元组中1ev、1.5eV和2eV的数据点组合,则共轭的数据点例如可能会存在于具有光谱的测量数据组中。
[0055] 替换地或附加地,这例如可以意味着,将测量数据组的冗余的数据点综合到预处理的测量数据组的数据点中。例如,当用于采集测量数据组的测量原理的物理技术分辨率低于测量数据组的数据结构的分辨率时,可能会存在冗余的数据点。
[0056] 由此可以看到,原则上可以结合预处理算法使用多种技术。因此,本文描述了如何为预处理算法确定一个或多个合适的运算和/或参数值。由此可以结合分类算法的应用实现特别好的结果,即例如在对至少一个特征进行分类时的高的准确性和/或所需的计算资源的显著减少和/或所需的测量数据组和用于训练分类算法的基本事实数据(ground truth date)的数量的显著减少。
[0057] 因此,借助本文描述的技术可以改善预处理算法。在一些示例中,这通过基于对一个或多个特征进行的分类的质量调整预处理算法来实现。特别地,在此,在一些示例中可以使用反馈回路,其中可以在反馈回路的范围中借助分类算法考虑对至少一个特征进行的分类的质量。可以关于多次迭代重复反馈循环,直到满足停止标准。
[0058] 例如,分类的质量可以描述对至少一个特征进行分类的准确性或可靠性。替换地或附加地,分类的质量还可以描述分类所需的持续时间或计算资源。
[0059] 例如,如果确定了高的分类的质量,则不能或仅能对预处理算法的至少一个参数的值进行轻微调整;然而,如果确定了相对较低的分类的质量,则可以对预处理算法的至少一个参数的值进行相对较大的调整,或者甚至可以改变所使用的预处理算法的运算。然后,例如可以考虑这种改变对分类的质量的影响。
[0060] 在此,在本文描述的不同的示例中可以使用不同的技术来确定分类的质量。例如,可以基于测量数据组的、不与由分类算法定义的类别相关联的一部分特征来确定质量。替换地或附加地,可以基于分类算法的分类结果的置信度来确定质量:例如,已知一种分类算法,其除了分类结果之外还提供分类可靠性。在此,高可靠性可能对应于高质量,反之亦然。在另外的示例中,作为之前描述的技术的替换或补充,在确定质量时可以考虑多个不同分类算法的分类结果之间的比较。在此,例如分类结果的高的分散可能意味着低的质量,反之亦然。这种比较尤其可以加权地进行,即,针对与不同的分类算法相关联的不同的分类结果可以考虑不同的权重。由此可以考虑,某些分类算法更好还是更坏地适合于对特定的特征进行分类。
[0061] 原则上,本文描述的技术例如可以在校准阶段中使用。因此,例如可以基于参考测量数据组调整不同的预处理算法的参数的值和/或选择合适的运算。在常规使用中,基于先验的未知的测量数据组由此可能已经存在规则组,以便依据相应的测量数据组选择合适的校准的预处理算法。
[0062] 图1示出了关于设备101的方面,该设备可以用于本文描述的不同技术。设备101包括接口103。通过接口103,例如可以从合适的测量装置获得测量数据组。设备101还包括处理器105和存储器106。例如,程序代码可以存储在存储器106中,并且由处理器105从存储器106加载。然后,处理器105可以执行程序代码。程序代码的执行可以导致处理器105执行如本文描述的技术,例如结合:将预处理算法应用于测量数据组;将分类算法应用于预处理的测量数据组以对至少一个特征进行分类;确定分类的质量;以及对预处理算法的一个或多个参数的值进行调整。
[0063] 图2是示例性方法的流程图。该方法例如可以由设备101的处理器105执行。借助图2的方法可以改善能够通过分类算法对测量数据组的一个或多个特征进行分类的质量。在此,可以使用不同分类算法,例如KNN或CNN或深度学习或SVM等。
[0064] 首先,在方框1001中获得测量数据组。例如可以借助合适的测量装置采集测量数据组。在此,可以考虑不同的测量数据组,例如光谱数据、医学成像方法的图像数据(例如计算机断层成像测量数据或者磁共振测量数据或者超声波测量数据)、(例如通过X射线检查或者表面分析获得的)材料检查测量数据等。
[0065] 然后在方框1002中将预处理算法应用于来自方框1001的测量数据组。
[0066] 在此,将特定的值用于预处理算法的参数。例如,在方框1002的第一迭代中,可以将预定义的标准值用于参数。
[0067] 此外,使用由预处理算法确定的至少一个特定的运算、例如标准运算。
[0068] 在此,如上所述,可以使用不同的预处理算法。例如,在某些示例中,可以确定测量数据组的物理技术环境,然后基于所确定的物理技术环境从多个候选运算中选择预处理算法的运算。
[0069] 例如,物理技术环境可以描述由测量数据组描绘的物理观测量、测量原理、测量分辨率、多个数据点、测量持续时间等。因此,物理技术环境可以包含关于测量数据组的元信息。
[0070] 参照图3和图4:在那里示出了关于方框1002中的预处理算法的应用的方面。例如,图3示出了测量数据组201:在此,由测量数据组201描述在特定位置211具有特定值212的数据点。以局部峰的形式描绘了两个特征277、278。
[0071] 此外,测量数据组201还与控制数据215相关联。例如,控制数据215可以描述测量数据组的物理技术环境。例如,控制数据215可以描述关于所使用的测量装置、所观察的物理观测量、测量持续时间、测量分辨率、测量范围等的信息。控制数据215并不是在所有的示例中都是必需。
[0072] 然后,在图4中示出了预处理的测量数据221,如其通过将预处理算法应用于测量数据201获得的那样。在图4的示例中,预处理算法与合并技术相关联:这意味着,根据预处理算法的相应的汇集参数将测量数据的相邻的数据点综合为平均值。这种综合的数据点也可以被称为共轭数据点。通过合并,预处理的测量数据组221具有相对于测量数据组201减少的数据量。
[0073] 然后,预处理的测量数据组的大小大约变小了一个因数,该因数在数值上对应于合并的汇集参数。此外,针对固定的汇集参数也可以产生实质上不同的多个预处理的测量数据组,这些预处理的测量数据组的区别在于,从测量数据组的哪个初始数据点出发开始综合相邻数据点直到汇集参数的值。这意味着,尽管不同的预处理的测量数据组相对于测量数据组可以具有相同的减小的大小,但却综合了不同的相邻数据点。数据点的这种综合可以通过另外的参数描述,该另外的参数确定起始值。以这种方式,预处理的测量数据组中的一个的数据量的大小减少了由固定的汇集参数确定的因数;尽管如此,仍然可以在例如1002的不同的迭代中产生多个不同的预处理的测量数据组。这通过更改由起始值确定的测量数据组的初始数据点来实现,从该初始数据点出发分别根据汇集参数进行汇集。因此,不同的预处理的测量数据组的数量等于汇集参数的大小减一。然后可以将这些不同的预处理的测量数据组馈送给一个或多个分类算法。
[0074] 在一个示例中,预处理的测量数据组的数据量还可以相对于测量数据组的数据量增加。因此,可以以增加的第一数据点的起始值将不同的预处理的测量数据组逐行地布置到数组中,以使用具有汇集参数的合并运算。由此,除了用于数据行的分析技术之外,还可以利用图像处理技术来进行用于确定预处理算法的优化参数的进一步处理。通常,预处理的测量数据组的维度因此也可以相对于测量数据组增加,这为分析提供了新的可能性。所描述的布置到数组中还再次表示数据的有序关联,从而不会丢失相邻关系。在此,由于这是一种表示形式,因此原则上也可以以其他方式、例如通过构建数字元组等来确保该关联。
[0075] 除了这种合并运算之外,替换地或附加地,通过预处理算法还可以描述一个或多个另外的运算,例如缩放、微分和积分。
[0076] 再次参照图2:然后在方框1003中将分类算法应用于预处理的测量数据组221。分类算法可以包括例如KNN、即例如CNN。通过应用分类算法,对由测量数据组或由预处理的测量数据组描绘的至少一个特征进行分类。对至少一个特征进行分类可以意味着,识别至少一个特征277、278(例如,具有关联的位置211),并且将至少一个特征与特定的分类组相关联。例如,结合上面所讨论的涉及分析光谱测量数据的应用,可以识别由测量数据描绘的样本是否包含特定的物质;不同的物质可以在光谱测量数据中引起不同的特征指纹,这些特征指纹可以作为特征进行识别。
[0077] 然后在方框1004中确定对至少一个特征进行的分类的质量。这例如可以意味着,确定了,何种准确或可靠或快速地在方框1003中通过应用分类算法来识别至少一个特征。
[0078] 在此,可以使用不同的技术来确定质量。在一个示例中,可以基于来自方框1003的分类的置信度来确定质量。在另外的示例中,可以考虑在确定质量时对多个分类算法的分类结果的比较:在一些示例中,在方框1003中不仅可以应用单个分类算法,而且还可以应用多个不同的分类算法。例如,可以应用不同的KNN、即例如不同训练的KNN。然后可以通过不同的分类算法来识别至少一个特征。然后可以通过比较分类结果来确定质量。
[0079] 例如,可以以加权的方式将分类结果相互比较,从而结合质量的确定,相比于第二分类算法更强烈地考虑第一分类算法。在此,可以基于相应分类结果的特性确定这种权重;例如可以依据测量数据组的物理技术环境预先给定权重。
[0080] 然后在方框1005中检查是否满足停止标准。例如,可以检查,在方框1004中确定的质量、例如质量的绝对值是否超过特定的阈值。替换地或附加地,还可以考虑方框1004的迭代的次数,或者方框1004的两次迭代之间的质量变化。
[0081] 如果满足方框1005中的停止标准,则可以存储所找到的预处理算法的参数的值和/或从方框1002的最后的迭代中找到的一个或多个运算并且在将来使用;为此,例如可以将与物理技术环境的关联与预处理算法的配置一起存储。然后,例如可以结束校准阶段。可选地,可以对来自另外的测量的另外的测量数据组进行分析和分类(在图2中未示出)。
[0082] 否则,在方框1006中对预处理算法的参数的值和/或一个或多个运算进行调整,并且执行方框1002-1005的新迭代。由此可以看到,在迭代循环中重复进行方框1002中预处理算法的应用、方框1003中分类算法的应用、方框1004中质量的确定以及方框1006中对预处理算法的调整。
[0083] 在本文描述的不同示例中,还可以调整预处理算法的一个以上参数的值。还可以对与预处理算法相关联的一个或多个运算进行调整或更换。
[0084] 还可以想到不同的技术,以在方框1006中调整预处理算法的参数的值。例如,可以存在预定义的列表,其以预定义的顺序具有预处理算法的参数的可能的候选值,在由方框1002-1006构成的迭代循环的范围内以该预定义的顺序处理这些可能的候选值。在其他示例中,还可以随机或准随机地改变参数的值。
[0085] 通常,调整预处理算法的至少一个参数的值可以包括应用选择算法。选择算法可以依据来自方框1004的相应迭代的当前的质量描述值的变化。例如,如果当前的质量相对低,则可以对值进行较大变化。例如,如果方框1004的之前两次迭代之间的质量的变化相对低,则可以对值进行较大变化。
[0086] 例如,选择算法可以包括通过关于循环的多次迭代改变至少一个参数的值来优化质量。已知不同的优化,例如高斯牛顿法、梯度法、遗传算法等。这种优化可以实现有效地遍历参数的值的可用空间,从而可以迅速地找到对应于质量的最大值的参数值。在此,优化尤其可以描述在方框1006中对循环的两次迭代之间的值的调整。因此,优化可以确定选择算法。
[0087] 例如,可以在优化的范围内检查,循环的两次连续迭代之间的质量是否发生了显著变化。如果质量没有显著改变,则例如可以撤销或再次去掉方框1006的先前迭代中对值进行的最后调整。可以将参数的相关的值标记为不合适。
[0088] 从图2的示例中可以看到,可以自学习地通过来自分类结果的反馈,例如借助优化来找到预处理算法的参数的值。
[0089] 这种技术可以进行变化和扩展。例如,在不同的示例中不仅可以确定预处理算法的单个参数的值,而且可以确定预处理算法的多个参数的值。例如结合图5对此进行说明,在那里参数451和452的值通过相应参数空间400的螺旋形采样发生变化。此外,在一些示例中还可以超出改变给定的预处理算法的参数的值地调整预处理算法所使用的运算。例如可以通过调整预处理算法来调整测量数据组的预处理的类型。例如可以在方框1002-1006的循环的不同迭代中,在由预处理算法定义的不同运算之间进行切换,即例如在缩放、合并、微分和积分之间进行切换。可以针对不同的迭代通过合适地设计相应参数的大小来调整预处理的测量数据组与初始的测量数据组之间的数据点的数量减少的幅度。
[0090] 在另外的示例中,结合图2描述的技术可以与自学习的(另外的)分类算法结合;该分类算法可以应用于测量数据组,然后基于相应的分类结果选择合适的预处理算法。由此,例如可以利用自适应或自学习的KNN从可能的数据准备和/或数据处理的列表中进行选择。
[0091] 概括地说,之前描述了一种能够优化所使用的预处理算法的技术。例如,可以通过优化预处理算法将要结合分类考虑的数据量最小化。通过优化的数据量还可以将计算开销或计算时间最小化。由此可以借助分类算法实现对特征进行更快地分类。预处理算法的优化还可能涉及分类算法的准确性;由此可以实现特别准确的分类。通常,由此可以依据所使用的预处理算法来测量对特征进行的分类的质量。
[0092] 当然,可以将之前描述的本发明的实施方式和方面的特征相互组合。特别地,这些特征不仅可以以所描述的组合使用,而且还可以以其他组合或单独地使用,而不脱离本发明的领域。
[0093] 为了进行说明,例如之前描述了不同的技术,在这些技术中预处理算法引起预处理的测量数据组的数据量相比于测量数据组减少。但是,在另外示例中,预处理的测量数据组的数据量还可以相对于测量数据组增加,例如通过合并运算在用于汇集相邻的数据点的不同的起始值的情况下考虑这一点。

当前第1页 第1页 第2页 第3页
相关技术
用于分类相关技术
算法预处理相关技术
T.恩格尔发明人的其他相关专利技术