技术领域
[0001] 本说明书实施例涉及计算机技术领域,特别涉及一种图像分类模型处理方法。
相关背景技术
[0002] 早期皮肤病变的精准确定可以显著提高黑色素瘤等恶性肿瘤患者的生存率,对于预防皮肤肿瘤至关重要,皮肤肿瘤的精准识别对于有经验的专家来说,仍然是一项具有挑战性的任务。
[0003] 目前,皮肤科专家通常通过肉眼观察、分析皮肤镜图像等进行对皮肤病变情况进行判断,识别准确性差且效率低;并且在大多数研究中,仅基于成像数据往往是不可靠的,患者的非影像数据,例如皮损的发展进程、日晒时间长等属性信息在很大程度上也会影响着对皮肤中黑色素瘤的识别。
具体实施方式
[0051] 在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本说明书内涵的情况下做类似推广,因此本说明书不受下面公开的具体实施的限制。
[0052] 在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0053] 应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
[0054] 首先,对本说明书一个或多个实施例涉及的名词术语进行解释。
[0055] 多模态数据:本说明书实施例中,多模态数据可以理解为临床模态图像、皮肤镜模态图像以及病史文本信息等。
[0056] Transformer模型,一种基于self‑attention机制的深度学习网络,一般经常被应用于自然语言处理和计算机视觉任务。
[0057] swin transformer:基于Transformer的深度学习模型,提出了一种带移动窗口的自注意力模型。通过串联窗口自注意力运算(W‑MSA)以及滑动窗口自注意力运算(SW‑MSA),使得swin transformer在获得近乎全局注意力能力的同时,又将计算量从图像大小的平方关系降为线性关系,大大地减少了运算量,提高了模型推理速度。
[0058] CMF算法:Cross Modality Fusion算法,多模态融合算法。
[0059] MD5:英文全称为Message‑Digest Algorithm 5,中文全称为信息‑摘要算法5,又称哈希算法;通过一个函数,把任意长度的数据转换为一个长度固定的数据串,通过MD5算法进行加密,文件就可以获得一个唯一的MD5值。本说明书实施例中,可以通过计算图片的MD5值来进行去重,若几张图片完全相同,则其MD5值也完全相同。
[0060] 本说明书实施例提供的图像分类模型处理方法,可以应用在针对人体皮损部位分类的识别场景,也可以应用在其他个体(如动物等)的皮损分类识别场景中,又或者可以应用于其他区别于皮损识别场景中,如工业视觉领域的可适用识别场景中;具体应用的识别场景不同,图像分类模型中采用的处理数据也不同;为了便于理解,本说明书实施例中,均以该图像分类模型处理方法应用在针对人体皮损部位分类的识别场景为例进行详细说明。
[0061] 在本说明书中,提供了一种图像分类模型处理方法。本说明书一个或者多个实施例同时涉及一种图像分类模型处理方法。本说明书一个或者多个实施例同时涉及一种图像分类模型处理装置,一种皮肤病图像的图像分类模型处理方法及装置,一种目标对象分类方法及装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,在下面的实施例中逐一进行详细说明。
[0062] 参见图1,图1示出了根据本说明书一个实施例提供的一种目标对象分类方法应用于人体皮损部位分类的具体场景示意图。
[0063] 图1中包括终端102以及服务器104,其中,终端102可以理解为内嵌有拍摄设备的终端,例如内嵌有摄像头的手机或者平板电脑等。
[0064] 具体实施时,用户通过终端102将待识别的人体皮损部位的临床图片、皮肤镜图片以及病史信息发送至服务器104;其中,用户可以理解为医生或者其他皮肤研究人员等;临床图片可以理解为用户通过终端102内嵌的拍摄设备对待识别的人体皮损部位拍摄的图片,也可以理解为用户从其他渠道采集的、待识别的人体皮损部位的图片。
[0065] 服务器104将该待识别的人体皮损部位的临床图片、皮肤镜图片以及病史信息输入预先训练好的图像分类模型,输出该待识别的人体皮损部位对应的分类结果(例如该皮损部位的皮损结果为黑色素瘤、皮肤纤维瘤、色素痣、日光性角化等),并将该分类结果返回至终端102,通过终端102将该分类结果展示给用户;其中,图像分类模型可以理解为根据历史的皮肤病患者的临床图片、皮肤镜图片以及病史信息作为训练数据,训练获得的图像分类模型。
[0066] 实际应用中,由于该图像分类模型是由历史的皮肤病患者的临床图片、皮肤镜图片以及病史信息等多模态训练数据进行训练获得的,所以在后期应用时,可以仅输入一种模态的数据即可获得对应的分类结果,例如仅输入待识别的人体皮损部位的临床图片、皮肤镜图片个/或病史信息,该图像分类模型也可以输出该待识别的人体皮损部位的分类结果。
[0067] 本说明书实施例提供的目标对象分类方法应用于人体皮损部位分类的具体场景中,通过预先训练的图像分类模型,可以快速且准确的获得待识别的人体皮损部位的分类结果。
[0068] 参见图2,图2示出了根据本说明书一个实施例提供的一种图像分类模型处理方法的流程图,具体包括以下步骤。
[0069] 步骤202:获取初始对象的图片类型和/或文本类型的样本数据、以及所述初始对象对应的目标分类结果。
[0070] 具体的,图像分类模型处理方法的具体应用场景不同,对象也不同;例如,若图像分类模型处理方法应用于人体皮损部位的分类场景中,对象则可以理解为人体皮损部位(如历史的皮肤患者的皮肤);若图像分类模型处理方法应用于动物皮肤病的分类场景中,对象则可以理解为动物皮肤等。
[0071] 为了便于理解,以下实施例均以图像分类模型处理方法应用于人体皮损部位的分类场景中,对象理解为人体皮损部位为例,对图像分类模型处理方法的具体实现进行详细说明。
[0072] 以对象为人体皮损部位为例,初始对象的图片类型的样本数据,可以理解为从历史的皮肤患者中获取的人体皮损部位的临床图片、皮肤镜图片等;初始对象的文本类型的样本数据,可以理解为从历史的皮肤患者中获取的人体皮损部位的病例信息等;而每个初始对象对应的目标分类结果,可以理解为每位皮肤患者的人体皮损部位的病理分类结果,例如目标分类结果为黑色素瘤、皮肤纤维瘤、色素痣、日光性角化等。
[0073] 而该图像分类模型处理方法,可以理解为图像分类模型训练方法,那么在该图像分类模型处理方法应用于人体皮损部位的分类场景中,通过获取皮肤患者的多模态的样本数据,对图像分类模型进行训练时,可以采用任意一种图片类型、结合文本类型的样本数据对图像分类模型进行训练,而为了提高图像分类模型的训练准确性,本说明书实施例中,采用至少两种图片类型的样本数据结合文本类型的样本数据,通过此种较全面的多模态样本数据,使得训练获得的图像分类模型可以达到更高的精度。
[0074] 即获取初始对象的图片类型和/或文本类型的样本数据、以及所述初始对象对应的目标分类结果;可以理解为,获取初始对象的至少两种图片类型和/或文本类型的样本数据、以及所述初始对象对应的目标分类结果,其中,文本类型可以为一种或者两种等。同时,将该图像分类模型处理方法应用于人体皮损部位的分类场景中的情况下,该至少两种图片类型的样本数据可以理解为临床图片以及皮肤镜图片,文本类型的样本数据可以理解为病史信息。
[0075] 实际应用中,为了提高图像分类模型的后续使用准确性,对图像分类模型训练时,会采用大量的训练样本数据对其进行预先训练,那么在图像分类模型训练前,则会获取多个初始对象中每个初始对象的图片类型和/或文本类型的样本数据,以及每个初始对象对应的目标分类结果;如获取多个历史的皮肤患者的临床图片、皮肤镜图片和/或病史信息等样本数据,以及每个皮肤患者的皮肤病理结果(黑色素瘤、皮肤纤维瘤、色素痣、日光性角化等)。
[0076] 此外,为了保证训练样本的质量,本说明书实施例中,在获取初始对象的图片类型和/或文本类型的样本数据之后,会对每个初始对象的图片类型和/或文本类型的样本数据进行数据预处理。具体实现方式如下所述:
[0077] 所述获取初始对象的图片类型和/或文本类型的样本数据之后,还包括:
[0078] 对所述初始对象的图片类型和/或文本类型的样本数据进行数据清洗。
[0079] 其中,对图片类型的样本数据的数据清洗可以理解为删除拍摄模糊、术后的皮损临床图片、利用MD5算法对所有图片去重等,对文本类型数据的数据清洗可以理解为结构化病史信息数据等。
[0080] 步骤204:从所述初始对象中确定待处理对象。
[0081] 其中,所述待处理对象为所述初始对象中仅包括图片类型或文本类型的样本数据的对象。
[0082] 而在图片类型为至少两种或者文本类型为至少两种的情况下,该待处理对象则可以理解为缺少任意一种图片类型或者任意一种文本类型的样本数据的初始对象。
[0083] 在具体实施时,并非每个初始对象均包含图片类型以及文本类型的样本数据,若仅采用包含图片类型和文本类型的样本数据的初始对象进行图像分类模型训练,势必会造成样本数据量的减少,而在样本数据的数量不足的情况下,训练获得的图像分类模型的分类精度也必然会有所损失。
[0084] 因此,为了避免由于某些初始对象的样本数据的模态缺失的情况下,造成的图像分类模型的样本数量较少的问题,在进行训练样本(初始对象的样本数据)获取时,不仅会获取包括图片类型和文本类型的样本数据的初始对象,也会获取仅包含图片类型或文本类型的样本数据等单模态数据的初始对象,又或者仅包含一种图片类型或一种文本类型的样本数据的初始对象;然后再从初始对象中筛选出仅包含图片类型或文本类型的样本数据的初始对象、以及仅包含一种图片类型或一种文本类型的样本数据的初始对象作为待处理对象,后续对这些待处理对象的图片类型或文本类型的样本数据进行处理,以补齐和/或扩增训练样本。
[0085] 例如获取100个初始对象,其中,存在30个初始对象中缺少任意模态(某一种图片类型或某一种文本类型)的样本数据,那么这30个初始对象则为待处理对象。
[0086] 步骤206:根据预设采样策略,对所述待处理对象的图片类型或文本类型的样本数据进行数据处理,获得所述待处理对象至少一组包括图片类型和文本类型的样本数据。
[0087] 其中,预设采样策略可以理解为类间随机配对采样策略,即根据初始对象对应的目标分类结果,通过分类的方式,对待处理对象中缺失模态的样本数据进行补齐。而这里的补齐可以理解为补全、或补全以及扩增。
[0088] 具体实施时,在确定出缺失模态的样本数据的待处理对象之后,为了保证图像分类模型的多模态样本训练,可以根据类间随机配对采样策略,对待处理对象中任意缺失模型的样本数据进行补齐,以保证图像分类模型的训练精度。具体实现方式如下所述:
[0089] 所述根据预设采样策略,对所述待处理对象的图片类型或文本类型的样本数据进行数据处理,获得所述待处理对象至少一组包括图片类型和文本类型的样本数据,包括:
[0090] 根据类间随机配对采样策略,对仅包括图片类型或者文本类型的样本数据的待处理对象,进行文本类型或者图片类型的样本数据补齐,获得所述待处理对象至少一组包括图片类型和文本类型的样本数据。
[0091] 其中,仅包括图片类型或者文本类型的样本数据的待处理对象,则可以理解为缺失任意一种图片类型或者文本类型的样本数据的待处理对象。例如,其他对象的多模态的样本数据为<临床图片、皮肤镜图片、病史信息>;那么待处理对象则可以理解为缺失临床图片、皮肤镜图片、病史信息中任意一种模态的对象。
[0092] 具体的,在确定待处理对象之后,根据类间随机配对策略,对缺失任意一种图片类型的样本数据的待处理对象进行图片类型的样本数据的补齐,对缺失任意一种文本类型的样本数据的待处理对象进行文本类型的样本数据的补齐,又或者对缺失任意一种图片类型和文本类型的样本数据的待处理对象进行两种模态的样本数据的补齐;从而获得待处理对象至少一组包括图片类型和文本类型的样本数据。具体实现方式如下所述:
[0093] 所述根据类间随机配对采样策略,对仅包括图片类型或者文本类型的样本数据的待处理对象,进行文本类型或者图片类型的样本数据补齐,获得所述待处理对象至少一组包括图片类型和文本类型的样本数据,包括:
[0094] 根据类间随机配对采样策略,对仅包括图片类型的样本数据的待处理对象,进行文本类型的样本数据补齐,获得所述待处理对象至少一组包括图片类型和文本类型的样本数据;以及
[0095] 根据所述类间随机配对采样策略,对仅包括文本类型的样本数据的待处理对象,进行图片类型的样本数据补齐,获得所述待处理对象至少一组包括图片类型和文本类型的样本数据。
[0096] 即根据类间随机配对采样策略,对缺少图片类型的样本数据的待处理对象,进行图片类型的样本数据的补齐;对缺少文本类型的样本数据的待处理对象,进行文本类型的样本数据的补齐;对即缺少某种图片类型的、又缺少某种文本类型的样本数据的待处理对象,进行图片类型以及文本类型的样本数据的补齐;从而使得每个待处理对象与其他对象相同,均包括完整的图片类型和文本类型的多模态的样本数据;进而保证后续训练的图像分类模型的训练精度。
[0097] 沿用上例,采用上述方式,使得待处理对象的多模态的样本数据也均包括<临床图片、皮肤镜图片、病史信息>。
[0098] 具体实施时,类间随机配对采样策略,可以理解为,根据初始对象对应的目标分类结果,通过分类的方式,对待处理对象中缺失模态的样本数据进行补齐。通过此种方式,即可以补齐待处理对象中缺失模态的样本数据,同时又可以增加样本量,从而进一步的提高图像分类模型的训练效果。具体实现方式如下所述:
[0099] 所述根据类间随机配对采样策略,对仅包括图片类型或者文本类型的样本数据的待处理对象,进行文本类型或者图片类型的样本数据补齐,获得所述待处理对象至少一组包括图片类型和文本类型的样本数据,包括:
[0100] 根据所述初始对象对应的目标分类结果,对所述待处理对象以及所述其他对象进行分类;
[0101] 从类别相同的待处理对象中依次确定一个目标待处理对象,根据类别相同的其他对象的图片类型和文本类型的样本数据、以及其他待处理对象的图片类型或文本类型的样本数据,对所述目标待处理对象进行文本类型或者图片类型的样本数据补齐,获得所述目标待处理对象至少一组包括图片类型和文本类型的样本数据。
[0102] 其中,所述其他待处理对象为类别相同的所有待处理对象中,除所述目标待处理对象之外的待处理对象。
[0103] 实际应用中,初始对象不同,初始对象对应的目标分类结果也不相同;沿用上例,对象为人体皮损部位的情况下,初始对象对应的目标分类结果则可以理解为皮肤疾病的名称,如黑色素瘤、皮肤纤维瘤、色素痣、日光性角化等。
[0104] 具体的,首先根据每个初始对象对应的目标分类结果,对待处理对象以及其他对象进行分类,如将黑色素瘤的待处理对象和其他对象分为一类,将皮肤纤维瘤的待处理对象和其他对象分为一类等;再从类别相同的待处理对象中依次确定一个目标待处理对象,如从黑色素瘤类别的待处理对象中依次选择一个待处理对象作为目标待处理对象;根据类别相同的其他对象的图片类型和文本类型的样本数据、以及其他待处理对象的图片类型或文本类型的样本数据,如从黑色素瘤类别的对象中,确定其他对象的图片类型和文本类型的样本数据、以及除当前选择的这个目标待处理对象之外的其他待处理对象的图片类型和文本类型的样本数据;对目标待处理对象进行文本类型或者图片类型的样本数据补齐,即根据上述选择的其他对象的图片类型和文本类型的样本数据、以及除当前选择的这个待处理对象之外的其他待处理对象的图片类型和文本类型的样本数据,对当前选择的目标待处理对象进行文本类型或者图片类型的样本数据补齐;最后获得目标待处理对象至少一组包括图片类型和文本类型的样本数据。
[0105] 本说明书实施例中,图片类型包括第一图片类型和第二图片类型,那么在待处理对象缺少任意中图片类型的样本数据,或者缺少文本类型的样本数据的情况下,均需要对其进行补齐,以保证训练样本的数量,提高图像分类模型的训练效果。具体实现方式如下所述:
[0106] 所述图片类型包括第一图片类型和第二图片类型;
[0107] 相应地,所述从类别相同的待处理对象中依次确定一个目标待处理对象,根据类别相同的其他对象的图片类型和文本类型的样本数据、以及其他待处理对象的图片类型或文本类型的样本数据,对所述目标待处理对象进行文本类型或者图片类型的样本数据补齐,获得所述目标待处理对象至少一组包括图片类型和文本类型的样本数据,包括:
[0108] 从类别相同的待处理对象中依次确定一个目标待处理对象;
[0109] 在确定所述目标待处理对象仅包括第一图片类型的样本数据的情况下,根据类别相同的其他对象的第二图片类型和文本类型的样本数据、以及其他待处理对象的第二图片类型和/或文本类型的样本数据,对所述目标待处理对象进行第二图片类型以及文本类型的样本数据补齐,获得所述目标待处理对象至少一组包括第一图片类型、第二图片类型和文本类型的样本数据;
[0110] 在确定所述目标待处理对象仅包括第二图片类型的样本数据的情况下,根据类别相同的其他对象的第一图片类型和文本类型的样本数据、以及其他待处理对象的第一图片类型和/或文本类型的样本数据,对所述目标待处理对象进行第一图片类型以及文本类型的样本数据补齐,获得所述目标待处理对象至少一组包括第一图片类型、第二图片类型和文本类型的样本数据;或者
[0111] 在确定所述目标待处理对象仅包括文本类型的样本数据的情况下,根据类别相同的其他对象的第一图片类型和第二图片类型的样本数据、以及其他待处理对象的第一图片类型和/或第二图片类型的样本数据,对所述目标待处理对象进行第一图片类型以及第二图片类型的样本数据补齐,获得所述目标待处理对象至少一组包括第一图片类型、第二图片类型和文本类型的样本数据。
[0112] 沿用上例,仍以黑色素瘤类别的待处理对象为例,先从黑色素瘤类别的待处理对象中选取一个待处理对象作为目标待处理对象;若该目标待处理对象仅包括第一图片类型的样本数据的情况下,则说明该目标待处理对象缺失第二图片类型的样本数据以及文本类型的样本数据,此时则可以根据该黑色素瘤类别下的其他对象的第二图片类型的样本数据以及文本类型的样本数据、以及该类别下除目标待处理对象之外的其他待处理对象的第二图片类型的样本数据和/或文本类型的样本数据对其进行补齐,以确定该目标待处理对象包括至少一组包含有第一图片类型、第二图片类型和文本类型的样本数据。其中,对确实第一图片类型的样本数据的目标待处理对象的模态补齐,可以理解为从其他对象的第二图片类型的样本数据以及文本类型的样本数据、以及该类别下除目标待处理对象之外的其他待处理对象的第二图片类型的样本数据和/或文本类型的样本数据中,随机选取至少一组第二图片类型的样本数据以及文本类型的样本数据,作为目标待处理对象的第二图片类型的样本数据以及文本类型的样本数据对其进行补充。而实际应用中,为了扩增样本量,进一步的提高图像分类模型的训练效果,在对目标待处理对象缺失模态的样本数据进行补充的基础上,还会扩增其样本数量;即可以使得目标待处理对象的第一图片类型的样本数据,与任意选取的多个第二图片类型的样本数据和文本类型的样本数据进行结合,获得该目标待处理对象的多组包含有第一图片类型、第二图片类型和文本类型的样本数据。
[0113] 同理,在目标待处理对象仅包括第二图片类型或者文本类型的样本数据时,对目标待处理对象的缺失模态的样本数据的补齐方式,与上述目标待处理对象仅包括第一图片类型的样本数据时,对目标待处理对象的缺失模态的样本数据的补齐方式相同,在此不再赘述。
[0114] 具体的,以该图像分类模型处理方法应用于人体皮损部位分类的场景中为例,对为了解决多模态数据中常见的模态缺失问题,提供的类间随机配对采样策略的数据增强方法进行详细介绍。
[0115] 首先,定义训练数据为S,样本总量为I,即S={si|i∈{1,...,I}},Ck,Dk,Mk分别代表疾病K(即目标分类结果)对应的患者皮肤的临床图片、皮肤镜图片、病史信息三个模态数据。图像分类模型训练过程中实施类间随机配对的采样策略,对于某一训练样本si={ci,di,mi},ci,di,mi分别代表这一训练样本中的临床图片、皮肤镜图片、病史信息三个模态数据,在图像分类模型训练时,若缺失ci,则ci可以从K类别的所有其他临床图片Ck中随机取样,即 同样,di从Dk中随机取样mi从Mk中随机取样 通
过以上数据增强手段,类间随机配对采样策略能够融合同一疾病中来自不同患者的多模态数据,提高图像分类模型的泛化性能。
[0116] 实际应用中,由于图像分类模型是多次迭代训练获得的,为了提高图像分类模型的训练效率,若每次迭代的时候均采样上述方式对训练样本进行补齐以及扩充,则会降低图像分类模型的训练速度,因此可以设置一个开关,在某次图像分类模型训练时可以不采用上述方式对训练样本进行补齐以及扩充,而在其他次图像分类模型训练时采用上述方式对训练样本进行补齐以及扩充,以提高图像分类模型的训练效率。例如可以设置概率阈值Tp,若图像分类模型的概率p>Tp,p∈[0,1]的情况下,则可以采用该类间随机配对方法进行数据增强,补齐以及扩种训练样本数量;反之,则不采用该类间随机配对方法进行数据增强,补齐以及扩种训练样本数量。
[0117] 步骤208:根据所述待处理对象、其他对象的图片类型和文本类型的样本数据,以及所述待处理对象、所述其他对象对应的目标分类结果,对图像分类模型进行处理,获得所述图像分类模型。
[0118] 其中,所述其他对象为所述初始对象中除所述待处理对象之外的其他初始对象,所述图像分类模型为机器学习模型。
[0119] 具体的,在待处理对象以及其他对象均完整的包括了每种模态的样本数据的情况下,则可以根据待处理对象以及其他对象的图片类型和文本类型的样本数据,待处理对象以及其他样本对象对应的目标分类结果,对图像分类模型进行训练,以获得精度较高的图像分类模型。其中,在图片类型包括第一图片类型和第二图片类型的情况下,根据所述待处理对象、其他对象的图片类型和文本类型的样本数据,以及所述待处理对象、所述其他对象对应的目标分类结果,对图像分类模型进行处理,获得所述图像分类模型;则可以理解为根据待处理对象的第一图片类型、第二图片类型和文本类型的样本数据、其他对象的第一图片类型、第二图片类型和文本类型的样本数据、待处理对象对应的目标分类结果、其他对象对应的目标分类结果,对图像分类模型进行处理,所述图像分类模型。
[0120] 具体的,所述根据所述待处理对象、其他对象的图片类型和文本类型的样本数据,以及所述待处理对象、所述其他对象对应的目标分类结果,对图像分类模型进行处理,获得所述图像分类模型,包括:
[0121] 根据所述待处理对象以及所述其他对象确定目标对象;
[0122] 根据所述待处理对象的图片类型和文本类型的样本数据、以及所述其他对象的图片类型和文本类型的样本数据,确定所述目标对象的图片类型和文本类型的样本数据;
[0123] 根据所述待处理对象对应的目标分类结果、以及所述其他对象对应的目标分类结果,确定所述目标对象对应的目标分类结果;
[0124] 获取所述目标对象的图片类型和文本类型的样本数据的图像特征编码向量、以及文字特征编码向量;
[0125] 根据所述图像特征编码向量、所述文字特征编码向量以及所述目标对象对应的目标分类结果,对图像分类模型进行处理,获得所述图像分类模型。
[0126] 具体实施时,将待处理对象以及其他对象作为目标对象,根据待处理对象以及其他对象的图片类型和文本类型的样本数据,待处理对象以及其他对象对应的目标分类结果,确定目标对象的图片类型和文本类型的样本数据、以及目标对象对应的目标分类结果;再获取目标对象的图片类型的样本数据的图像特征编码向量(如第一图片类型的样本数据的图片特征编码向量以及第二图片类型的样本数据的图片特征编码向量)、以及文本类型的样本数据的文本特征编码向量;最后根据目标对象的图像特征编码向量、文本特征编码向量以及目标对象对应的目标分类结果,通过此种多模态数据对图像分类模型进行处理(如模型训练),获得训练后的图像分类模型,提高图像分类模型的训练精度。
[0127] 实际应用中,为了提高图像分类模型训练过程中,图像分类模型的训练精度,本说明书实施例通过融合不同类型的样本数据的全局特征和局部特征,应用在图像分类模型训练中;因此,在获得目标对象的样本数据的特征编码向量的过程中,会对其图片类型的样本数据的局部图像特征编码向量以及全局图像特征编码向量进行提取,对其文本类型的样本数据的初始文本特征编码向量以及全局文本特征编码向量进行提取。具体实现方式如下所述:
[0128] 所述获取所述目标对象的图片类型和文本类型的样本数据的图像特征编码向量、以及文字特征编码向量,包括:
[0129] 将所述目标对象的图片类型的样本数据,通过图像分类模型的图像特征提取网络,获得所述图片类型的样本数据的局部图像特征编码向量、全局图像特征编码向量;
[0130] 将所述目标对象的文本类型的样本数据,通过所述图像分类模型的文本特征提取网络,获得所述文本类型的样本数据的文字特征编码向量。
[0131] 其中,图像分类模型的图像特征提取网络可以采用swin transformer‑base原始框架作为图像特征提取器。
[0132] 沿用上例,在图片类型的样本数据包括临床图片以及皮肤镜图片,文本类型的样本数据包括病史信息的情况下,将所述目标对象的图片类型的样本数据,通过图像分类模型的图像特征提取网络,获得所述图片类型的样本数据的局部图像特征编码向量、全局图像特征编码向量;将所述目标对象的文本类型的样本数据,通过所述图像分类模型的文本特征提取网络,获得所述文本类型的样本数据的文字特征编码向量;可以理解为,将目标对象的临床图片通过图像分类模型的图像特征提取网络,获得临床图片的局部图像特征编码向量、全局图像特征编码向量;同理,将目标对象的皮肤镜图片通过图像分类模型的图像特征提取网络,获得皮肤镜图片的局部图像特征编码向量、全局图像特征编码向量;将目标对象的病史信息,通过图像分类模型的文本特征提取网络,获得病史信息的文字特征编码向量。
[0133] 而具体实施时,采用图像分类模型的图像特征提取网络对图像模态的样本数据的局部图像特征编码向量以及全局图像特征编码向量的获取方式如下所述:
[0134] 所述将所述目标对象的图片类型的样本数据,通过图像分类模型的图像特征提取网络,获得所述图片类型的样本数据的局部图像特征编码向量、全局图像特征编码向量,包括:
[0135] 将所述目标对象的图片类型的样本数据,通过图像分类模型的图像特征提取网络,获得所述图片类型的样本数据的局部图像特征编码向量;
[0136] 利用全局平均池化方法对所述图片类型的样本数据的局部特征编码向量进行编码处理,获得所述图片类型的样本数据的全局图像特征编码向量。
[0137] 沿用上例,仍以图像特征提取网络为swin transformer模型为例,将所述目标对象的图片类型的样本数据,通过图像分类模型的图像特征提取网络,获得所述图片类型的样本数据的局部图像特征编码向量;利用全局平均池化方法对所述图片类型的样本数据的局部特征编码向量进行编码处理,获得所述图片类型的样本数据的全局图像特征编码向量;可以理解为,在确定目标对象的临床图片和皮肤镜图片之后,利用swin transformer模型作为图像特征提取网络,分别对临床图片和皮肤镜图片进行图像编码,得到临床图片的局部图像特征编码向量、皮肤镜图片的局部图像特征编码向量;然后在临床图片的局部图像特征编码向量、皮肤镜图片的全局图像特征编码向量的基础上,利用全局平均池化的方法得到临床图片的全局图像特征编码向量、皮肤镜图片的全局图像特征编码向量。
[0138] 本说明书实施例中提供的图像分类模型处理方法,通过图像特征提取网络分别获取目标对象的图片类型的样本数据的局部图像特征编码向量以及全局图像特征编码向量;后续可以将该局部图像特征编码向量以及全局图像特征编码向量、与文字特征编码向量进行交叉融合,提高图像分类模型的训练精度。
[0139] 此外,采用图像分类模型的文本特征提取网络对文本模态的样本数据的初始文本特征编码向量以及全局文本特征编码向量的获取方式如下所述:
[0140] 所述将所述目标对象的文本类型的样本数据,通过所述图像分类模型的文本特征提取网络,获得所述文本类型的样本数据的文字特征编码向量,包括:
[0141] 将所述目标对象的文本类型的样本数据,通过所述图像分类模型的文本特征提取网络,获得所述文本类型的样本数据的初始文字特征编码向量;
[0142] 利用所述图像分类模型的线性网络对所述文本类型的样本数据的初始文字特征编码向量进行编码处理,获得所述文本类型的样本数据的全局文字特征编码向量。
[0143] 仍沿用上例,以文本类型的样本数据为病史信息为例,将所述目标对象的文本类型的样本数据,通过所述图像分类模型的文本特征提取网络,获得所述文本类型的样本数据的初始文字特征编码向量;利用所述图像分类模型的线性网络对所述文本类型的样本数据的初始文字特征编码向量进行编码处理,获得所述文本类型的样本数据的全局文字特征编码向量;可以理解为,将目标对象的病史信息,通过图像分类模型的文本特征提取网络,获得病史信息的初始文字特征编码向量;利用图像分类模型的线性网络对病史信息的初始文字特征编码向量进行编码处理,获得病史信息的全局文字特征编码向量。
[0144] 即在实际应用中,在确定目标对象的图片类型以及文本类型的样本数据之后,可以利用swin transformer模型作为图像特征提取器,分别对临床图片和皮肤镜图片进行图像编码,分别得到临床图片和皮肤镜图片的局部图像特征编码向量;然后在局部图像特征编码向量的基础上,利用全局平均池化的方法得到临床图片和皮肤镜图片的全局图像特征编码向量;同时,对离散型的病史信息采用one‑hot编码的形式,转换为对应的初始文字特征编码向量,并利用线性层将one‑hot初始文字特征编码向量进一步编码到更高维度表示,得到病史信息的全局文字特征编码向量。
[0145] 本说明书实施例提供的图像分类模型处理方法中,通过图像特征提取网络以及文本特征提取网络,获取目标对象的局部图像特征编码向量、全局图像特征编码向量,以及全局文本特征编码向量;后续可以将局部图像特征编码向量、全局图像特征编码向量,以及全局文本特征编码向量进行融合,以提升图像分类模型的训练精确性。
[0146] 那么在获得目标对象的局部图像特征编码向量、全局图像特征编码向量,以及全局文本特征编码向量之后,对目标对象的局部图像特征编码向量、全局图像特征编码向量,以及全局文本特征编码向量的交叉融合具体实现方式如下所述:
[0147] 所述根据所述图像特征编码向量、所述文字特征编码向量以及所述目标对象对应的目标分类结果,对图像分类模型进行处理,获得所述图像分类模型,包括:
[0148] 根据预设多模态融合算法将所述局部图像特征编码向量、所述全局图像特征编码向量以及所述文字特征编码向量进行特征融合,获得所述目标对象的目标特征编码向量;
[0149] 根据所述目标对象的目标特征编码向量、以及所述目标对象对应的目标分类结果,对图像分类模型进行处理,获得所述图像分类模型。
[0150] 其中,预设多模态融合算法可以理解为CMF算法(Cross Modality Fusion算法)。
[0151] 具体实施时,在确定目标对象的局部图像特征编码向量、全局图像特征编码向量,以及全局文本特征编码向量之后,首先根据预设多模态融合算法将局部图像特征编码向量、全局图像特征编码向量以及文字特征编码向量进行特征融合,获得述目标对象的目标特征编码向量;再根据目标对象的目标特征编码向量、以及目标对象对应的目标分类结果,对图像分类模型进行处理,获得所述图像分类模型。
[0152] 本说明书实施例提供的图像分类模型处理方法中,采用预设多模态融合算法旨在将每个模态的全局特征与另一个模态的局部特征进行交叉融合,使得每个模态不仅可以学习自身模态的特征,还可以学习到其他模态的特征以及全局知识等,提高图像分类模型的训练进行。
[0153] 实际应用中,采用预设多模态融合算法将每个模态的全局特征与另一个模态的局部特征进行交叉融合的具体实现方式如下所述:
[0154] 所述根据预设多模态融合算法将所述局部图像特征编码向量、所述全局图像特征编码向量以及所述文字特征编码向量进行特征融合,获得所述目标对象的目标特征编码向量,包括:
[0155] 根据预设多模态融合算法将所述目标对象的图片类型的样本数据的全局图像特征编码向量、或所述目标对象的文本类型的样本数据的全局文字特征编码向量,与所述目标对象的图片类型数据的局部图像特征编码向量进行交叉融合,获得所述目标对象的目标特征编码向量。
[0156] 仍沿用上例,以该目标对象的局部图像特征编码向量、全局图像特征编码向量,以及全局文本特征编码向量;为皮肤病患者的临床图片的局部图像特征编码向量、全局图像特征编码向量;皮肤镜图片的局部图像特征编码向量、全局图像特征编码向量;以及病史信息的全局文本特征编码向量为例,对根据预设多模态融合算法将标对象的图片类型的样本数据的全局图像特征编码向量、或目标对象的文本类型的样本数据的全局文字特征编码向量,与目标对象的图片类型数据的局部图像特征编码向量进行交叉融合的具体实现方式进行详细说明。具体参见图3。
[0157] 参见图3,图3示出了本说明书一个实施例提供的一种图像分类模型处理方法中特征融合的示意图。
[0158] 仍以预设多模态融合算法为CMF算法为例,在获得皮肤镜图片的全局图像特征编码向量gD和局部图像特征编码向量lD;临床图片的全局图像特征编码向量gC和局部图像特征编码向量lC,病史信息的全局文字特征编码向量gM之后,每个模态(即皮肤镜图片、临床图片以及病史信息)的全局特征通过multi‑head attention(多头注意力机制)与其他模态的局部特征进行信息融合,注意力机制中局部特征作为K和V,全局特征作为Q。
[0159] 图3的a部分是以皮肤镜模态、临床模态以及病史模态等三种模态为例,对特征融合进行表示,gM与lD通过注意力模块2(Attention模块2)进行特征融合、gM与lC通过注意力模块3(Attention模块3)进行特征融合,gD与lC通过注意力模块1(Attention模块1)进行特征融合,gC与lD通过注意力模块4(Attention模块4)进行特征融合。而图3的b部分是以的A和B表示两种模态为例,对特征融合进行表示,gA表示模态A的全局特征,lB表示模态B的局部特征。
[0160] 具体来说,假定X和X′分别代表不同的模态,l表示由swin transformer网络提取的patch局部特征。算法实施方式如下所述:
[0161]
[0162]
[0163]
[0164]
[0165] 其中,公式1用于生成局部特征以及全局特征,LN表示layer normalization,GAP表示全局池化层;公式2中的K和V为局部特征,Q为全局特征;公式3表示multi‑head attention方法的实现方式;公式4的目的是得到融合后的特征向量,X和X’表示两种不同的模态,且公式4中的LN表示linear layer线性层;且上述公式中的 是可学习参数,F是特征维度,h表示注意力机制中head的个数。
[0166] 本说明书实施例提供的该图像分类模型处理方法,可以通过图片模态和文本模态的多模态样本数据,训练图像分类模型,使得后续可以根据该图像分类模型对待识别对象进行高效、准确的分类;同时,为了提高图像分类模型的泛化性能,通过多模态样本数据对图像分类模型进行训练时,面对初始对象的样本数据中出现的模态缺失的问题,可以根据预设采样策略,对每个样本数据中的缺失模态数据进行补齐,从而提高多模态样本数据对该图像分类模型的训练准确性和有效性,提高后续该图像分类模型的分类精度。
[0167] 下述结合附图4,以本说明书提供的图像分类模型处理方法在皮肤病分类场景的应用为例,对所述图像分类模型处理方法进行进一步说明。其中,图4示出了本说明书一个实施例提供的一种图像分类模型处理方法的处理过程流程图,具体包括以下步骤。
[0168] 步骤一:获取历史皮肤病患者的皮肤镜图片、临床图片和病史信息;其中,每个皮肤镜图片、每个临床图片以及每个病史信息均对应一个皮肤病名称。如图4的皮肤镜图片中携带的疾病1、疾病2(如Disease1、Disease2)等,临床图片中携带的疾病1、疾病2等,病史信息中携带的疾病1、疾病2等。
[0169] 步骤二:分别对皮肤镜图片、临床图片、病史信息进行随机采样(RS,Random Sampling),如采用上述实施例中的类间随机配对方法对皮肤镜图片、临床图片、病史信息的数据增强。
[0170] 步骤三:分别将随机采样后获得的皮肤镜图片、临床图片经过图像块编码层(Patch Embedding)进行处理,获得图像块;同时将随机采样后获得的病史信息经过独热编码层(One‑hot Embedding)进行处理,获得One‑hot特征编码向量。
[0171] 步骤四:分别将皮肤镜图片、临床图片经过Patch Embedding层获得的图像块,输入图像特征提取器(swin transformer模型),获得皮肤镜图片的每个图像块的局部图像特征编码向量、临床图片的每个图像块的局部图像特征编码向量;同时,将One‑hot特征编码向量通过线性层(Linear)、批处理归一化(BatchNorm)以及激活函数(线性整流激活函数,ReLU),获得全局文本特征编码向量。
[0172] 步骤五:分别将皮肤镜图片、临床图片的局部图像特征编码向量通过池化(GAP,GlobalAverage Pooling,全局平均池化层)进行处理,获得皮肤镜图片、临床图片的全局图像特征编码向量。
[0173] 步骤六:将皮肤镜图片、临床图片的局部图像特征编码向量、皮肤镜图片、临床图片的全局图像特征编码向量、以及病史信息的全局文本特征编码向量,输入跨模态融合模型(CMF)进行局部特征和全局特征的交叉融合后,获得皮肤镜图片融合后的全局图像特征编码向量gD、临床图片融合后的全局图像特征编码向量gC、病史信息融合后的全局文本特征向量gM。
[0174] 其中,图4中的 表示Concatenate,拼接。
[0175] 步骤七:将皮肤镜图片、临床图片融合后的全局图像特征编码向量、病史信息融合后的全局文本特征向量输入分类器(Classifier)进行图像分类模型训练。
[0176] 本说明书实施例提供的图像分类模型处理方法,对于多模态数据中经常出现的模态缺失问题,提出了类间随机配对采样的方法,以弥补多模态数据的不足,能够提高图像分类模型的泛化性能;对于多模态信息有效融合的问题,采用新的模态交叉融合模块,可以有效融合不同模态的全局特征和局部特征,以提高图像分类模型的分类精度。
[0177] 下述结合附图5,以本说明书提供的图像分类模型处理方法在皮肤病分类场景的应用为例,对所述图像分类模型处理方法进行进一步说明。其中,图5示出了本说明书一个实施例提供的一种图像分类模型处理方法的具体处理过程流程图,具体包括以下步骤。
[0178] 步骤502:获取历史皮肤病患者的多模态的样本数据,如皮肤镜图片、临床图片和病史信息等模态。
[0179] 具体实施时,多模态的样本数据以<皮肤病图片、临床图片、病史信息>的格式按照皮肤病的种类维度存储,得到多模态的样本数据集。而在实际应用中,可以以患者维度随机将数据集划分为多份,然后按照比例(如3∶1∶1)将其分为训练集、验证集以及测试集,而同一患者的数据仅存在某个集合中。
[0180] 步骤504:对于存在缺失模态的样本数据,采用类间随机配对采样策略(DWP)进行随机采样。
[0181] 步骤506:确定随机采样后获得的、均包括皮肤镜图片、临床图片和病史信息等多模态的样本数据。
[0182] 步骤508:将每个样本数据的临床图片以及皮肤镜图片输入图像特征提取模块,获得其图片局部特征和图片全局特征,将每个样本数据的病史信息输入文本特征提取模块,获得其文本全局特征。
[0183] 步骤510:将图片局部特征、图片全局特征、文本全局特征输入多模态融合模块进行全局特征与局部特征的交叉融合。
[0184] 步骤512:将交叉融合后获得的目标特征输入分类器,获得分类结果。
[0185] 具体的,后续即可根据该分类结果与真实分类结果对图像分类模型进行训练和优化;同时定义优化器和损失函数迭代更新网络参数,完成模型训练。后续即可选取较优的图像分类模型进行封装,实际应用时,可以多模态数据作为输入,得到分类结果。
[0186] 本说明书实施例提供的图像分类模型处理方法,提出了一种基于transformer模型的皮肤肿瘤多模态分类方法,能够有效实现皮肤肿瘤疾病的分类识别;以及一种类间随机配对采样策略扩充数据样本,用于解决多模态数据集中存在的模态缺失问题,提高模型的泛化性能和精度;同时也提出了一种新的多模态交叉融合模块,能够有效融合不同模态的全局特征和局部特征,有效提高分类精度。
[0187] 与上述方法实施例相对应,本说明书还提供了图像分类模型处理装置实施例,图6示出了本说明书一个实施例提供的一种图像分类模型处理装置的结构示意图。如图6所示,该装置包括:
[0188] 数据获取模块602,被配置为获取初始对象的图片类型和/或文本类型的样本数据、以及所述初始对象对应的目标分类结果;
[0189] 对象确定模块604,被配置为从所述初始对象中确定待处理对象,其中,所述待处理对象为所述初始对象中仅包括图片类型或文本类型的样本数据的对象;
[0190] 数据处理模块606,被配置为根据预设采样策略,对所述待处理对象的图片类型或文本类型的样本数据进行数据处理,获得所述待处理对象至少一组包括图片类型和文本类型的样本数据;
[0191] 模型处理模块608,被配置为根据所述待处理对象、其他对象的图片类型和文本类型的样本数据,以及所述待处理对象、所述其他对象对应的目标分类结果,对图像分类模型进行处理,获得所述图像分类模型,
[0192] 其中,所述其他对象为所述初始对象中除所述待处理对象之外的其他初始对象,所述图像分类模型为机器学习模型。
[0193] 可选地,所述数据处理模块606,进一步被配置为:
[0194] 根据类间随机配对采样策略,对仅包括图片类型或者文本类型的样本数据的待处理对象,进行文本类型或者图片类型的样本数据补齐,获得所述待处理对象至少一组包括图片类型和文本类型的样本数据。
[0195] 可选地,所述数据处理模块606,进一步被配置为:
[0196] 根据类间随机配对采样策略,对仅包括图片类型的样本数据的待处理对象,进行文本类型的样本数据补齐,获得所述待处理对象至少一组包括图片类型和文本类型的样本数据;以及
[0197] 根据所述类间随机配对采样策略,对仅包括文本类型的样本数据的待处理对象,进行图片类型的样本数据补齐,获得所述待处理对象至少一组包括图片类型和文本类型的样本数据。
[0198] 可选地,所述数据处理模块606,进一步被配置为:
[0199] 根据所述初始对象对应的目标分类结果,对所述待处理对象以及所述其他对象进行分类;
[0200] 从类别相同的待处理对象中依次确定一个目标待处理对象,根据类别相同的其他对象的图片类型和文本类型的样本数据、以及其他待处理对象的图片类型或文本类型的样本数据,对所述目标待处理对象进行文本类型或者图片类型的样本数据补齐,获得所述目标待处理对象至少一组包括图片类型和文本类型的样本数据。
[0201] 其中,所述其他待处理对象为类别相同的所有待处理对象中,除所述目标待处理对象之外的待处理对象。
[0202] 可选地,所述图片类型包括第一图片类型和第二图片类型;
[0203] 相应地,所述数据处理模块606,进一步被配置为:
[0204] 从类别相同的待处理对象中依次确定一个目标待处理对象;
[0205] 在确定所述目标待处理对象仅包括第一图片类型的样本数据的情况下,根据类别相同的其他对象的第二图片类型和文本类型的样本数据、以及其他待处理对象的第二图片类型和/或文本类型的样本数据,对所述目标待处理对象进行第二图片类型以及文本类型的样本数据补齐,获得所述目标待处理对象至少一组包括第一图片类型、第二图片类型和文本类型的样本数据;
[0206] 在确定所述目标待处理对象仅包括第二图片类型的样本数据的情况下,根据类别相同的其他对象的第一图片类型和文本类型的样本数据、以及其他待处理对象的第一图片类型和/或文本类型的样本数据,对所述目标待处理对象进行第一图片类型以及文本类型的样本数据补齐,获得所述目标待处理对象至少一组包括第一图片类型、第二图片类型和文本类型的样本数据;或者
[0207] 在确定所述目标待处理对象仅包括文本类型的样本数据的情况下,根据类别相同的其他对象的第一图片类型和第二图片类型的样本数据、以及其他待处理对象的第一图片类型和/或第二图片类型的样本数据,对所述目标待处理对象进行第一图片类型以及第二图片类型的样本数据补齐,获得所述目标待处理对象至少一组包括第一图片类型、第二图片类型和文本类型的样本数据。
[0208] 可选地,所述模型处理模块608,进一步被配置为:
[0209] 根据所述待处理对象以及所述其他对象确定目标对象;
[0210] 根据所述待处理对象的图片类型和文本类型的样本数据、以及所述其他对象的图片类型和文本类型的样本数据,确定所述目标对象的图片类型和文本类型的样本数据;
[0211] 根据所述待处理对象对应的目标分类结果、以及所述其他对象对应的目标分类结果,确定所述目标对象对应的目标分类结果;
[0212] 获取所述目标对象的图片类型和文本类型的样本数据的图像特征编码向量、以及文字特征编码向量;
[0213] 根据所述图像特征编码向量、所述文字特征编码向量以及所述目标对象对应的目标分类结果,对图像分类模型进行处理,获得所述图像分类模型。
[0214] 可选地,所述模型处理模块608,进一步被配置为:
[0215] 将所述目标对象的图片类型的样本数据,通过图像分类模型的图像特征提取网络,获得所述图片类型的样本数据的局部图像特征编码向量、全局图像特征编码向量;
[0216] 将所述目标对象的文本类型的样本数据,通过所述图像分类模型的文本特征提取网络,获得所述文本类型的样本数据的文字特征编码向量。
[0217] 可选地,所述模型处理模块608,进一步被配置为:
[0218] 将所述目标对象的图片类型的样本数据,通过图像分类模型的图像特征提取网络,获得所述图片类型的样本数据的局部图像特征编码向量;
[0219] 利用全局平均池化方法对所述图片类型的样本数据的局部特征编码向量进行编码处理,获得所述图片类型的样本数据的全局图像特征编码向量。
[0220] 可选地,所述模型处理模块608,进一步被配置为:
[0221] 将所述目标对象的文本类型的样本数据,通过所述图像分类模型的文本特征提取网络,获得所述文本类型的样本数据的初始文字特征编码向量;
[0222] 利用所述图像分类模型的线性网络对所述文本类型的样本数据的初始文字特征编码向量进行编码处理,获得所述文本类型的样本数据的全局文字特征编码向量。
[0223] 可选地,所述模型处理模块608,进一步被配置为:
[0224] 根据预设多模态融合算法将所述局部图像特征编码向量、所述全局图像特征编码向量以及所述文字特征编码向量进行特征融合,获得所述目标对象的目标特征编码向量;
[0225] 根据所述目标对象的目标特征编码向量、以及所述目标对象对应的目标分类结果,对图像分类模型进行处理,获得所述图像分类模型。
[0226] 可选地,所述模型处理模块608,进一步被配置为:
[0227] 根据预设多模态融合算法将所述目标对象的图片类型的样本数据的全局图像特征编码向量、或所述目标对象的文本类型的样本数据的全局文字特征编码向量,与所述目标对象的图片类型数据的局部图像特征编码向量进行交叉融合,获得所述目标对象的目标特征编码向量。
[0228] 可选地,所述装置,还包括:
[0229] 数据清洗模块,被配置为对所述初始对象的图片类型和/或文本类型的样本数据进行数据清洗。
[0230] 本说明书实施例提供的图像分类模型处理装置,可以通过图片模态和文本模态的多模态样本数据,训练图像分类模型,使得后续可以根据该图像分类模型对待识别对象进行高效、准确的分类;同时,为了提高图像分类模型的泛化性能,通过多模态样本数据对图像分类模型进行训练时,面对初始对象的样本数据中出现的模态缺失的问题,可以根据预设采样策略,对每个样本数据中的缺失模态数据进行补齐,从而提高多模态样本数据对该图像分类模型的训练准确性和有效性,提高后续该图像分类模型的分类精度。
[0231] 上述为本实施例的一种图像分类模型处理装置的示意性方案。需要说明的是,该图像分类模型处理装置的技术方案与上述的图像分类模型处理方法的技术方案属于同一构思,图像分类模型处理装置的技术方案未详细描述的细节内容,均可以参见上述图像分类模型处理方法的技术方案的描述。
[0232] 参见图7,图7示出了本说明书一个实施例提供的一种皮肤病图像的图像分类模型处理方法的流程示意图,具体包括以下步骤。
[0233] 步骤702:获取初始身体皮损部位的图片类型和/或文本类型的样本数据、以及所述初始身体皮损部位对应的目标分类结果;
[0234] 本说明书实施例中,初始身体皮损部位可以理解为人体的待识别皮肤,如待识别皮肤皮损类别的人体皮损部位。
[0235] 步骤704:从所述初始身体皮损部位中确定待处理对象,其中,所述待处理对象为所述初始身体皮损部位中仅包括图片类型或文本类型的样本数据的对象;
[0236] 步骤706:根据预设采样策略,对所述待处理对象的图片类型或文本类型的样本数据进行数据处理,获得所述待处理对象至少一组包括图片类型和文本类型的样本数据;
[0237] 步骤708:根据所述待处理对象、其他对象的图片类型和文本类型的样本数据,以及所述待处理对象、所述其他对象对应的目标分类结果,对图像分类模型进行处理,获得所述图像分类模型,
[0238] 其中,所述其他对象为所述初始身体皮损部位中除所述待处理对象之外的其他初始身体皮损部位,所述图像分类模型为机器学习模型。
[0239] 本说明书实施例提供的皮肤病图像的图像分类模型处理方法,可以通过图片模态和文本模态的多模态样本数据,训练图像分类模型,使得后续可以根据该图像分类模型对待识别对象进行高效、准确的分类;同时,为了提高图像分类模型的泛化性能,通过多模态样本数据对图像分类模型进行训练时,面对初始对象的样本数据中出现的模态缺失的问题,可以根据预设采样策略,对每个样本数据中的缺失模态数据进行补齐,从而提高多模态样本数据对该图像分类模型的训练准确性和有效性,提高后续该图像分类模型的分类精度。
[0240] 上述为本实施例的一种皮肤病图像的图像分类模型处理方法的示意性方案。需要说明的是,该皮肤病图像的图像分类模型处理方法的技术方案与上述的图像分类模型处理方法的技术方案属于同一构思,皮肤病图像的图像分类模型处理方法的技术方案未详细描述的细节内容,均可以参见上述图像分类模型处理方法的技术方案的描述。
[0241] 本说明书一个实施例还提供了一种皮肤病图像的图像分类模型处理装置,包括:
[0242] 数据获取模块,被配置为获取初始身体皮损部位的图片类型和/或文本类型的样本数据、以及所述初始身体皮损部位对应的目标分类结果;
[0243] 对象确定模块,被配置为从所述初始身体皮损部位中确定待处理对象,其中,所述待处理对象为所述初始身体皮损部位中仅包括图片类型或文本类型的样本数据的对象;
[0244] 数据处理模块,被配置为根据预设采样策略,对所述待处理对象的图片类型或文本类型的样本数据进行数据处理,获得所述待处理对象至少一组包括图片类型和文本类型的样本数据;
[0245] 模型处理模块,被配置为根据所述待处理对象、其他对象的图片类型和文本类型的样本数据,以及所述待处理对象、所述其他对象对应的目标分类结果,对图像分类模型进行处理,获得所述图像分类模型,
[0246] 其中,所述其他对象为所述初始身体皮损部位中除所述待处理对象之外的其他初始身体皮损部位。
[0247] 本说明书实施例提供的皮肤病图像的图像分类模型处理装置,可以通过图片模态和文本模态的多模态样本数据,训练图像分类模型,使得后续可以根据该图像分类模型对待识别对象进行高效、准确的分类;同时,为了提高图像分类模型的泛化性能,通过多模态样本数据对图像分类模型进行训练时,面对初始对象的样本数据中出现的模态缺失的问题,可以根据预设采样策略,对每个样本数据中的缺失模态数据进行补齐,从而提高多模态样本数据对该图像分类模型的训练准确性和有效性,提高后续该图像分类模型的分类精度。
[0248] 上述为本实施例的一种皮肤病图像的图像分类模型处理模型的示意性方案。需要说明的是,该皮肤病图像的图像分类模型处理方法的技术方案与上述的皮肤病图像的图像分类模型处理方法的技术方案属于同一构思,皮肤病图像的图像分类模型处理模型的技术方案未详细描述的细节内容,均可以参见上述皮肤病图像的图像分类模型处理方法的技术方案的描述。
[0249] 参见图8,图8示出了本说明书一个实施例提供的一种目标对象分类方法的流程示意图,具体包括以下步骤。
[0250] 步骤802:获取目标对象的第一图片类型的图片数据、第二图片类型的图片数据和/或文本类型的文本数据;
[0251] 步骤804:将所述第一图片类型的图片数据、第二图片类型的图片数据和/或文本类型的文本数据,输入图像分类模型,获得所述目标对象对应的目标分类结果。
[0252] 其中,所述图像分类模型为上述图像分类模型处理方法获得的模型。
[0253] 本说明书实施例提供的目标对象分类方法,通过类间随机配对采样策略扩充的多模态数据进行训练的、基于Transformer模型框架的图像分类模型,对目标对象的目标分类结果进行分类,极大的提高其分类精度。
[0254] 上述为本实施例的一种目标对象分类方法的示意性方案。需要说明的是,该皮肤病图像的目标对象分类方法的技术方案与上述的图像分类模型处理方法的技术方案属于同一构思,目标对象分类方法的技术方案未详细描述的细节内容,均可以参见上述图像分类模型处理方法的技术方案的描述。
[0255] 本说明书一个实施例还提供了一种目标对象分类装置,包括:
[0256] 数据获取模块,被配置为获取目标对象的第一图片类型的图片数据、第二图片类型的图片数据和/或文本类型的文本数据;
[0257] 分类模块,被配置为将所述第一图片类型的图片数据、第二图片类型的图片数据和/或文本类型的文本数据,输入图像分类模型,获得所述目标对象对应的目标分类结果,其中,所述图像分类模型为上述图像分类模型处理方法获得的模型。
[0258] 本说明书实施例提供的目标对象分类装置,通过类间随机配对采样策略扩充的多模态数据进行训练的、基于Transformer模型框架的图像分类模型,对目标对象的目标分类结果进行分类,极大的提高其分类精度。
[0259] 上述为本实施例的一种目标对象分类装置的示意性方案。需要说明的是,该目标对象分类装置的技术方案与上述的目标对象分类方法的技术方案属于同一构思,目标对象分类装置的技术方案未详细描述的细节内容,均可以参见上述目标对象分类方法的技术方案的描述。
[0260] 图9示出了根据本说明书一个实施例提供的一种计算设备900的结构框图。该计算设备900的部件包括但不限于存储器910和处理器920。处理器920与存储器910通过总线930相连接,数据库950用于保存数据。
[0261] 计算设备900还包括接入设备940,接入设备940使得计算设备900能够经由一个或多个网络960通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备940可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi‑MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
[0262] 在本说明书的一个实施例中,计算设备900的上述部件以及图9中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图9所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
[0263] 计算设备900可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备900还可以是移动式或静止式的服务器。
[0264] 其中,处理器920用于执行如下计算机可执行指令,该计算机可执行指令被处理器执行时实现上述图像分类模型处理方法、皮肤病图像的图像分类模型处理方法以及目标对象分类方法的步骤。
[0265] 上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的图像分类模型处理方法、皮肤病图像的图像分类模型处理方法以及目标对象分类方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述图像分类模型处理方法、皮肤病图像的图像分类模型处理方法以及目标对象分类方法的技术方案的描述。
[0266] 本说明书一实施例还提供一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现上述图像分类模型处理方法、皮肤病图像的图像分类模型处理方法以及目标对象分类方法的步骤。
[0267] 上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的图像分类模型处理方法、皮肤病图像的图像分类模型处理方法以及目标对象分类方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述图像分类模型处理方法、皮肤病图像的图像分类模型处理方法以及目标对象分类方法的技术方案的描述。
[0268] 本说明书一实施例还提供一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述图像分类模型处理方法、皮肤病图像的图像分类模型处理方法以及目标对象分类方法的步骤。
[0269] 上述为本实施例的一种计算机程序的示意性方案。需要说明的是,该计算机程序的技术方案与上述的图像分类模型处理方法、皮肤病图像的图像分类模型处理方法以及目标对象分类方法的技术方案属于同一构思,计算机程序的技术方案未详细描述的细节内容,均可以参见上述图像分类模型处理方法、皮肤病图像的图像分类模型处理方法以及目标对象分类方法的技术方案的描述。
[0270] 上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
[0271] 所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read‑Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
[0272] 需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本说明书实施例并不受所描述的动作顺序的限制,因为依据本说明书实施例,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本说明书实施例所必须的。
[0273] 在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
[0274] 以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书实施例的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本说明书实施例的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。