技术领域
[0001] 本发明属于计算机视觉与医学图像领域,具体涉及一种基于Prompt的边缘增强医学图像分割方法及系统。
相关背景技术
[0002] 医学图像分割是图像分割的一个重要分支,在诊断、手术计划和图像引导手术等临床应用上发挥着重要作用。特别是在骨头坏死的临床诊断上,对于骨头CT图像的分割能够方便医生对于病情的诊断和分析,从而减轻医生的工作负担。尽管骨骼在CT图像中具有明显的对比度,但其分割仍具有挑战性。由于骨骼不同于肿瘤等病理特征,不同骨骼边缘具有独特性,特别是骨骼坏死病的骨骼会导致不同程度的凹陷,目前大多数自动方法缺乏对骨骼边缘部分信息的学习,导致分割不准确。此外基于Transformer的架构就拥有优秀的对全局上下文建模的能力,所以其在医学图像分割任务中广泛流行。但是基于Transformer的编码器的方法在对全局上下文建模时容易破坏部分局部特征,而且边缘提示无法对骨骼局部信息很好的处理。
具体实施方式
[0065] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0066] 本发明提出一种基于Prompt的边缘增强医学图像分割方法,如图4,进行图像分割的过程包括以下步骤:
[0067] S0、构建图像分割网络,该网络包括编码器、瓶颈层、解码器以及边缘感知学习模块;
[0068] S1、获取骨骼CT图像,通过编码器对图像进行连续下采样,每一层下采样得到的特征作为对应解码器中上采样层中输入的高分辨率特征图;
[0069] S2、通过边缘感知学习模块从骨骼CT图像中获取边缘信息、框信息以及掩膜信息,通过获取的信息与编码器最后一个下采样层输出的特征进行融合后作为瓶颈层的输入;
[0070] S3、在编码器中,将瓶颈层或者前一层的输出作为低分辨率特征图,将低分辨率特征图和高分辨率特征图进行特征对齐和特征增强后作为当前层的输出,并将编码器最后一层的输出作为图像分割结果。
[0071] 在本实施例中,为了实现一种基于Prompt的边缘增强医学图像分割方法,对骨骼CT图像依次进行以下处理:
[0072] 首先对骨骼CT图像进行预处理;
[0073] 然后获取骨骼图像的边缘信息,如图1,本实施例中利用边缘检测器(Edge Detection),并结合mask、box信息通过提示学习模块(本实施例采用Prompt Encoder)生成提示信息与经过编码器处理的特征信息结合;
[0074] 最后经过解码器通过跳跃连接和编码器进行特征融合(本实施例采用混合器Mixer进行融合),并且通过上下文特征对齐增强模块将上下文信息进行结合,保证不会损失全局信息和局部信息,最终生成骨骼分割图像。
[0075] 在本实施例中,对骨骼CT图像进行预处理包括对图像进行标注和增强,包括对骨骼CT图像中的骨骼部分进行标注,并通过旋转、水平翻转和垂直翻转来增强图数据。
[0076] 本发明利用编码器对图像进行连续下采样,如图1,在本实施例中采用三个Swin Transfamer下采样块对输入的骨骼CT图像进行连续下采样,在本实施例中将图1中从左到右三个Swin Transfamer下采样块分别定义为第一Swin Transfamer下采样块、第二Swin Transfamer下采样块、第三Swin Transfamer下采样块,每个Swin Transfamer下采样块输出一个尺寸的高分辨率特征图,从左到右三个下采样块分别输出第一高分辨率特征图、第二高分辨率特征图、第三高分辨率特征图。
[0077] 在本实施例中,可以通过Sobel算子来提取真实图像的边缘信息,提取过程包括以下步骤:
[0078] 101、设置Sobel卷积因子,该算子由两个3×3的矩阵组成,分别对应于图像的横向和纵向。Sobel卷积因子表示为:
[0079]
[0080] 这两组矩阵与图像进行平面卷积操作,可以分别计算出图像在横向和纵向上的亮度差分的近似值。如果以A代表原始图像,Gx及Gy分别代表经过横向和纵向边缘检测后的图像灰度值,其公式如下:
[0081]
[0082] 其中,*表示平面卷积操作。
[0083] 102、计算图像中每个像素点的灰度大小,本实施例将其横向和纵向的灰度值综合考虑。这一计算过程可通过以下数学公式实现:
[0084]
[0085] 为了提高计算效率,常常使用一种不进行开方运算的近似方法来估算像素点的灰度值。这种方法可以有效地简化计算过程,同时仍保持了足够的精度,尤其适用于对计算速度有较高要求的场景。作为一种可选实施方式,近似计算公式如下:
[0086] |G|=|Gx|+|Gy|
[0087] 203、然后需要计算每个像素点的梯度方向。这个方向可以通过Gx和Gy,即像素点在横向和纵向上的灰度值变化来确定。梯度方向的计算公式如下:
[0088]
[0089] 204、在得到梯度方向后,本实施例需要判断该像素点是否为边缘点,这是通过比较梯度的大小(用δ表示)与预先设定的阈值进行判断的。如果δ大于这个阈值,则认为该像素点(x,y)是边缘点。
[0090] 本实施例将预处理后和增强后的图像分别作为编码器和边缘感知提示学习模块的输入,编码器对图像进行下采样,边缘感知提示学习模块从图像中提取语义信息。如图5,边缘感知提示学习模块从图像中提取语义信息的过程具体包括以下步骤:
[0091] 通过手动标注获得检测框,并利用边缘检测器从骨骼CT图像中提取边缘信息;
[0092] 分别对检测框和边缘信息进行位置编码,然后通过MLP生成对应的权重与位置编码相乘,获得对应的框嵌入向量和边缘嵌入向量;
[0093] 将边缘嵌入向量和框嵌入向量拼接在一起作为稀疏嵌入向量;
[0094] 将骨骼CT图像中手动标注的掩码通过连续下采样转换成密集嵌入向量;
[0095] 将稀疏嵌入向量和密集嵌入向量拼接在一起作为提示语音信息;
[0096] 低分辨率特征图通过跨注意力机制与提示语义信息进行融合。
[0097] 具体地,将标注的框信息和检测得到的边缘信息转换成边缘嵌入向量(Embed Edges)和框嵌入向量(Embed Boxes)。这一步骤涉及对图像中显著的边缘和框架结构进行编码,使其转化为可以由神经网络处理的数值型向量。
[0098] 将边缘嵌入向量和框嵌入向量被进一步组合成稀疏嵌入向量(Sparse Embeddings),此步骤的目的在于合并边缘和框的信息,以提供更加细致和全面的图像结构表示,如图2,合成稀疏嵌入向量的过程包括以下步骤:
[0099] 通过手动标注获得检测框,并利用边缘检测器从骨骼CT图像中提取边缘信息;
[0100] 分别对检测框和边缘信息进行位置编码,然后通过MLP生成对应的权重与位置编码相乘,获得对应的框嵌入向量和边缘嵌入向量;
[0101] 将边缘嵌入向量和框嵌入向量拼接在一起作为稀疏嵌入向量。
[0102] 图像中的掩码通过一系列下采样步骤被转换成密集嵌入向量(Dense Embeddings),这一转化使得掩码信息更加紧凑和集中,将骨骼CT图像中手动标注的掩码通过连续下采样转换成密集嵌入向量,图像中的掩码进行连续下采样的过程,即采用级联的三个下采样模块进行处理,第一、第二下采样模块由级联的2×2卷积单元、层归一化单元以及GELU激活函数构成;第三下采样模块由1×1卷积单元构成。
[0103] 将密集嵌入向量和稀疏嵌入向量拼接起来作为提示语义信息,在本实施例中,采用跨注意力机制将高分辨率图像与提示语义信息进行融合,在本实施例中采用第三Swin Transfamer下采样块输出的第三高分辨率图像与提示语义信息进行融合,若低分辨率特征图为S1、提示语义信息为S2,通过跨注意力机制进行融合的过程包括:
[0104] S3=softmax((WQS2)(WKS1)T)WVS1
[0105] 其中,S3为高分辨率特征图通过跨注意力机制与提示语义信息进行融合得到的特征图;WQ、WK、VW为可训练的跨注意力机制权值矩阵;WQS2为跨注意力机制中的查询矩阵,WKS1T为跨注意力机制中的键矩阵,WVS1为跨注意力机制中的值矩阵;(·) 表示矩阵的转置。
[0106] 将低分辨率特征图通过跨注意力机制与提示语义信息进行融合得到的特征图S3通过瓶颈层进行过滤,本实施例中采用两个级联的Swin Transfamer块作为瓶颈层。
[0107] 在本实施中,解码器对编码器对应包括三层级联构成结构,每次结构由Swin Transfamer上采样块和上下文特征对齐增强块级联构成,如图1,解码器中从左到右依次为第一层级结构、第二层级结构和第三层级结构,第一层级结构由级联的第一Swin Transfamer上采样块和第一上下文特征对齐增强块级联构成,第二层级结构由级联的第二Swin Transfamer上采样块和第二上下文特征对齐增强块级联构成,第三层级结构由级联的第三Swin Transfamer上采样块和第三上下文特征对齐增强块级联构成。
[0108] 在第一层级结构中,将第三Swin Transfamer下采样块输出的第三高分辨率图像h输入第一Swin Transfamer上采样块进行上采样得到的高分辨特征图作为特征图F以及瓶l
颈层输出的低分辨率特征图作为特征图F输入第一上下文特征对齐增强块进行特征对齐和局部增强;
[0109] 在第二层级结构中,将第二Swin Transfamer下采样块输出的第二高分辨率图像h输入第二Swin Transfamer上采样块进行上采样得到的高分辨特征图作为特征图F以及第一层结构的第一上下文特征对齐增强块进行特征对齐和局部增强后的低分辨率特征图作l
为特征图F输入第二上下文特征对齐增强块进行特征对齐和局部增强;
[0110] 在第三层级结构中,将第一Swin Transfamer下采样块输出的第一高分辨率图像l输入第三Swin Transfamer上采样块进行上采样得到的高分辨特征图作为特征图F以及第二层结构的第二上下文特征对齐增强块进行特征对齐和局部增强后的低分辨率特征图作h
为特征图F输入第三上下文特征对齐增强块进行特征对齐和局部增强;
[0111] 将第三上下文特征对齐增强块进行特征对齐和局部增强后的特征图作为解码器的输出。
[0112] 在本实施例中,通过解码器将空间信息结合,以保证不会损失全局特征,通过上下文特征对齐增强模块将上下文信息进行结合,以保证在上采样的同时不会损失局部特征,l h两个不同分辨率的特征图F和F被作为上下文特征对齐增强模块的输入,上下文特征对齐l h
增强模块对两个不同分辨率的特征图F 和F 的处理过程包括特征对齐和局部增强两个部分,具体包括以下步骤:
[0113] 301、高分辨率特征图 来自解码器的相应阶段,h h h h h h
表示纬度为H×W ×C的实数集合,H 、W、C 分别是对应高分辨率特征图的高、宽、通道数。
这一特征图包含更细节的信息,对于保留图像的局部特征至关重要;而低分辨率图像l l l
则来自对应阶段的前一阶段, 表示纬度为H ×W ×C 的实数
l l l
集合,H、W、C 分别是对应低分辨率特征图的高、宽、通道数;通过一个1×1卷积模块对高分辨率特征图进行处理。对于低分辨率特征图,则通过一个3×3卷积模块进行上采样,调整其大小以与高分辨率特征图相匹配。
[0114] 302、将第一低分辨率特征图与第一高分辨率特征图拼接后利用3×3卷积模块进行处理得到组合特征图,利用光流估计法对组合特征图进行处理,得到光流特征图;在本实施例中,可以采用FlowNetSimple架构从获取对应的流场特征图。
[0115] 303、将光流特征图和第一高分辨率特征图输入warp网络进行局部对齐,得到局部对齐的特征图。由于特征和流场之间存在分辨率差距,因此本发明通过warp网络将其偏移量减半,本发明采用的warp网络即现有技术中的局部对齐(Mesh Warps)是一种基于图像块(patch)的匹配方法,将图像划分为网格状的多个区域,通过局部特征匹配的方式构建多个区域的几何变换,每个区域都被微分成一个平面进行对齐一定程度上解决了深度视差的问题。
[0116] 本领域技术人员可以采用任意一种光流估计法以及局部对齐对图像进行对齐处理,本发明不再对光流估计法以及局部对齐进行其他限定。
[0117] 304、将局部对齐的特征图与第一低分辨率相加,得到对齐后的特征图。
[0118] 完成图像的对齐后,将对齐的图像输入特征增强模块进行处理,在本实施例中将对齐后的特征图分为两个分支分别利用空间注意力和通道注意力进行处理,然后将空间注意力和通道注意力处理后的数据通过相加的方式进行融合,融合后的特征图作为上下文特征对齐增强块的输出,如图3系统处理框图以及图7所示的流程图,进行局部增强的过程具体包括以下步骤:
[0119] 401、基于空间注意力机制,根据对齐后的特征图生成空间注意力图,利用空间注意力图对对齐后的特征图进行加权,得到第一加权特征图,具体包括以下步骤:
[0120] 利用带有两个激活函数的1×1卷积层来生成空间注意力图即:
[0121]
[0122] 使用attSA对输入特征Fh′进行空间调制,得到第一加权特征图,即:
[0123]
[0124] 其中,σ(·)为sigmoid激活函数; 表示两个1×1卷积层的权重;δ(·)h′表示ReLU激活函数;F 为对齐后的特征图; 表示对齐后的特征图,
h h h h h
表示H ×W×C维的实数空间,H 表示高分辨率特征图的高,W表示高分辨率
h
特征图的宽,C表示高分辨率特征图的通道数; 表示克罗内克积。
[0125] 402、利用全局平均池生成对齐后的特征图的通道统计,基于通道注意力机制和通道统计生成每个通道的权重,具体包括以下步骤:
[0126] 利用全局平均池生成对齐后的特征图Fh′计算其通道统计GCA,GCA的第c个元素的计算表示为:
[0127]
[0128] 利用带有sigmoid激活的简单门控机制来生成通道注意力图attCA,表示为:
[0129]
[0130] 利用通道注意力图attCA来调整输入特征Fh′,即:
[0131]
[0132] 其中, 表示第c个通道中位置(i,j)处的元素,i∈{1,2,…,Hh},j∈{1,h2,…,W }; 表示通道注意力中两个1×1卷积层的权重; 为通道注意力图
h′
attCA中第c个通道的注意力图, 为对齐后的特征图F 中第c个通道的特征图。
[0133] 403、将第一加权特征图和第二加权特征图通过相加进行融合,得到增强后的特征图。
[0134] 除此之外,在图3中,对于空间注意力分支,进行注意力处理之后再利用两个级联的1×1卷积层进行处理;对应地,在空间注意力分支,先利用两个级联的1×1卷积层对输入的特征图进行处理后再进行通道注意力的处理,最后将两个分支的输出通过相加进行融合。
[0135] 本发明还提供一种基于Prompt的边缘增强医学图像分割系统,该系统用于实现一种基于Prompt的边缘增强医学图像分割方法,该系统包括预处理模块、编码器、解码器、边缘感知提示学习模块和瓶颈层,编码器和解码器中各层的特征图相互匹配;其中:预处理模块,用于对输入的骨骼CT图像进行预处理,包括将骨骼CT图像转换为特征图并进行增强和标注;
[0136] 编码器,用于对输入的特征图进行多次下采样操作;
[0137] 边缘感知模块,用于根据检测框和边缘信息融合得到提示语义信息,提示语义信息通过将Sparse_Embeddings和Dense_Embeddings进行融合得到,并且本发明将提示语义信息与图像信息(即解码器下采样得到的特征图)进行融合,有效地捕捉和增强了图像的边缘信息,使边缘过渡更加自然平滑;
[0138] 瓶颈层,用于对提示语义信息语义信息进行过滤,得到输入解码器的初始高分辨率特征图;
[0139] 解码器,用于对输入的特征图对应解码器进行多次上采样,在上采样过程中,将解码器对应层的输出进行上采样后作为高分辨率特征图,将高分辨率特征图和低分辨率特征图进行图像对齐和图像增强后作为当前层的输出,并将当前层的输出作为下一层的低分辨率特征图,解码器的最后一层输出的特征图即为分割结果,每次上采样过程包括Swin Transfomer上采样块和上下文特征对齐增强模块对输入的高分辨率特征图和低分辨率特征图进行处理,上采样过程将空间信息、通道信息与原图像结合,保证不会损失全局特征和在上采样的同时不会损失局部特征。
[0140] 本实施例还提供一分钟计算装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤,包括:
[0141] 输入骨骼CT图像,对图像进行预处理和增强;
[0142] 通过边缘检测器处理骨骼CT图像,得到骨骼的边缘信息,生成对应的片段;然后将Box和Edge提示信息融合,并处理mask提示信息;然后将Sparse_Embeddings和Dense_Embeddings与图片通过融合模块进行结合,获得提示信息;
[0143] 将骨骼CT图像经过编码器进行下采样,获取低级特征信息;
[0144] 经过下采样后通过跨注意力融合模块融合提示语义信息;
[0145] 通过解码器将空间信息结合,以保证不会损失全局特征,通过特征对齐增强模块将上下文信息进行结合,以保证在上采样的同时不会损失局部特征。
[0146] 解码器和编码器通过跳跃连接进行特征融合,以补充下采样引起的空间信息损失。
[0147] 本实施例的目的是提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时执行以下步骤:
[0148] 输入骨骼CT图像,对图像进行预处理和增强;
[0149] 通过边缘检测器处理骨骼CT图像,得到骨骼的边缘信息,生成对应的片段;然后将Box和Edge提示信息融合,并处理mask提示信息;然后将Sparse_Embeddings和Dense_Embeddings与图片通过融合模块进行结合,获得提示信息;
[0150] 将骨骼CT图像经过编码器进行下采样,获取低级特征信息;
[0151] 经过下采样后通过跨注意力融合模块融合提示语义信息;
[0152] 通过解码器将空间信息结合,以保证不会损失全局特征,通过特征对齐增强模块将上下文信息进行结合,以保证在上采样的同时不会损失局部特征。
[0153] 解码器和编码器通过跳跃连接进行特征融合,以补充下采样引起的空间信息损失。
[0154] 尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。