首页 / 基于注意力卷积神经网络的CT图像分割系统

基于注意力卷积神经网络的CT图像分割系统失效专利 发明

技术领域

[0001] 本发明涉及图像理解技术领域,具体涉及一种基于注意力卷积神经网络的CT图像分割系统。

相关背景技术

[0002] 图像分割作为计算机视觉领域重要的基础性研究问题,而医学影像分割作为图像分割的一种应用,可以短时间并迅速的对于大量患者的病灶精确准定位。因此如何有效的将图像分割技术应用在医学影像中,成为研究者们的主要任务。
[0003] 医学影像分割通过对医学影像特征的提取,逐像素将图像中的语义表达分类,医学影像分割需要精确定位对象与所属于的类和对象所在的位置,且需要清楚的划分出对象边界,以区分出不同类别对象。
[0004] 目前国内外广泛应用的医学图像分割方法有很多种,其中传统方法主要包括:基于阈值的分割,阈值分割的优点是实现相对简单,但是不太适用于多通道图像和特征值相差不大的图像,对于图像中不存在明显的灰度差异或各物体的灰度值范围有较大重叠的图像分割问题难以得到准确的结果;基于边缘分割方法,边缘检测的优点是搜索检测速度很快,对边缘检测效果好,但是也有着不能得到较好的区域结构、边缘检测时抗噪性和检测精度之间的矛盾的缺点;基于活动轮廓模型的方法又称Snake模型,原始的Snake模型其基本思想是通过能量最小化,将一条带有能量函数的初始曲线朝着待检测的目标轮廓方向逐步变形与运动,最终收敛到目标边界,得到一个光滑并且连续的轮廓,原始的Snake模型存在难以捕捉目标凹陷边界及对初始轮廓线敏感等不足,因而后续有许多改进的方法。
[0005] 另外基于神经网络的分割方法,自从Long等人于2014年提出FCN算法(Fully Convolutional Networks)之后,就将端到端的卷积网络推广到语义分割中。其重新将预训练好的ImageNet网络用于分割问题中,使用反卷积层进行上采样,提出了跳跃连接来改善上采样的粗糙程度,但是FCN得到的结果距离实际应用还是有着一定的差距。虽然使用跳跃结构进行精度的提升,但是对于图像的边缘信息,模型无法很好的分离出来。对逐像素分类的过程当中,FCN没有充分考虑到像素间的联系,缺少空间一致性。Vijay等人于2015年提出SegNet(Semantic Segmentation)算法,该算法将大池化指数转移至解码器中,改善了分割分辨率。在FCN网络中,通过卷积层和一些跳跃连接产生了粗糙的分割图,为了提升效果而引入了更多的跳跃连接。然而,FCN仅仅复制了编码器特征,而SegNet复制了最大池化指数,这使得在内存使用上,SegNet比FCN更为高效。
[0006] Ronneberger等人提出的U-Net将浅层语义信息与深层语义信息相结合,使用Encoder与Decoder架构对于医疗图像进行分割,但是其特征提取的部分并不好。Yu等人于2016年提出了空洞卷积层(DilatedConvolutions),在不降低空间维度的前提下增大了相应的感受野指数。在接下来将提到的DeepLab中,空洞卷积被称为多孔卷积(Atrous Convolution)。从预训练好的分类网络中(这里采用VGG,Visual Geometry Group Network)移除最后两个池化层,而用空洞卷积取代了随后的卷积层。DeepLabV2和V3中使用了空洞卷积,并且在空间维度上实现金字塔型的空洞池化ASPP(Atrous Spatial Pyramid Pooling),同时使用了全连接条件随机场,空洞卷积在不增加参数量的情况下增大了感受野。
[0007] Zhao等人于2017年提出了PSPNet(Pyramid Scene Parsing Network)该算法提出了金字塔池化模块来聚合背景信息,并使用了附加损失(Auxiliary Loss)。另外全局场景分类很重要,由于它提供了分割类别分布的线索,金字塔池化模块使用大内核池化层来捕获这些信息。和上文提到的空洞卷积系统一样,PSPNet也用空洞卷积来改善ResNet结构,并添加了一个金字塔池化模块,该模块将ResNet的特征图谱连接到并行池化层的上采样输出,其中内核分别覆盖了图像的整个区域、半个区域和小块区域。
[0008] Chen等人又于2018年提出了DeepLabV3+模型,使用空间金字塔池模块和编码-解码器结构被用于深度神经网络用于语义分割任务。前一种网络能够通过以多种速率和多个有效视场探测具有滤波器或汇集操作的输入特征来对多尺度上下文信息进行编码,而后一种网络能够通过逐渐恢复空间信息来捕获更清晰的对象边界。该算法结合两种方法的优点,通过添加一个简单而有效的解码器模块来扩展DeepLabv3+,以细化分割结果,特别是沿着对象边界。通过进一步探索Xception模型,并将深度可分离卷积应用于ASPP(Atrous Spatial Pyramid Pooling)和解码器模块,构造了更快更强的编码器-解码器网络,但是却存在计算资源消耗大等缺点。金字塔结构作为语义分割的一个模块,具有很好的整合性,可以很容易的添加在任何神经网络结构中,在进行上下文信息提取的过程中,获得了优秀的效果。但是金字塔结构存在一些缺陷,例如对于提取到的信息来说,什么是真正需要网络去重视的部分,这一点金字塔结构并没有很好的解释。

具体实施方式

[0030] 为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本发明。
[0031] 请参考图1所示,本发明提供一种基于注意力卷积神经网络的CT图像分割系统,包括特征编码模块、语义信息提取注意力模块、特征融合池化注意力模块和特征图解码模块;其中,所述特征编码模块使用并联卷积神经网络来逐步减小输入图像的特征图大小,通过网络层复用以及各层特征的截取与融合,实现同时提取出图像的语义信息特征和空间信息特征;所述语义信息提取注意力模块使用池化生成注意力特征,将所述特征编码模块提取的语义信息特征进一步精练细化;所述特征融合池化注意力模块使用最大池化与平均池化并联,将经过所述语义信息提取注意力模块精细化的语义信息特征与经过所述特征编码模块拼接的语义信息和空间信息特征进行融合组成为注意力特征图;所述特征图解码模块使用卷积模块与上采样模块,将所述特征融合池化注意力模块融合的注意力特征图逐步精细还原为输入图像大小。
[0032] 与现有技术相比,本发明提供的基于注意力卷积神经网络的CT图像分割系统,首先通过使用卷积神经网络逐步减小输入图像的特征图大小,进而提取出丰富的语义信息特征用以优化分类任务,同时在语义信息特征提取时通过网络设计,减少空间信息特征压缩的损失,由于同时考虑到语义信息和空间信息的提取,由此不但能够提高图像分割执行效率,而且能够学习到更多的特征且收敛速度非常快,同时具有较高的相似度(dice)值和较低的损失(loss)值;接着使用语义信息提取注意力模块来优化语义信息的提取;然后使用特征融合池化注意力模块将语义信息提取注意力模块精细化的语义信息特征与特征编码模块拼接的语义信息和空间信息特征相结合,通过池化注意力进行融合处理得到注意力特征图,由于通过融合将语义信息特征和空间信息特征有效地结合在了一起,因此无论是在精准率上还是召回率上各项指标都得到了较大提升,进而带来了较高的分割精度提升;最后使用特征图解码模块进行上采样和卷积操作,将注意力特征图逐步精细还原为输入图像大小。另外,本发明提供的分割系统模型与目前典型的分割网络相比,本发明对于CT图像数据集分割具有更高的适应性。
[0033] 具体地,关于特征编码模块的设计背景如下:众所周知,对于语义分割任务来说,空间信息与语义信息同样重要,传统的深度学习方法使用串联卷积的方式,通过卷积与池化来一步一步缩小特征图的大小以达到提取语义信息与空间信息的目的,例如FCN、SegNet、U-Net、DeepLab等方法。但是通过缩小特征图的方式,在其过程中会无可避免的损失掉空间信息,所以很多模型针对这一点进行了大量的改进,例如:DeepLabV3、PSPNet使用金字塔池化与空洞卷积提取空间信息,BiseNet使用重新增加一个很短的网络,来进行空间特征提取,DenseaASPP使用Dense的连接结构,将特征空间损失降到最小,PAN在主干网络的尾部与中间,增加注意力模块以增加网络的空间特征提取力。但是如果过于注重空间信息,又无法得到非常精确的语义信息,造成两难的局面。对此本发明通过设计一个网络,同时进行语义信息提取和空间信息提取这两个复杂的任务,在仅增加少量网络参数的情况下,通过网络层复用,以及各层特征的截取与融合,实现同时提取出空间信息和语义信息特征,并且不会带来额外的损失。
[0034] 作为具体实施例,请参考图2所示,所述特征编码模块包括顺序设置的第一卷积模块、第二卷积模块、第一至第四瓶颈通路和第一拼接操作模块,所述第一卷积模块包括顺序设置的卷积层(Conv)和批正则化(BN),所述第二卷积模块包括顺序设置的卷积层(Conv)、批正则化(BN)和ReLu激活函数,所述第一至第四瓶颈通路并行设置,从所述第一瓶颈通路开始到第四瓶颈通路结束,每条瓶颈通路中的瓶颈层(Bottleneck)不断减少,而第二至第四瓶颈通路相比于第一瓶颈通路输出特征图的大小不断缩小,且每个瓶颈层最终输出的特征图通道数随着层数的增加而增加,所述第一拼接(concat)操作模块将四个瓶颈通路提取的语义信息特征和空间信息特征进行拼接。本实施例提供的特征编码模块设计,一改传统的卷积串联模式,使用并联的方式以同时提取语义信息特征与空间信息特征,设计网络时将瓶颈层(Bottleneck)设置为4条并行通路,由于每条通路上特征图的大小没有改变,所以空间信息特征得以保留,并且由于每条通道特征图尺度大小不同,所以实现了多尺度特征图的结合;每条通路特征图大小逐步减小,因而在每条通路的顶层实现了语义信息特征的提取。
[0035] 作为优选实施例,请参考图2所示,所述卷积层的卷积核大小为3×3,步长为2,由此第一卷积模块和第二卷积模块能用以缩小输入图像的特征图,减少计算量。
[0036] 作为优选实施例,请参考图2所示,所述第一至第四瓶颈通路中瓶颈层数分别为4、3、2、1,而第二至第四瓶颈通路相比于第一瓶颈通路输出的特征图大小分别为1/2、1/4、1/
8,且第一至第四瓶颈通路中输出特征图的通道数分别为128、256、512和1024,由此可以更好地同时提取语义信息特征和空间信息特征。
[0037] 作为具体实施例,请参考图3所示,每个瓶颈层包括顺序设置的三个卷积单元、相加单元(Add)和ReLu激活函数单元,每个卷积单元包括顺序设置的卷积核(ConV2D)、批正则化(BN,Batch Normalization)和ReLu激活函数,所述相加单元还与输入至第一个卷积单元的卷积核中的特征图跳跃连接,以此本发明为卷积层添加了跳跃连接与ReLu激活函数,这样可以通过网络的学习自主选择卷积神经网络的通路,从而更进一步提升精度。
[0038] 具体地,针对语义信息特征,本发明为该任务重新重点设计了语义信息提取注意力模块(Semantic Information Extraction Attention Module,SIEAM)。作为具体实施例,请参考图1和图4所示,所述语义信息提取注意力模块包括第一通道注意力模块、第二通道注意力模块、全局池化模块、乘操作模块以及第二拼接操作模块,所述第一通道注意力模块和第二通道注意力模块并列设置,每个所述通道注意力模块包括顺序设置的用于捕捉输入特征图中上下文语义特征信息的全局平均池化,用于计算语义信息权重的卷积(ConV2D),在卷积之后用于细化语义信息提取的批正则化(BN)和Sigmoid激活函数,以及用于将细化后的语义信息与输入特征图相乘的乘(Mul)操作,所述乘(Mul)操作模块用于将第二通道注意力模块输出的特征图与该特征图经全局池化模块处理后的输出特征图相乘,所述第二拼接(concat)操作模块用于将第一通道注意力模块输出的特征图与乘操作模块的输出特征图进行拼接,通过相乘以此作为权重影响输入特征图,从而达到细化语义信息的任务;其中,两个所述通道注意力模块的输入特征图通过对接特征编码模块提取的语义信息特征获得,具体请参考图2所示,图2中最左的瓶颈层(Bottleneck)与次左的上层瓶颈层(Bottleneck)中富含大量的语义信息特征,所以针对这两个Bottleneck,将语义信息提取注意力模块(SIEAM)中的两个通道注意力模块与这两个瓶颈层一一对应对接,具体将最左的瓶颈层与第二通道注意力模块连,而将次左的上层瓶颈层与第一通道注意力模块连,由此将这两个瓶颈层提取的语义信息特征分别一一作为两个通道注意力模块的输入特征图,之后经语义信息提取注意力模块细化后送至特征融合池化注意力模块整合,据此SIEAM在实现整合大量的全局上下文语义信息特征前提下,仅仅增加了一点计算成本。
[0039] 具体地,关于特征融合池化注意力模块的设计背景如下:虽然特征编码模块可以充分提取到图像特征的空间信息,通过语义信息提取注意力模块也可以更加精细语义信息的提取,但是空间信息与语义信息并不匹配,需要一个模块去整合这两个信息而不是去粗暴的融合。因此本发明提出了特征融合池化注意力模块(Feature Fusion Pooling Attention Module,FFPAM),将语义信息特征与空间信息特征通过该模块进行融合,并作为注意力信息施加在特征图上,由此可以保证上下文语义信息与空间信息充分融合,从而提升分割精度。
[0040] 作为具体实施例,请参考图5所示,所述特征融合池化注意力模块包括第三卷积模块、平均池化通路、最大池化通路和双路池化乘操作模块,所述第三卷积模块(包括卷积ConV2D-BN-ReLU激活函数)用于对融合的语义信息特征和空间信息特征的混合信息特征进行提取并同时转换信息的通道,所述平均池化通路和最大池化通路并联设置分别用于对第三卷积模块提取的特征进行处理,所述双路池化乘操作模块用于对平均池化通路和最大池化通路处理后的两路特征相乘组成为注意力特征图。本发明通过并联的平均池化通路和最大池化通路共两路来融合空间信息特征与语义信息特征,由此可以增加模型的感受野,并增强模型的特征提取能力,而且两路特征相乘组成的注意力特征图,同时具有平均池化通路的特征和最大池化通路的特征,将该注意力特征与输入特征图相乘,叠加在输入特征上,作为权重以影响输入特征图,最后使用ResNet中跳跃连接的结构,可以减少注意力模块对于输入特征图的负影响并输出最终特征图。本实施例中的特征融合池化注意力模块,通过两条路线相乘成功将上下文语义信息与图像空间信息结合在一起,带来了较高的精度提升,为了验证平均池化与最大池化的效用,本发明实验测试了单路最大池化、单路平均池化、双路池化相加、双路池化合并与双路池化相乘这5种情况,实验证明双路池化相乘确实带来了最佳的精度,并通过设计该模块的有无,证明了该模块提升了2.71%的相似度(dice)精度。
[0041] 作为优选实施例,请参考图5所示,所述平均池化通路使用两个串联的平均池化模块(包括平均池化AvgPool-卷积ConV2D-ReLU激活函数)对特征进行处理作为特征提取第一通路,第二平均池化模块中ReLU激活函数的输出与该通路的输入特征图相乘后,再将相乘组成的特征图与该通路的输入特征图相加作为该通路最终输出结果;所述最大池化通路使用两个串联的最大池化模块(包括最大池化MaxPool-卷积ConV2D-ReLU激活函数)对特征进行处理作为特征提取第二通路,第二最大池化模块中ReLU激活函数的输出与该通路的输入特征图相乘后,再将相乘组成的特征图与该通路的输入特征图相加作为该通路最终输出结果;最后将两个通路最终输出的特征与第三卷积模块提取的特征(即第三卷积模块中ReLU激活函数的输出)相乘,再将相乘的结果与第三卷积模块提取的特征相加(Add)后经ReLU激活函数组成为注意力特征图。
[0042] 作为具体实施例,请参考图6所示,所述特征图解码模块包括顺序设置的第一上采样模块(Upsample)、第四卷积模块(包括卷积Conv-BN-ReLU激活函数)、第二上采样模块(Upsample)、第五卷积模块(包括卷积Conv-BN-ReLU激活函数)和第六卷积模块(包括卷积Conv-BN-ReLU激活函数),所述第一上采样模块和第四卷积模块输出的特征图大小相同(例如为96,128),所述第二上采样模块、第五卷积模块和第六卷积模块输出的特征图大小(例如为192,256)均与输入图像相同。本实施例通过使用三个卷积模块来对上采样信息进行精细化处理,由此达到一步一步细化分割结果,最终实现精度提升。
[0043] 作为具体实施例,所述第一上采样模块和第二上采样模块的采样系数为2,具体可使用现有的双线性插值法进行采样,即采用双线性插值法2倍上采样来进行采样,并通过卷积模块对双线性插值法上采样带来的一定空间信息损失进行精细化处理,进而减小了采样带来的空间信息损失。
[0044] 作为优选实施例,在设计本发明提供的CT图像(如胰腺图像)分割系统模型时,首先需要准备数据集并对数据集进行预处理,处理为模型所需要的输入,以提升模型的鲁棒性。具体地,数据预处理包括:对每个切片进行处理,将像素大于240的像素全部归为240,将像素小于-100的像素,全部归为-100,计算公式如下:
[0045] image Pixel[Pixel<low_range]=low_range
[0046] image Pixel[Pixel>high_range]=high_range
[0047] 其中image Pixel为图像像素,low_range为-100,high_range为240。然后对各切片进行归一化,使其像素强度等比映射在(-1,1)之间。
[0048] 数据集准备包括:采用公开数据集NIH pancreas segmentation dataset,并使用4折交叉验证,将数据集分为训练集、验证集和测试集三部分。其中训练集与验证集共62个样本,测试集总共20个样本。在训练时,使用Adam优化器,初始学习率设置为10-5,之后每
10epochs(可理解为批次,等于使用训练集中的全部样本训练一次)学习率衰减0.2,实验中共重复训练100批次。结果表明,从头开始训练医学图像与微调自然图像预训练的模型相比,可以实现更好的性能且训练时间更短。
[0049] 与现有技术相比,本发明提供的基于注意力卷积神经网络的CT图像分割系统优点如下:
[0050] 第一、在特征编码模块中,本发明使用FCN相对于主干网络比较进行了实验,本发明由于使用了学习率衰减、初始化参数、正则化输入和防止过拟合等策略,从训练过程图7中可以看出重复100epochs的情况下,本发明提出的系统方案图像中物体分割具有较高的dice值;由于同时考虑到语义信息与空间信息,可以看到收敛速度非常快,同时loss值要比基线FCN要低,也体现在dice值要比FCN更高。
[0051] 第二、本发明所使用的交叉并行网络在提取图像信息的过程中,比FCN学习到了更多的特征。如下表1所示,在参数量远远小于VGG16为基本架构的FCN的同时,本发明的网络不论在精准率还是召回率或是dice分数上,得分都远高于FCN,这证明了本发明所使用的特征编码模块的有效性。
[0052] 表1
[0053]模型 平均dice% 最大dice% 最小dice% 精准率 召回率 参数量
FCN 69.02±6.3 76.14 49.48 0.7092 0.6754 134.3M
FEM 78.93±5.6 86.54 65.15 0.8339 0.7543 16.15M
[0054] 第三、本发明在特征融合池化注意力模块中,如下表2所示,将特征融合池化注意力模块的通路设置为一条,将平均池化通路与最大池化通路两条通路相乘做实验,各方面指标都得到了较大的提升,所有指标均高于前项,两条通路结果相乘成功将上下文语义信息与图像空间信息结合在一起,带来了较高的精度。
[0055] 表2
[0056]
[0057]
[0058] 第四、如下表3所示,本发明所使用框架在参数量远远少于目前典型网络FCN与U-Net的情况下,dice值有着较大的提升。
[0059] 表3
[0060] 模型 基础网络 Dice% 参数量FCN VGG16 80.3 134.3M
U-Net VGG16 79.7 23.3M
Bisenet XceptionV1 82.8 44.8M
本系统所使用框架 FEM 86.6 18.9M
[0061] 第五、如下表4所示,本发明将与目前典型的网络对比,以观察各模型对于胰腺CT数据集的适应性。在目前82个样本之中,大部分模型使用了62/20训练/测试集比,#Folds为交叉验证的折数可以看到,本发明系统模型高于目前的这些典型模型。
[0062] 表4
[0063]
[0064] 第六、本发明对于各模块的融合实验与之前的实验一样,使用20个样本作为测试集,接着对这20个样本分别测试其精准率、召回率和dice值。如下表5所示,可以看到Base+Decoder+ARM+GAM,除了精准率略低于Base+Decoder+ARM以外,在召回率与dice值的体现上,都远远高于其他,这也验证了所有模块叠加的有效性。
[0065] 表5
[0066] 模型 平均dice% 最大dice% 最小dice% 精准率 召回率 参数量FCN(baseline) 69.02±6.3 76.14 49.48 0.7092 0.6754 134.3MFEM+FDM 82.81±4.2 88.54 74.07 0.8477 0.8115 16.15M
FEM+FDM+SIEAM 83.91±4.4 89.70 73.89 0.8726 0.8106 18,96M
FEM+FDM+SIEAM+FFPAM 86.62±3.6 91.31 78.91 0.8607 0.8737 19.8M
[0067] 同时请参考图8所示,第1行为分割前的图像Image,第2行为标签GT,第3行为FCN所分割测试结果,第4行为U-Net所分割测试结果,第5行为FEM+FDM所分割测试结果,第6行为FEM+FDM+SIEAM+FFPAM也就是最终算法所分割测试结果。根据该图可以看出,由于FCN将分割小的特征图使用转置卷积直接上采样,该结果缺乏边缘平滑性,呈现出马赛克一样的分割结果。由于U-Net具有平缓的上采样,所以该算法很好的平滑了FCN生硬的边缘特征,但是U-Net在细节分割上,产生了很多的额外的小碎片,不如在第4行的第2张、第3张、第4张分割预测图上,都出现了细小的碎片。在第5行,本发明使用的FEM+FDM上,由于有效的保留了图像的空间信息与语义信息,有效的减少了U-Net在分割过程中产生的碎片,使整个画面变得干净;但是在细节分割中,存在一些欠缺。比如在第5行的第2张,胰腺的褶皱并没有有效的分割出来,在第5行的第3张,胰腺区域被过多分割。在此基础上本发明增加了两个注意力模块专注解决上面所存在的细节缺陷。在第6行,本发明使用的最终模型在有效解决分割目标周围区域碎片化的同时,对于细节区域也较FEM+FDM更加完善,整体也更加接近GT。
[0068] 最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。

当前第1页 第1页 第2页 第3页