首页 / 一种基于改进的U-net苹果图像分割方法和装置

一种基于改进的U-net苹果图像分割方法和装置有效专利 发明

技术领域

[0001] 本发明实施例涉及图像分割技术领域,尤其涉及一种基于改进的U‑net苹果图像分割方法和装置。

相关背景技术

[0002] 目前,苹果主要依靠人工收割,人工收割的季节性劳动力需求旺盛容易导劳动力短缺以及劳动力成本高。机械收割是一种广泛的利用摇动和捕获系统对树干或树枝施加振动以收集果树作物的收割方法。与传统的人工采摘相比,机械收割具有高效和适用大面积的优点,然而,它往往会导致苹果损伤而降低苹果的价值。因此,寻求技术创新以减少对人工劳动力的依赖及降低苹果损伤,而使用机器人进行选择性采摘。机器视觉系统对提高机器人采摘的效率至关重要。图像分割是机器视觉中的一项关键任务,机器人选择性采摘依赖于图像分割。
[0003] 现有的技术如专利文献CN2020114271911公开的一种基于U‑Net网络的青苹果图像分割方法及系统,该方法只考虑了青苹果的图像分割,不具有广泛性,同时未公布分割青苹果图像的准确率。技术文献(樊一杉.基于深度学习的苹果图像语义分割方法研究[J].智慧农业导刊,2023,3(16):5‑10.)提出了一种基于Deeplabv3+网络结构分割苹果图像,未分割真实场景下拍摄的苹果图像,误差较大,不具有通用性。

具体实施方式

[0048] 下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
[0049] 实施例
[0050] 图1为本发明实施例提供的一种基于改进的U‑net苹果图像分割方法的流程图,具体包括如下步骤:
[0051] S1、获取真实场景下的苹果图像并进行预处理,将预处理后的苹果图像数据作为数据集。
[0052] 上述S1具体包括:
[0053] S11:根据苹果园的环境以及苹果的成熟度,在不同的时间段对成熟度不同的苹果分别进行拍摄,从而获得原始的苹果图像。
[0054] 其中,不同的时间段可以包括早上、中午以及晚上三个时间段;不同的成熟度包括未成熟的苹果、成熟的苹果、半成熟的苹果等。
[0055] 具体的,在数据收集过程中,使用相机拍摄苹果树并沿着树行移动。本实施例以大约1m/s的速度缓慢移动,然后每5s提取一次图像,该拍摄方式可以使相机减轻运动模糊效果。此外,可以将数据采集分散到多天以获取更多信息不同的照明条件。
[0056] S12:对原始的苹果图像进行标注。
[0057] 可以采用标注工具对原始的苹果图像进行标注,例如可以利用labelme对原始的苹果图片进行标注,并且在标注时对肉眼无法分辨的苹果不进行标注。参见图2,图2示出了包括不同颜色和成熟周期不同阶段的苹果以及对应的标注图。
[0058] S13:对标注后的苹果图像进行水平翻转和垂直翻以得到增强后的数据集。
[0059] S14:把数据集按照8:1:1的比例划分为训练集,验证集和测试集。
[0060] S2、通过所述数据集对苹果图像分割网络进行训练,以得到训练好的苹果图像分割网络;所述苹果图像分割网络为改进的U‑net网络。
[0061] 参见图3,本实施例中的苹果图像分割网络CS_U‑net以U‑net网络为基础,包括依次连接的编码部分(Encoder)、跳跃连接、解码部分(Decoder)。
[0062] 具体的,编码部分的主干网络为ResnNet50网络并通过迁移学习(Transfer learning)将训练好的权重加到ResNet50网络上,跳跃连接处为改进的语义对齐结构,解码部分包括残差网络和上采样模块。
[0063] 进一步的,通过CS_U‑net网络对苹果图像分割网络进行训练,包括以下步骤:
[0064] 通过编码部分对数据集进行初步特征提取,以得到初步特征;将所述初步特征送入改进的语义对齐结构中进行信息重构,以得到重构后的特征图;将所述初步特征和重构后特征图传输至解码部分,以供解码部分进行网络训练。
[0065] 其中,编码部分的主干网络ResNet50具备更强的特征提取能力,ResNet50网络设计了残差网络的结构使得网络深度增加了,具体参见图4,残差网络结构图通过跨层之间的传播,避免了网络离loss越远的层,梯度越有可能消失的问题。
[0066] 进一步参见图5,图5为CS_U‑net网络中改进的语义对齐结构示意图,该语义对齐结构用于加强小目标的提取。改进的语义对齐结构结合了全局通道信息分布重构矩阵和局部通道信息分布重构,以确保全局语义信息的完整性。
[0067] 通过该结构对苹果图像进行信息重构,能提升苹果图像的分割效果。为了增强对小目标的分割能力,在改进的语义对齐结构中引入了CBAM注意力机制,改进了局部通道高斯函数的幅值以及映射的灵活性,并在其全局通道中加入残差网络。
[0068] 进一步参见图6,CBAM由通道注意力模块和空间注意力模块构成,其中通道注意力能调节不同通道的特征表示,空间注意力能调节不同空间位置的关键信息。输入特征图F∈C*H*W C*1*1R 经一维卷积输出MC∈R ,MC与F相乘得到 将F′输入到空间注意力模
1*H*W
块进行二维卷积得到Ms∈R ,将Ms与F′相乘得到 其中,F为编码部分提
取的初步特征。
[0069] 基于上述改进的语义对齐结构对编码模块提取的初步特征进行重构,包括:将编C*H*W码部分提取的初步特征F∈R 经全局通道信息结构和局部通道信息结构的重组得到重构C*H*W C*H*W
的矩阵D(F)∈R ,将初步特征F∈R 经过CBAM注意力机制的计算得到重构后的特征图F″;
[0070] 初步特征F∈RC*H*W经过改进的语义对齐结构重构后的特征图F′表达式为:
[0071]
[0072] 式中, 表示逐元素乘法,H表示每一帧苹果图片的高度,W表示每一帧苹果图片的宽度,C表示每一帧苹果图片的通道数。CBAM注意力机制增强了语义对齐结构提取特征的能力,残差机制进行了梯度优化。
[0073] 通道信息分布矩阵D(F)∈RC*H*W由全局通道信息分布重构矩阵Dh(F)∈RC*1*1和局部C*1*1通道信息分布重构矩阵DC(F)∈R 组合而成,使得改进的语义对齐结构能提取全局语义信息和局部语义信息。矩阵D(F)的计算公式为:
[0074]
[0075] 式中: 表示逐元素乘法,β为Tanh激活函数。经过激活函数之后,D(F)的维度由RC*1*1 C*H*W扩展到R 。
[0076] 输入特征图F经全局平均池化进行语义信息压缩,有利于卷积神经网络对特征图C*1*1的语义特征进行学习和调整优化,压缩后的语义特征为Fab∈R ,表达式为:
[0077]
[0078] 式中:F(i,J)表示特征图像素点(i,J)值。
[0079] 采用与SENet类似的机制对全局通道信息分布重构,为每层语义特征引入权重ω,引入残差网络平滑重构通道特征,有利于网络梯度优化。通过梯度更新建立全局通道重构矩阵与语义信息之间的映射关系,公式为:
[0080]
[0081] 式中,CW为残差网络, 为1×1卷积(输入通道为2048,输出通道为1024,偏置项为False),BN为批归一化层,ReLU为激活函数,δ(·)为1×1卷积(输入通道为1024,输出通道为2048,偏置项为False)。
[0082] 局部语义信息的分布符合高斯分布,使用高斯函数作为映射函数来构建输入的信息与局部的信息重构矩阵之间的关系,高斯分布函数方程为:
[0083]
[0084] 式中:μ为总体均值;σ2为总体方差。为了增强映射关系的鲁棒性,对输入的特征信息进行了归一化处理。定义了一个新的变量来适应特征图的变化:
[0085]
[0086] 将式(6)带入到式(5),可以得到简化后的高斯分布函数
[0087]
[0088] 为了使映射关系更加的灵活,引入变量γ∈[1,3]增加映射的灵活性,同时对高斯分布函数的幅值进行扩大,变换后的高斯分布函数可以表示为:
[0089]
[0090] 由式(3)、(6)、(7)、(8)得到局部重构矩阵与语义信息之间的映射关系为:
[0091]
[0092] 进一步的,在训练CS_U‑net网络过程中采用交叉熵损失函数计算每个部分的输出结果与标签结果的距离,并通过不同权重将各部分损失进行叠加,用于后续训练;同时,通过梯度反向传播方法,采用Adam优化算法和自动学习率对网络中的参数进行调整,以获得训练好的CS_U‑net网络;
[0093] 其中,使用的交叉熵损失函数表达式如下所示:
[0094]
[0095] 其中n为类别数,batch为批次大小,yij为真实分布, 为网络输出分布。
[0096] S3、通过训练好的苹果图像分割网络对苹果图像进行分割,以得到苹果图像的分割结果。
[0097] 本实施例中,根据训练的平均交并比(Mean Intersection over Union,MiOU)、准确率(precision)、召回率(Recall)以及F1分数(F1‑score)来选出最好的网络作为用于分割的CS_U‑net网络。
[0098] 进一步的,本实例中CS_U‑net网络模型与现有的模型U‑net、SegNet、PsPnet、HRNet、Deeplabv3+的平均交并比(Mean Intersection over Union,MiOU)、准确率(precision)、召回率(Recall)以及F1分数(F1‑score)相比如图7所示。结果显示,U‑net、SegNet、PsPnet、HRNet、Deeplabv3+模型中U‑net的各项性能最好,CS_U‑net网络模型的Miou、Precision、Recall和F1‑score比U‑net模型的对应性能分别提高了3.58%、9%、8%和8.48%。
[0099] 本实例中CS_U‑net网络模型与现有的模型在苹果图像进行分割对比如图8所示,图8(a)列为苹果图像,图8(b‑g)列分别为CS_U‑net、Deeplabv3+、HRNet、PsPnet、SegNet、U‑net的分割图结果图。图中红色矩形框区为各模型的分割效果对比区。在第一行的苹果集中区域、第二行的树叶遮挡区域和第三行的小苹果区域,CS_U‑net模型的分割效果最好。因此表明本发明提出的方法解决了小苹果目标信息丢失的问题,提升了网络的分割效果。
[0100] 本发明实施例还提供一种基于改进的U‑net苹果图像分割装置,包括:
[0101] 数据集获取模块,用于获取真实场景下的苹果图像并进行预处理,将预处理后的苹果图像数据作为数据集;
[0102] 训练模块,用于通过所述数据集对苹果图像分割网络进行训练,以得到训练好的苹果图像分割网络;所述苹果图像分割网络为改进的U‑net网络;
[0103] 分割模块,用于通过训练好的苹果图像分割网络对苹果图像进行分割,以得到苹果图像的分割结果。
[0104] 其中,数据集获取模块具体用于执行:
[0105] S11:根据苹果园的环境以及苹果的成熟度,在不同的时间段对成熟度不同的苹果分别进行拍摄,从而获得原始的苹果图像;
[0106] S12:对原始的苹果图像进行标注;
[0107] S13:对标注后的苹果图像进行水平翻转和垂直翻以得到增强后的数据集;
[0108] S14:把数据集按照比例划分为训练集,验证集和测试集。
[0109] 其中,所述苹果图像分割网络CS_U‑net以U‑net网络为基础,包括依次连接的编码部分、跳跃连接、解码部分;
[0110] 其中,编码部分的主干网络为ResnNet50网络并通过迁移学习将训练好的权重加到ResNet50网络上、跳跃连接处为改进的语义对齐结构、解码部分包括残差网络和上采样模块。
[0111] 所述改进的语义对齐结构引入了CBAM注意力机制,改进了局部通道的高斯函数并在其全局通道中加入残差网络。
[0112] 上述训练模块具体用于:
[0113] 通过编码部分对数据集进行初步特征提取,以得到初步特征;
[0114] 将所述初步特征送入改进的语义对齐结构中进行信息重构,以得到重构后的特征图;
[0115] 将所述初步特征和重构后特征图传输至解码部分,以供解码部分进行网络训练。
[0116] 其中,将所述初步特征送入改进的语义对齐结构中进行信息重构,包括:
[0117] 将编码部分提取的初步特征F∈RC*H*W经全局通道信息结构和局部通道信息结构的C*H*W C*H*W重组得到重构的矩阵D(F)∈R ,将初步特征F∈R 经过CBAM注意力机制的计算得到重构后的特征图F″;
[0118] 初步特征F∈RC*H*W经过改进的语义对齐结构重构后的特征图F′表达式为:
[0119]
[0120] 式中, 表示逐元素乘法,H表示每一帧苹果图片的高度,W表示每一帧苹果图片的宽度,C表示每一帧苹果图片的通道数。
[0121] 可选的,在训练模块中,通过交叉熵损失函数计算每个部分的输出结果与标签结果的距离,并通过不同权重将各部分损失进行叠加;
[0122] 同时,通过梯度反向传播方法,采用Adam优化算法和自动学习率对网络中的参数进行调整,以获得训练好的苹果图像分割网络;
[0123] 其中,交叉熵损失函数表达式为:
[0124]
[0125] 其中,n为类别数,batch为批次大小,yij为真实分布, 为网络输出分布。
[0126] 本发明实施例所提供的一种基于改进的U‑net苹果图像分割装置可执行本发明任意实施例所提供的一种基于改进的U‑net苹果图像分割方法,具备执行方法相应的功能模块和有益效果。
[0127] 注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

当前第1页 第1页 第2页 第3页