基于多尺度时空融合网络的视频去雾方法及系统

基于多尺度时空融合网络的视频去雾方法及系统实质审查发明

技术领域

[0001] 本发明涉及计算机视觉技术领域，尤其涉及一种基于多尺度时空融合网络的视频去雾方法及系统。

具体实施方式

[0061] 下面结合附图具体阐明本发明的实施方式，实施例的给出仅仅是为了说明目的，并不能理解为对本发明的限定，包括附图仅供参考和说明使用，不构成对本发明专利保护范围的限制，因为在不脱离本发明精神和范围基础上，可以对本发明进行许多改变。

[0062] 本发明实施例提供的基于多尺度时空融合网络的视频去雾方法，包括步骤：

[0063] S1、对将要进行处理的雾霾视频进行分帧处理，生成由多个原始图像帧按照时序构成的原始图像帧序列；

[0064] S2、采用自动色彩均衡技术对原始图像帧序列进行预处理，得到对应的预处理图像帧序列；

[0065] S3、将原始图像帧序列和预处理图像帧序列输入构建的多尺度时空融合网络进行去雾，得到去雾图像帧序列。

[0066] (1)步骤S1

[0067] 雾霾视频的每一帧图像被独立提取出来，为后续的处理步骤提供基础数据。

[0068] (2)步骤S2

[0069] 步骤S2对每张原始图像帧应用自动色彩均衡(ACE)技术，通过调整图像的亮度和对比度来提升整体视觉效果，并进行初步色彩校正。然后，保存经过色彩均衡处理后的图像，作为多尺度时空融合网络的输入之一，为后续的处理步骤提供优化的图像数据。

[0070] 具体的，针对每一张原始图像帧，自动色彩均衡技术具体包括步骤：

[0071] S21、色彩空域调整：调整图像的亮度、对比度和色彩平衡，确保图像在视觉上更加均衡和自然，完成图像的色差校正，能够显著改善图像的可见度，使其更加适合后续处理；

[0072] S22、动态拓展：对校正后的图像进行动态拓展，从而提高图像的对比度和亮度，动态拓展公式如下：

[0073]

[0074] 其中，R(x)表示经过步骤S21得到原始图像帧中像素点x的像素值，L(x)表示拓展得到的像素点x的像素值，Rmin表示经步骤S21后的整个原始图像帧中所有像素值中的最小值，Rmax表示经步骤S21后的整个原始图像帧中所有像素值中的最大值。通过减去最小值并除以范围，将R(x)转换到[0,1]的区间内，使得图像的对比度得到增强。

[0075] 通过上述步骤，ACE生成了对比度高、亮度提升的图像。ACE可以视作人类视觉系统的简化模型，其增强过程与人类的感知一致，有助于在视频处理过程中生成更符合视觉感知的高质量图像。

[0076] (3)步骤S3

[0077] 1)多尺度时空融合网络的整体结构

[0078] 多尺度时空融合网络的结构如图1所示，包括编码器、低频信息传递模块、解码器和重建模块。编码器模块用于将当前帧、当前帧的前三帧共四帧的预处理图像帧和原始图像帧作为输入，从5个不同的维度进行特征提取，得到五个维度的特征增强图像帧。低频信息传递模块用于对五个维度的特征增强图像帧进行低频信息提取，得到对应的五个维度的低频信息输入解码器。解码器用于将第五个维度的特征增强图像帧和五个维度的低频信息作为输入，进行时空特征移位和时空特征融合，得到特征融合图像帧；重建模块用于对特征融合图像帧进行重建，得到对应四帧的无雾图像帧。

[0079] 其中，编码器基于通道注意力机制，分别从五个维度实现对图像的色彩恢复和逐层特征提取，有效保留图像中的低频信息。之后，低频信息传递模块通过长距离跳跃连接与多尺度映射单元进一步传递浅层特征中的低频信息，动态调整特征响应以提高浅层特征的利用效率。解码器通过分组空间位移和窗口多头自注意机制，增强了模型对时序和空间信息的捕捉能力。最终，通过重建模块将融合后的高维特征转换为目标RGB格式的图像，确保输出图像的空间分辨率和色彩精度。

[0080] 2)编码器

[0081] 编码器的结构如图1所示，顺序设有五个特征提取单元(CFEB1至CFEB5)，编码器的处理流程包括步骤：

[0082] B1、将四帧预处理图像帧和原始图像帧输入第一个特征提取单元(GFEB1)进行第一维度的特征提取，得到第一维度的四帧特征增强图像帧；

[0083] B2、将第一维度的四帧特征增强图像帧和四帧原始图像帧输入第二个特征提取单元(GFEB2)进行第二维度的特征提取，得到第二维度的四帧特征增强图像帧；

[0084] B3、将第二维度的四帧特征增强图像帧和四帧原始图像帧输入第三个特征提取单元(GFEB3)进行第三维度的特征提取，得到第三维度的四帧特征增强图像帧；

[0085] B4、将第三维度的四帧特征增强图像帧和四帧原始图像帧输入第四个特征提取单元(GFEB4)进行第四维度的特征提取，得到第四维度的四帧特征增强图像帧；

[0086] B5、将第四维度的四帧特征增强图像帧和四帧原始图像帧输入第五个特征提取单元(GFEB5)进行第五维度的特征提取，得到第五维度的四帧特征增强图像帧；

[0087] B6、将五个维度的四帧特征增强图像帧输入低频信息传递模块，将第五维度的四帧特征增强图像帧输入编码器。

[0088] 作为一种示例，五个特征提取单元的输入输出维度如下：

[0089] GFEB1：初始输入维度为3，最终输出维度为64；

[0090] GFEB2：初始输入维度为64+12，最终输出维度为96；

[0091] GFEB3：初始输入维度为96+24，最终输出维度为192；

[0092] GFEB4：初始输入维度为192+48，最终输出维度为384；

[0093] GFEB5：初始输入维度为384+96，最终输出维度为768。

[0094] 每个GFEB单元的特征提取过程相似，以GFEB1为例，参考图2所示的GFEB1的结构图，该GFEB1的特征提取过程包括步骤：

[0095] G1、将输入特征图进行卷积后与输入特征图FG0进行通道连接(Cat操作)，得到特征图FG1；

[0096] G2、将特征图FG1先后进行卷积(conv，输入维度：3，输出维度：3，卷积核：3×3，步幅：1)、PReLU激活函数(对卷积后的特征图进行非线性变换，提高模型的表达能力)、卷积(conv，输入维度：3，输出维度：3，卷积核：3×3，步幅：1)，生成特征图FG2；

[0097] G3、将特征图FG2先后进行全局平均池化(提取全局特征信息，为注意力机制提供上下文信息)、卷积(输入维度：3，输出维度：1，卷积核：1×1，步幅：1)、PReLU激活函数(对通道特征图进行处理，保持非线性)、卷积(输入维度：1，输出维度：3，卷积核：1×1，步幅：1，提供更精细的特征调整)、Sigmoid函数(生成注意力权重图，用于自适应调整每个通道的特征权重)，生成权重信息；将权重信息与特征图FG2进行相乘得到特征图FG3；

[0098] G4、将输入特征图FG0与特征图FG3相加(减少低频信息的衰减，保留更多的图像细节)，得到特征图FG4；

[0099] G5、将特征图FG4先后进行卷积(输入维度：3，输出维度：64，卷积核：3×3，步幅：1)、卷积(对输入特征图进行卷积操作，输入维度：64，输出维度：64，卷积核：3×3，步幅：2)、卷积(输入维度：64，输出维度：64，卷积核：3×3，步幅：1)，得到特征图FG5。

[0100] 3)低频信息传递模块

[0101] 得到编码器处理后的高质量特征图后，为了保留编码器提取到的浅层特征中的低频信息，并确保这些信息能够被高效地利用，本实施例通过长距离跳跃连接将低频信息直接传递给解码器，并在此过程中引入了多尺度映射单元。

[0102] 如图1所示，低频信息传递模块包括四个低频信息传递单元LFITM1至LFITM4，分别用于提取GFEB2至GFEB5输出的特征增强图像帧的低频信息。

[0103] 每个低频信息传递单元的结构是相同的。任一低频信息传递单元的操作包括步骤：

[0104] L1、提取浅层特征：从特征提取单元中提取初始低频特征；

[0105] L2、传递浅层特征：使用长距离跳跃连接，将初始低频特征直接传递到解码器，这样可以防止这些浅层特征在深层网络中丢失，从而保留更多的图像细节。

[0106] 在步骤L2的传递过程中，引入了多尺度映射单元对浅层特征进行处理，以便与解码器提取到的深层特征更好地融合。

[0107] 多尺度映射单元：从多尺度出发，设计了多个具有不同感受野大小的映射层，并基于它们来获得全局信息表示，进一步地，通过不同尺度信息引导的softmax注意力，从而获得每个尺度对应的权重表示，最后对它们进行加权求和。具体包括步骤：

[0108] L21、多尺度卷积操作：分别通过四个卷积核大小不同的卷积操作(卷积核分别为1×1、3×3、5×5、7×7)，对输入特征图生成四组不同尺度的特征图；

[0109] L22、多尺度特征融合：通过逐元素求和操作，将四组不同尺度的特征图进行融合，得到融合特征图；

[0110] L23、全局平均池化：提取融合特征图的全局信息；

[0111] L24、全连接层：将全局信息通过全连接层得到紧凑特征，从而实现更精确和自适应的指导；

[0112] L25、四个全连接层：将紧凑特征分别通过4个全连接层，得到各个尺度对应的权重；

[0113] L26、特征加权：将权重与对应尺度的输入特征图进行加权求和，得到最终的输出特征图。

[0114] 在多尺度映射单元之后，还具有设有步骤：

[0115] L27、特征重构：将多尺度映射单元的输出特征图进行重构，生成高质量的重构特征图输入解码器。

[0116] 采用低频信息传递模块，能够有效地保留和利用浅层特征中的低频信息，充分整合所有提取到的高低维特征，提升整体特征表达能力，并确保训练过程的稳定性。

[0117] 4)解码器

[0118] 如图2所示，解码器包括四个时空特征移位及融合单元STAF1及STAF4，第五个特征提取单元的特征增强图像帧和第四个低频信息传递单元输出的重构特征图输入第一个时空特征移位及融合单元STAF1进行第一次时空特征移位及融合，得到第一融合特征图；将第一融合特征图和第三个低频信息传递单元输出的重构特征图输入第二个时空特征移位及融合单元STAF2进行第二次时空特征移位及融合，得到第二融合特征图；将第二融合特征图和第二个低频信息传递单元输出的重构特征图输入第三个时空特征移位及融合单元STAF3进行第三次时空特征移位及融合，得到第三融合特征图；将第三融合特征图和第一个低频信息传递单元输出的重构特征图输入第四个时空特征移位及融合单元STAF4进行第四次时空特征移位及融合，得到第四融合特征图输入重建模块。

[0119] 每个时空特征移位及融合单元的操作是相同的，参考图3所示的时空特征移位及融合单元的结构图，每个时空特征移位及融合单元的操作具体包括步骤：

[0120] T1、聚合当前帧fi与其相邻的前一帧fi‑1，聚合当前帧fi与其相邻的前二帧fi‑1、fi‑2，聚合当前帧fi与其相邻的前三帧fi‑1、fi‑2、fi‑3，得到三组聚合特征；

[0121] T2、采用三个时空移位模块(STFS)对三组聚合特征分别进行时空移位，得到三组移位聚合特征(使模型更好地捕捉空间信息并对特征进行对齐)；

[0122] T3、对三组移位聚合特征进行融合(Fusion)，得到融合聚合特征；

[0123] T4、对融合聚合特征进行上采样(UpSample)，得到高维特征输入重建模块。

[0124] 其中，参考图4所示的时空移位模块的结构图，时空移位模块(STFS)执行的操作包括步骤：

[0125] T21、对输入的一组聚合特征进行空间移位，得到空间移位特征；

[0126] T22、应用窗口多头自注意机制(W‑MSA)对空间移位特征和当前帧fi的一部分分别生成多个局部窗口，并对每个空间移位特征的局部窗口生成对应的K(Key，键)值矩阵和V(Value，值)值矩阵，对每个当前帧fi的局部窗口生成Q(Query，查询)值矩阵；

[0127] T23、对每个局部窗口的K值矩阵、V值矩阵和Q值矩阵进行融合，得到局部窗口融合特征；对所有局部窗口融合特征进行融合，得到该组聚合特征所对应的移位聚合特征(进一步提升特征的表达能力，使模型能够更好地捕捉和利用空间信息)。

[0128] 如图4所示，对于包括当前帧fi与其相邻的前一帧fi‑1的第一组聚合特征，步骤T21具体包括步骤：

[0129] T211、将当前帧fi分为fia和fib两部分，将前一帧fi‑1分为和两部分；

[0130] T212、特征切片：特征组沿通道维度得到M个特征切片，其中的第m个特征切片表示为其中m＝1,....,M是切片索引；

[0131] T213、平移特征片：对于每个特征片在x和y方向上对其进行Δxm,Δym∈{‑9,‑5,0,5,9}像素的空间移位(Spatial Shift)，得到平移后的特征片

[0132]

[0133] |Δxm|＝kx*(s‑1)+1,|Δym|＝ky*(s‑1)+1

[0134] 其中，Shift()表示移位操作，kx、ky是整数，s被定义为空间移位的底长。当空间移动导致边界中的空白像素时，我们将s设置为零。对于一个Δxm像素位移，对应的特征组在空间上以Δxm‑1像素位移，然后是一个深度方向的3×3卷积，该卷积跨两个位移处理对象，并在两个相邻的位移特征切片之间实现平滑平移。然后沿通道维度将所有特征组串联(Concat)起来，得到空间位移特征

[0135]b

[0136] T214、将fi和进行串联(Concat)，对串联结果和空间位移特征进行卷积后和串联结果相加，对相加结果进行卷积后和相加结果进行再次相加，得到第一特征图；

[0137] T215、对进行卷积后和相加，对相加结果进行卷积后和相加结果进行再次相加，得到第二特征图；

[0138] T216、串联连接第一特征图和第二特征图，得到第一组聚合特征的空间移位特征；

[0139] T217、将fia作为当前帧fi的一部分输入窗口多头自注意机制(W‑MSA)。

[0140] 对于包括当前帧fi与其相邻的前二帧fi‑1、fi‑2的第二组聚合特征，步骤T21与上述步骤T211至T216相似，在于生成的第二特征图加入了对fi‑2的空间移位特征。对于包括当前帧fi与其相邻的前三帧fi‑1、fi‑2、fi‑3的第二组聚合特征，步骤T21与上述步骤T211至T216相似，在于生成的第二特征图加入了对fi‑2的空间移位特征，然后生成了加入fi‑3的空间移位特征的第三特征图，最后对第一特征图、第二特征图和第三特征图进行串联。

[0141] 窗口多头自注意机制(W‑MSA)具体包括步骤：

[0142] T221、划分窗口：特征图被划分为多个大小相同的局部窗口，每个窗口包含特定数量的像素块。

[0143] T222、多头自注意力机制：在每个局部窗口内，分别计算查询(Query)、键(Key)和值(Value)矩阵。使用多头自注意力机制计算每个位置的注意力权重，并对特征进行加权求和。这种机制使得每个位置的特征能够与窗口内的其他位置进行信息交互，从而增强特征表达能力。

[0144] T223、融合特征：将每个窗口内的特征进行融合处理，生成新的特征图。进一步提升特征的表达能力，使模型能够更好地捕捉和利用空间信息。

[0145] 步骤T3具体为：将三组经过时空移位后的特征进行堆叠(stack)，利用注意力机制，通过建模时间维度上的依赖关系，提高对时序特征的理解和处理能力。将上述相乘得到的结果进行Softmax归一化处理，之后将这些处理后的特征与当前帧的特征进行聚合，通过融合来自不同时间点的信息，最终生成一个更为综合的特征表示。在相邻STFS模块之间使用上采样结构，采用PixelShufflePack对通道进行像素混洗，降维的同时提高分辨率。

[0146] 更具体的，针对第一个STFS模块，步骤T3包括步骤：

[0147] T31、时空特征堆叠：将三组经过STFS后的特征堆叠(Stack)在一起，形成一个包含多个时间维度信息的特征组。这些特征组代表了不同时间点的图像信息，用以捕捉时间维度上的细微变化。假设三组特征分别为F1,F2,F3，则堆叠后的特征可以表示为：

[0148] Fstack＝Stack(F1,F2,F3)

[0149] 堆叠后的特征Fstack的维度为(N,3,C,H,W),其中N是批量大小，C是通道数，H和W分别是高度和宽度。

[0150] T32、查询特征生成：从提取当前帧的查询特征Fquery，并将其展平(Flatten)为二维矩阵Q：

[0151] Q＝Flatten(Fquery)

[0152] T33、相关性计算：将查询特征的二维矩阵Q与堆叠后的特征Fstack进行矩阵乘法，以计算当前帧与不同时刻特征之间的相关性。堆叠特征Fstack被转换为二维矩阵K和V(通过展平操作)：

[0153] K＝Flatten(Fstack)

[0154] V＝Flatten(Fstack)

[0155] 然后，计算查询特征Q与键K之间的相关性：

[0156]

[0157] 其中，A的维度为(N×H×W,3)，表示在不同时间点特征之间的相关性，上标T表示矩阵转置。

[0158] 这一步通过注意力机制建模时间维度上的依赖关系，使得模型能够更好地理解和处理时序特征。

[0159] T34、注意力加权与归一化：将上述相关性结果A通过Softmax函数进行归一化处理：

[0160] α＝Softmax(A)

[0161] 其中，α是在不同时间点的特征上分配的权重。Softmax函数能够在不同时间点的特征上分配权重，使得相关性较高的特征获得更大的关注，从而增强特征的表达能力。

[0162] T35、特征聚合：最后，利用注意力权重α对值进行加权求和，从而得到聚合特征：

[0163] Fout＝α·V

[0164] 最终，将聚合后的特征Fout与当前帧的特征Fquery进行融合：

[0165] Ffinal＝Concat(Fout,Fquery)

[0166] 最后，再经过一个卷积层以进一步处理和优化最终的特征表示。

[0167] T36、上采样：通过卷积和像素混洗对步骤T35生成的特征图进行上采样，降维的同时提升分辨率。具体过程如下：

[0168] T361、卷积层：对输入特征图进行卷积操作，扩展通道数，为后续的像素混洗做准备。

[0169] T362、像素混洗：对卷积后的特征图进行像素混洗操作，像素混洗将特征图的空间分辨率提升，并将增加的通道数重新排列到空间维度。

[0170] T37、返回上采样后的特征图，针对下一个STFS模块执行上述操作。

[0171] 5)重建模块

[0172] 重建模块首先对输入的特征图进行第一次卷积操作，然后应用非线性激活函数以提取并强化其内部的显著特征。接着，通过进一步的卷积操作，将特征图的通道数从较高维度逐步减少至目标输出的3个通道，以确保最终结果能够匹配目标图像的RGB格式。整个过程中，特征图的空间分辨率得以保持，从而确保经过非线性变换后的特征能够被有效提取和整合，为图像的精确重建提供坚实的基础。

[0173] 重建模块的具体过程如下：

[0174] R1、卷积层：对输入特征图进行卷积操作，卷积核：3×3，步幅：1，保持输出图像的空间尺寸不变。

[0175] R2、LeakyReLU激活函数：对第一层卷积的输出采用LeakyReLU函数进行激活操作，使用负斜率参数为0.1，以便在输入为负值时输出该值的0.1倍。

[0176] R3、卷积层：接收经过LeakyReLU激活后，使用1×1的卷积核进行处理，将通道数减少至目标输出的3个通道。其中，步幅：1，填充：0，保持输出图像的空间尺寸不变。

[0177] 为了应用上述方法，本发明实施例还提供一种基于多尺度时空融合网络的视频去雾系统，其设有智能体，该智能体用于执行上述基于多尺度时空融合网络的视频去雾方法。

[0178] 综上所述，本发明实施例提供一种基于多尺度时空融合网络的视频去雾方法及系统，通过分帧处理生成视频序列图像，应用自动色彩均衡技术进行预处理，以优化视觉效果；采用基于通道注意力机制的编码器，分别从五个维度实现对图像的色彩恢复和逐层特征提取，有效保留图像中的低频信息；通过低频信息传递模块进一步传递浅层特征中的低频信息，动态调整特征响应以提高浅层特征的利用效率；通过解码器进行时空特征对齐和融合，增强了模型对时序和空间信息的捕捉能力；通过重建模块将融合后的高维特征转换为目标RGB格式的图像，确保输出图像的空间分辨率和色彩精度。整体上，本发明及系统提供了一种高效、精确的视频去雾技术，适用于智慧交通、智能驾驶等下游应用场景。

[0179] 上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

查看完整全部详细技术资料

当前第1页第1页第2页第3页