技术领域
[0001] 本发明涉及基于多任务交互促进的高动态范围成像方法,属于数字图像处理技术领域。
相关背景技术
[0002] 对于数字成像来说,成像设备的动态范围远远低于人眼所见的动态范围,这会导致图像过曝光或者欠曝光。过曝光和欠曝光都会导致图像中部分区域信息丢失。高动态范围成像技术就是用来解决低动态范围图像信息丢失的问题,目前大多采用单曝光图像重建或多曝光图像融合来从低动态范围图像得到高动态范围图像。单曝光图像重建可以生成没有伪影的图像,但因为输入的图像无法提供足够多的曝光信息,最后重建结果的亮度信息容易与真实场景不一致;多曝光图像融合多张低动态范围图像,因此网络可以从输入中获得丰富的曝光信息,这能使得融合结果的亮度分布与真实场景更相似。但是多曝光图像融合时由于不同输入图像之间会存在前景运动和背景运动,导致最终生成的结果存在难以抑制的伪影。针对此问题,提出了基于多任务交互促进的高动态范围成像方法。
具体实施方式
[0051] 实施例1:如图1‑图4所示,基于多任务交互促进的高动态范围成像方法,所述方法的具体步骤如下:
[0052] Step1:获取低动态范围LDR图像,并对图像进行预处理。将不同曝光设置的图像随机裁剪到 大小,然后将伽马矫正后的结果拼接到原始输入图像上,在输入单曝光重建网络和多曝光融合网络之前采用镜像翻转、强度变化、随机旋转进行数据增强。伽马较正的计算方式如下:
[0053]
[0054]
[0055] 其中[.]表示对输入进行通道维度上的拼接操作,代表伽马校正参数,代表低动态范围输入图像 的曝光时间,参照之前的工作经验,将 设置为2.2。
[0056] Step2:构建单曝光重建网络,将预处理好的低动态范围图像送入单曝光重建网络进行编码,构建多曝光融合网络,将预处理好的低动态范围图像序列送入多曝光融合网络进行编码并对特征进行对齐融合;
[0057] 所述Step2中单曝光重建网络具体操作过程如下:
[0058] 首先对输入图像进行编码。使用单曝光重建网络编码器 对参考图像即 进行编码得到特征 ,参考图像 为:不同曝光序列的低动态范围图像进行预处理后得到的中间曝光图像。
[0059] 所述Step2中,多曝光融合网络的具体操作如下:
[0060] 对预处理好的低动态范围图像序列三个输入分别使用编码器 进行编码得到特征 , (i=1,2,3)表示由输入 编码得到的特征。
[0061] 然后对特征进行对齐并融合:
[0062]
[0063]
[0064] 其中 表示对齐块, 表示先进行卷积然后再使用LeakReLu激活,表示待重建的特征,[.]表示对输入进行通道维度上的拼接操作,初步对齐块如图2所示。
[0065] Step3:构建交互学习块,如图3所示,将单曝光重建网络编码好的特征和多曝光融合网络编码并对齐融合后的特征送入交互学习块。对两个网络的特征进行交互;
[0066] 所述Step3中交互学习具体操作步骤如下:
[0067] 先将输入特征重建成梯度图。通过对标签进行梯度计算来得到梯度图的标签,标签就是与参考图像 在位置上对齐的高动态范围图像,即为地面真值标签GT(Ground Truth,GT),参考图像 为:不同曝光序列的低动态范围图像进行预处理后得到的中间曝光图像,进而约束重建出来的梯度图与真实情况一致。再将梯度图转换成边缘细节信息丰富的特征。然后对两个特征进行交互。当从单曝光重建网络得到的特征作为生成Q的特征时,从多曝光融合网络得到的特征作为生成K和V的特征。当从多曝光融合网络得到的特征作为生成Q的特征时,从单曝光重建网络得到的特征作为生成K和V的特征。经过交叉注意力计算得到补充到单曝光重建网络的信息 和补充到多曝光融合网络的信息 。
[0068] Step4:通过单曝光重建网络和多曝光融合网络的重建块,对交互学习后得到的特征进行特征重建;
[0069] 所述Step4中的特征重建步骤如下:
[0070]
[0071]
[0072] 其中 表示重建块, , (k=1,...,K)表示在单曝光重建网络和多曝光融合网络中经过k‑1次重建的特征。
[0073] Step5:将重建后特征输入交互学习块。交互得到的特征继续进行重建;
[0074] 所述Step5中交互学习块的操作具体如下:
[0075] 对重建后的特征,进行与Setp3相同的交互操作,通过交叉注意力计算可以得到补充到单曝光重建网络的信息 和补充到多曝光融合网络的信息 。
[0076] Step6:对多级重建并交互学习后的特征分别进行最后的重建和映射,得到单曝光重建网络和多曝光融合网络的高动态范围输出图像;
[0077] 所述Step6生成高动态范围输出图像的过程具体为:得到最后的单曝光重建网络的重建特征 后,对其进行最后重建并将特征映射成单曝光重建网络的最终HDR输出图像。得到最后的多曝光融合网络的重建特征 后,本文同样对其进行最后重建然后将特征映射成多曝光融合网络的HDR输出图像 。
[0078] Setp7:将两个网络多级重建后的特征进行整合,然后重建出最终的结果;
[0079] 所述Step7中对单曝光重建网络和多曝光融合网络多级重建后的特征进行整合,对于单曝光重建网络多级重建后的特征和多曝光融合网络多级重建后的特征,先使用卷积激活操作分别对其进行简单整合,然后拼接两个整合好的特征并送入到一个重建块中进行重建,最后使用卷积和Sigmoid激活操作将特征映射成HDR图像 :
[0080] Setp8:构造损失函数来约束网络,在损失函数的约束下训练网络。
[0081] 利用Adam优化器先对网络进行训练,通过损失约束高动态范围图像的生成,使其能生成高质量的高动态范围图像,其损失约束为:
[0082]
[0083]
[0084]
[0085]
[0086]
[0087] 其中 表示计算图像梯度,N为交互学习块的个数, 表示第n个交互学习块中从多曝光融合网络的特征重建出来的梯度图, 表示第n个交互学习块中从单曝光重建网络的特征重建出来的梯度图, 、 、 和 为平衡各个损失的超参数, 为单曝光重建网络生成的高动态范围图像、 为多曝光融合结果、 为整合后的结果, 为标签。
[0088] 进一步地,为验证本发明方法的有效性,我们在Kalantari(Deep high dynamic range imaging of dynamic scenes)数据集上评估了提出方法的性能。该数据集的共有74组图像用作训练,15组图像用作测试。每一组图像中有着三张低动态范围图像和与输入对应的曝光数据文件和标签。根据曝光设置的不同,可将输入依次分为低曝光、中曝光和高曝光图像,其中标签是与中曝光图像对齐的,因此我们以中曝光图像为参考图像。本发明算法是在Pytorch框架下开发的,并在两张NVIDIA GTX3090显卡上进行了训练。在训练中,我们使用AdamW优化器来对模型进行参数优化。
[0089] 进一步地,本发明采用峰值信噪比(Peak Signal‑to‑Noise Ratio,PSNR)和结构相似度(Structural Similarity Index,SSIM)来评估模型生成的高动态范围图像的性能。PSNR可以用来衡量结果图中有效信息和噪声的比例的变量,可以定量的表述融合图像的失真程度。PSNR越大,图片的质量越好,失真程度越小。结构相似度评估的是两张图像的相似程度。所以如果融合得到的HDR与标签越一致,那么他们的相似程度应该也越高。因此SSIM在这里用以衡量融合图与标签的相似度。SSIM是介于0到1的,而且其值越高,说明融合图与标签越相似,融合得到的HDR也越好。同时,因为高动态范围图像都需要通过映射才能在正常显示在一般的图像显示设备上。因此我们对映射前和映射后的图像都进行评估。映射前的评估参数记为PSNR_L和SSIM_L,映射后记作PSNR_u和SSIM_u。
[0090] 进一步地,在Kalantari数据集上,本发明方法和Sen、Kalantari、DeepHDR、NHDRR、HDRI和SGARN等同样使用Kalantari数据集进行训练的高动态范围方法进行了性能比较,实验结果如表1所示。从此可以看出,本发明方法在四个性能上都取得了最好的结果。这证明了本发明方法在高动态范围成像上的有效性。
[0091] 表1为不同方法在Kalantari验证集上的客观评价比较
[0092] 进一步地,本发明将Sen、Kalantari、DeepHDR、NHDRR、HDRI和SGARN结果进行了视觉效果对比,如图4所示。由此可以看出,提出的方法可以产生良好的高动态范围图像,而其他方法的结果容易存在伪影,而且其他方法因曝光问题导致的信息丢失也更为明显,图4中的GT即地面真值标签(Ground Truth,GT),就是与参考图像X2在位置上对齐的高动态范围图像。
[0093] 上面结合附图对本发明的具体实施方式作了详细说明,但是本发明并不限于上述实施方式,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化。