首页 / 基于深度学习的多视角三维重建方法

基于深度学习的多视角三维重建方法实质审查 发明

技术领域

[0001] 本发明属于计算机视觉和图形技术领域,涉及基于深度学习的多视角三维重建方法。

相关背景技术

[0002] 三维重建作为计算机视觉任务中炙手可热的研究方向,在虚拟现实、自动驾驶、文物保护以及人工智能等许多应用方面发挥了重要作用。传统的三维重建方法虽然在许多应用中取得了成功,不足之处是对噪声和遮挡比较敏感,从而影响重建结果。在最新的研究与应用中,深度学习技术在二维图像处理的各种任务中取得了显著的进步。因此,研究人员尝试将深度学习技术应用到三维重建领域,使得基于深度学习的三维重建技术通常更加灵活,鲁棒性更强,能够更好的处理噪声和遮挡。
[0003] 当前的基于深度学习的三维重建研究当中,输入为单一视角的单幅图像,利用从单个视角收集到的二维图像来重建三维场景,导致这种利用单一视角的单张图像重建的三维模型的完整性较差。因此,亟需研制一种新的方法,能够利用多视角的图像输入重建出三维模型,即通过多视角的三维重建方法可以结合多张图像的信息,进一步提高三维重建网络的性能。

具体实施方式

[0030] 下面结合附图和具体实施方式对本发明进行详细说明。
[0031] 参照图1,本发明基于深度学习的多视角三维重建方法,按照以下步骤实施:
[0032] 步骤1,多视角图像采集,
[0033] 采用标定好的数码相机对需要重建的物体从正面、背面、左侧和右侧四个视角进行拍摄,确保每个视角都能独立捕捉到物体的不同侧面,为后续的三维重建提供清晰的视角信息,具体过程是:
[0034] 1.1)在拍摄四个视角的图像时,选择光线均匀的时间段进行拍摄,同时保持不同视角间数码相机与物体的距离相等,确保视角的一致性;
[0035] 1.2)拍摄时,数码相机依次面向目标物体的正面、背面、左侧和右侧,与物体表面呈90度角,且拍摄轴线垂直于各个面;
[0036] 1.3)为了确保从前、后、左、右四个视角采集的图像在空间上互不重叠,检查每个视角的图像,将图像中与其他视角重叠的区域裁剪掉。
[0037] 步骤2,图像预处理,
[0038] 对采集到的不同视角的图像进行相同的预处理操作,包括色彩矫正和去噪,具体过程是:
[0039] 2.1)对图像进行色彩矫正,
[0040] 利用相同的方法改变图像中所有像素的颜色值,一定程度上减少由于环境光照或人为因素造成采集的图像与原始图像的差别,色彩矫正图像的表达式如下:
[0041]
[0042] 其中,i表示目标色彩空间中的通道;j表示源色彩空间中的通道;Mij表示从源色彩空间的第j个通道到目标色彩空间的第i个通道的转换权重;
[0043] 2.2)利用中值滤波的方式去除图像中的噪声,改善图像质量,
[0044] 具体方式为:在图像中移动一个窗口,并用该窗口中所有像素的中值替换中心像素。
[0045] 步骤3,二维图像特征提取,
[0046] 搭建图像特征提取模块,该图像特征提取模块利用各卷积层获取二维图像不同层次的特征信息,其中,为了减少无关特征对重建结果的影响,在图像特征提取模块后增加一个金字塔特征注意力网络(简称为PFAN),有选择性的对目标的有用特征进行增强,同时抑制无关特征,并且采用多个输入分支,每个分支独立提取各个视角的二维图像特征,完成对多视角二维图像特征的提取,具体过程是:
[0047] 3.1)搭建图像特征提取模块,提取各视角的二维图像特征,
[0048] 参照图2,图像特征提取模块采用一种端到端的三维重建算法当中的二维图像特征提取模块,采用类似于VGG16的网络结构,仅包括VGG16网络中的卷积层和池化层;二维图像特征提取模块共有五个模块,分别命名为Conv1_2、Conv2_2、Conv3_3、Conv4_3、Conv5_3,利用各卷积层获取二维图像不同层次的特征信息;
[0049] 3.2)为了减少无关特征对重建结果的影响,在图像特征提取模块后增加一个金字塔特征注意力网络(PFAN),使用空间注意力模块处理低层次的特征,以抑制无用信息;使用金字塔特征注意力网络和通道注意力模块处理高层次的特征,从而有选择性的对目标的有用特征进行增强,对背景等无关特征进行抑制。
[0050] 3.3)利用上述搭建的图像特征提取模块,采用多个输入分支,每个分支独立提取各个视角的图像特征,完成对多视角二维图像特征的提取。
[0051] 步骤4,多视角特征融合,
[0052] 计算每个视角的统计量信息(均值Mean,最大值Max,标准差Std),根据计算结果对多个图像特征提取模块的输出进行特征融合,获取多视角图像中的关键信息;
[0053] 对于步骤3中各输入分支提取出的二维图像特征,在输入到后续的三维重建网络中时,需要先对其进行特征融合;在多视角图像的特征融合中使用统计特征进行融合,通过统计量信息(均值Mean,最大值Max,标准差Std)对各视角的图像进行拼接,得到融合后的图像特征。
[0054] 步骤5,将二维图像与三维模型相结合,
[0055] 利用感知特征池化层将二维图像特征提取模块的输出与三维空间中的模型相结合,实现二维图像到三维模型的转换。
[0056] 在感知特征池化层中,给定一个顶点的三维坐标,使用数码相机的内部函数计算它在输入平面上的二维投影,由于该顶点在二维空间下是个连续的位置,所以需要使用双线性插值从附近的四个像素计算这个位置对应的特征,
[0057] 其中,双线性插值的基本原理如下:
[0058] 已知四个点P1(x1,y1,z1),P2(x2,y1,z2),P3(x1,y2,z3),P4(x2 y2,z4),其中(x,y)是点的坐标,z是该点的值,位于(x0,y0)的未知点P(x0,y0,z0)的值由下方公式得到:
[0059]
[0060] 步骤6,利用级联形变网络优化初始的三维模型,
[0061] 级联形变网络结合感知特征池化层的输出,经过多次形变,逐步优化初始的三维模型,
[0062] 具体的,级联形变网络主要由网格变形块和图像上池化层组成,网格变形块通过将二维图像特征与网格中顶点坐标结合起来,更新每个顶点的位置以及特征向量;图像上池化层是一个上采样操作,其作用是增加变形网格的顶点数量,变形网格的顶点数量越多,最终得到的三维网格模型的效果就越好。
[0063] 步骤7,输出三维网格模型,
[0064] 由于采用的三维重建网络的输出为三维网格模型(基于深度学习的三维重建具有多种方式:基于体素表示的三维重建、基于点云表示的三维重建以及基于网格表示的三维重建等。本发明方法搭建的三维重建网络的输出是基于网格表示的三维重建模型),因此,初始的三维模型从一个粗略的网格模型,在三维重建网络中经过多次的形变,最终变换得到精细的三维网格模型。
[0065] 实施例1
[0066] 本实施例1的实施对象为耳机。按照本发明基于深度学习的多视角三维重建方法实施,包括以下步骤:
[0067] 步骤1,采用标定好的数码相机对耳机从正面、背面、左侧和右侧四个视角进行拍摄,确保每个视角都能独立捕捉到物体的不同侧面,为后续的三维重建提供清晰的视角信息。具体过程如下:
[0068] 1.1)在拍摄四个视角的图像时,选择光线均匀的时间段进行拍摄,同时保持不同视角间数码相机与物体的距离相等,确保视角的一致性;
[0069] 1.2)拍摄时数码相机依次面向耳机的正面、背面、左侧和右侧,与物体表面呈90度角,且拍摄轴线垂直于各个面;
[0070] 1.3)为了确保从前后左右四个视角采集的图像在空间上互不重叠,检查每个视角的图像,将图像中与其他视角重叠的区域裁剪掉。
[0071] 步骤2,对获取到的多视角图像进行预处理;
[0072] 2.1)对多视角图像进行色彩矫正,即利用相同的方法改变每个图像中所有像素的颜色值,尽量减少由于环境光照或人为因素造成采集的图像与原始图像的差别,其基本原理表达式如下:
[0073]
[0074] 2.2)利用中值滤波的方式去除多视角图像中的噪声,具体为:在图像中移动一个窗口,并用该窗口中所有像素的中值替换中心像素。
[0075] 步骤3,本实施例1中的二维特征提取模块如图2所示,其中,为了减少无关特征对重建结果的影响,在图像特征提取模块后增加一个如图3所示的金字塔特征注意力网络,从而有选择性的对目标的有用特征进行增强,同时抑制无关特征。利用上述图像特征提取模块,完成对多视角二维图像特征的提取。
[0076] 3.1)搭建图像特征提取模块。如图2所示,图像特征提取模块共有五个模块,分别命名为Conv1_2、Conv2_2、Conv3_3、Conv4_3、Conv5_3,利用各卷积层获取二维图像不同层次的特征信息,提取各视角的二维图像特征;
[0077] 3.2)引入金字塔特征注意力网络。将Conv1_2与Conv2_2的输出特征F1、F2作为低层次特征,送入图2中的空间注意力模块,以抑制无用信息,从而更加关注目标对象。将Conv3_3、Conv4_3、Conv5_3的输出特征F3、F4、F5作为高层次的特征,送入图2中的感知上下文的特征金字塔模块以及通道注意力模块以获取更加丰富的语义信息。特征金字塔模块主要是对多个不同层次的特征进行提取,然后通过上采样的方式将不同尺度的特征进行融合作为该模块的输出;通道注意力模块对来自特征金字塔模块的特征进行加权,提高目标信息所在通道的权重;随后通过上采样方式调整特征图大小,将两个不同分支的特征融合作为金字塔特征注意力网络的输出。
[0078] 3.3)本实施例1中对多视角的图像特征提取采用多输入分支,每个视角的图像进入单独的分支进行二维图像特征提取。
[0079] 步骤4,本实施例1中采用统计量信息(均值mean、最大值max、标准差std)对各分支的二维图像特征提取模块的输出进行特征融合,得到融合后的多视角图像特征,下面对该步骤作具体的说明:
[0080] 4.1)邻域选取。在每个视角图像的四个角(左上、右上、左下、右下)选取32×32像素的邻域;
[0081] 4.2)统计量计算。在每个邻域内计算统计量,包括均值(Mean)、最大值(Max)、标准差(Std);
[0082] 4.3)权重分配。设定权重向量W=[w1,w2,w3,w4],其中Wi代表第i个视角的权重。在本实施例中,由于正面视角对三维重建任务更加重要,则赋予正面视角更高的权重;
[0083] 4.4)加权统计量计算。对每个视角的统计量进行加权,计算加权后的均值M′、最大值M′max和标准差S′,公式如下:
[0084]
[0085] M′max=max(Max1,Max2,Max3,Max4),
[0086]
[0087] 其中,wi为第i个视角的权重;Meani第i个视角的均值;Stdi第i个视角的标准差;Maxi第i个视角的最大值;i表示第几个视角;i取值范围为1~4。
[0088] 4.5)相似度计算。利用欧式距离来计算不同视角邻域之间的相似度,距离越小表示邻域越相似,具体公式如下:
[0089] 假设要计算正面视角图像和背面视角图像的左上角邻域之间的相似度,将两个视角的图像记为图像A和图像B,则有:
[0090]
[0091] 其中,DistanceAB为图像A和图像B邻域之间的距离,MeanWA是图像A的加权均值,MeanWB是图像B的加权均值,StdWA是图像A的加权标准差,StdWB是图像B的加权标准差;
[0092] 同理,可计算其他视角邻域之间的相似度;
[0093] 4.6)特征拼接。根据相似度计算的结果,将具有高相似度的视角特征进行拼接;
[0094] 4.7)将拼接好的特征向量输入到后续的网络结构中,进一步处理和分析。
[0095] 步骤5,本实施例1中将融合后的多视角特征输入到图4所示的感知特征池化层,感知特征池化层根据数码相机参数投影使得二维图像与三维空间中的模型相结合,实现二维图像到三维模型的转换。
[0096] 步骤6,本实施例1中利用图4所示的级联形变网络部分优化初始三维模型,该级联形变网络结合感知特征池化层的输出,经过多次形变逐渐改变原始的三维网格模型。
[0097] 进一步地,损失函数在网络训练中起核心作用,用于评估三维重建网络得出的预测模型和利用三维扫描设备获得的实际模型之间的差异,在训练过程中根据损失函数的结果对参数进行调整,进而构建三维网格模型。本实施例1从模型的顶点和法线向量等方面定义其损失函数,由倒角损失函数(Chamfer loss function)、法线损失函数(Normal loss function)、拉普拉斯正则化(Laplacian regularization)以及边长正则化(Edge length regularization)四部分组成:
[0098] a)倒角损失函数是衡量两组点集之间距离,其计算公式为:
[0099]
[0100] 其中,P为从重建网格模型中采样点的集合,Q为真实的三维模型中采样点的集合;p,q分别属于两个点集里面的点。
[0101] b)法线损失函数是通过比较预测的表面法线和真实的表面法线之间的差异来计算的,其计算公式为:
[0102]
[0103] 其中,约束条件为k∈S,u表示重建网格模型中的一个顶点,S表示与顶点u相邻的点集合;v为真实的三维模型中距离u最近的顶点,该点通过倒角损失函数得到;n表示法线向量;nv表示从真实的三维模型得到的法线向量。
[0104] c)拉普拉斯正则化能够有效防止顶点的移动幅度过大,增强模型平滑度,其计算公式为:
[0105]
[0106] 其中,δu′是一个顶点在变形前的拉普拉斯坐标,δu是一个顶点在变形后的拉普拉斯坐标。
[0107] d)边长正则化对模型的边长进行约束或优化,来改善模型的质量或性能,其计算公式为:
[0108]
[0109] 步骤7,通过上述操作得到本实施例1的实施对象耳机的最终的三维网格模型。
[0110] 下面以图5所示的图像为例进行实验说明,将步骤7中的结果与现有的三维重建网络pixel2mesh以及基于pixel2mesh的改进网络Resnet_P2M对耳机的重建效果进行对比。图5为耳机的原始图像;图6为pixel2mesh的重建效果;图7为Resnet_P2M的重建效果;图8为本发明的重建效果,可以看出,本发明方法对于耳机的重建效果更好。
[0111] 同时,本实施例1采用评价指标F‑score和CD指标将本发明方法与现有的三维重建网络pixel2mesh以及基于pixel2mesh的改进网络Resnet_P2M进行对比。F‑score用于评估三维重建网络的预测模型和利用三维扫描设备获得的实际模型之间的相似度,F‑score值越大,重建效果越好。CD用于评估两模型中各个对应顶点之间的距离,CD值越小,重建效果越好。
[0112] 其中,F‑score的计算公式如下:
[0113]
[0114] 式中,Precision为精准率,表示预测样本中实际正样本数占所有正样本数的比例;Recall为召回率,表示所有正类样本中被正确分类为正类的比例;TP表示模型将正例预测为正例的样本数量;FP表示模型将反例预测为正例的样本数量;FN模型将反例预测为反例的样本数量。
[0115] CD的计算公式为步骤6中提到的倒角损失函数的计算公式。
[0116] 表1所示为本发明方法和现有技术的pixel2mesh以及现有技术的Resnet_P2M的实验结果对比。从表1中可以看出,本发明方法的F‑score值均大于其他两个现有技术的络结果,CD值均小于其他两个现有技术的络结果,即本发明方法对实施对象耳机的重建效果更好。
[0117] 表1、实施例1与pixel2mesh以及Resnet_P2M的实验结果对比
[0118]方法 F‑score CD
Pixel2mesh 71.83 0.75
Resnet_P2M 69.82 0.87
Our(本发明) 74.57 0.74
[0119] 实施例2
[0120] 按照实施例1的步骤过程,对物体“笔记本电脑”进行三维重建。
[0121] 下面以图9‑图12所示的图像为例进行实验说明,按照实施例1的步骤过程得到本发明方法对笔记本电脑的重建效果。将本发明方法的重建效果与现有的三维重建网络pixel2mesh以及基于pixel2mesh的改进网络Resnet_P2M对笔记本电脑重建的效果进行对比。图9为笔记本电脑的图像;图10为pixel2mesh的重建效果;图11为Resnet_P2M的重建效果;图12为本发明方法的重建效果。可以看出,本发明方法对于“笔记本电脑”的重建效果更好。表2所示为本发明方法和现有技术的pixel2mesh以及现有技术的Resnet_P2M的实验结果对比结果。从表2中可以看出,本发明的F‑score值均大于其他两个现有技术的络结果,CD值均小于其他两个现有技术的络结果,即本发明方法对笔记本电脑的重建效果更好。
[0122] 表2、实施例2与pixel2mesh以及Resnet_P2M的实验结果对比
[0123]方法 F‑score CD
Pixel2mesh 80.39 0.45
Resnet_P2M 75.71 0.50
Our(本发明) 81.71 0.44
[0124] 实施例3
[0125] 按照实施例1的步骤过程,对物体“打印机”进行三维重建。
[0126] 下面以图13‑图16所示的图像为例进行实验说明,按照实施例1的步骤过程得到本发明方法对打印机的重建效果。将本发明方法的重建效果与现有的三维重建网络pixel2mesh以及基于pixel2mesh的改进网络Resnet_P2M对打印机重建的效果进行对比。图13为打印机的图像;图14为pixel2mesh的重建效果;图15为Resnet_P2M的重建效果;图16为本发明的重建效果。由图7可以看出,本发明方法对于打印机的重建效果更好。
[0127] 表3所示为本发明方法和现有技术的pixel2mesh以及现有技术的Resnet_P2M的实验结果对比结果。从表3中可以看出,本发明方法的F‑score值均大于其他两个现有技术的络结果,CD值均小于其他两个现有技术的络结果,即本发明方法对打印机的重建效果更好。
[0128] 表2、实施例3与pixel2mesh以及Resnet_P2M的实验结果对比
[0129] 方法 F‑score CDPixel2mesh 56.17 1.17
Resnet_P2M 53.87 1.21
Our(本发明) 57.78 1.14
[0130] 综上所述,本发明深度学习的多视角三维重建方法,通过拍摄多个视角的图像,采用多输入分支独立提取各视角的图像特征,并在图像特征提取模块引入金字塔特征注意力网络抑制无关特征的影响。之后利用统计量信息融合多视角图像特征,送入后续的感知特征池化层和级联形变网络,经过多次形变得到三维网格模型,改善了现有的三维重建方法中利用单视角视图重建时存在的完整性较差的问题。

当前第1页 第1页 第2页 第3页