首页 / 学习方法

学习方法实质审查 发明

技术领域

[0002] 本发明的实施方式涉及学习方法。

相关背景技术

[0003] 为了取得到被摄体的距离,已知使用由2个摄像装置(相机)、立体相机(多目相机)摄像到的图像的技术,但近年来,开发出了使用由1个摄像装置(单目相机)摄像到的图像来
取得到被摄体的距离的技术。
[0004] 在此,为了如上述那样使用图像来取得到被摄体的距离,考虑使用应用神经网络等机器学习算法而生成的统计模型。
[0005] 但是,为了生成高精度的统计模型,需要使统计模型学习庞大的学习用的数据集(学习用图像与和到该学习用图像中的被摄体为止的距离有关的正确值的集合(set)),但
准备该数据集并不容易。

具体实施方式

[0024] 以下,参照附图对实施方式进行说明。
[0025] (第一实施方式)
[0026] 首先,对第一实施方式进行说明。图1表示本实施方式中的测距系统的结构的一例。图1所示的测距系统1被使用于摄像图像并使用该摄像到的图像来取得(测定)从摄像地
点到被摄体的距离。另外,在本实施方式中说明的距离,既可以是表示绝对的距离,也可以
表示相对的距离。
[0027] 如图1所示,测距系统1具备摄像装置2及图像处理装置3。在本实施方式中,设为测距系统1具备作为独立的装置的摄像装置2及图像处理装置3的情况而进行说明,但该测距
系统1也可以作为摄像装置2作为摄像部发挥功能、图像处理装置3作为图像处理部发挥功
能的1个装置(测距装置)来实现。另外,图像处理装置3例如也可以作为执行各种云计算服
务的服务器而动作。
[0028] 摄像装置2被使用于摄像各种图像。摄像装置2具备透镜21及图像传感器22。透镜21及图像传感器22相当于摄像装置2的光学系统(单眼相机)。
[0029] 透镜21中入射由被摄体反射后的光。入射到透镜21的光透射透镜21。透射透镜21后的光到达图像传感器22,由该图像传感器22受光(检测)。图像传感器22将接收到的光转
换(光电转换)为电信号,由此生成由多个像素构成的图像。
[0030] 另外,图像传感器22通过例如CCD(Charge Coupled Device:电荷耦合器件)图像传感器及CMOS(Complementary Metal Oxide Semiconductor:互补金属氧化物半导体)图
像传感器等来实现。图像传感器22例如包括检测红色(R)的波段的光的第一传感器(R传感
器)221、检测绿色(G)的波段的光的第二传感器(G传感器)222及检测蓝色(B)的波段的光的
第三传感器(B传感器)223。图像传感器22能够通过第一~第三传感器221~223接收对应的
波段的光,生成与各波段(颜色成分)对应的传感器图像(R图像、G图像及B图像)。即,由摄像装置2摄像的图像是彩色图像(RGB图像),在该图像中包含R图像、G图像及B图像。
[0031] 另外,在本实施方式中,设为图像传感器22包含第一~第三传感器221~223而进行说明,但图像传感器22只要构成为包含第一~第三传感器221~223中的至少1个即可。另
外,图像传感器22也可以构成为包括用于生成例如单色图像的传感器来代替第一~第三传
感器221~223。
[0032] 在本实施方式中,基于透射了透镜21的光而生成的图像是受到光学系统(透镜21)的像差的影响的图像,包含由该像差产生的模糊。
[0033] 图1所示的图像处理装置3作为功能结构包括统计模型保存部31、图像取得部32、距离取得部33、输出部34及学习处理部35。
[0034] 在统计模型保存部31中保存有统计模型,该统计模型用于从由摄像装置2摄像到的图像中取得到被摄体的距离。保存在统计模型保存部31中的统计模型通过学习在上述的
受到光学系统的像差的影响的图像中产生的、根据到该图像中的被摄体的距离而非线性地
变化的模糊而生成。根据这样的统计模型,通过将图像输入至该统计模型,能够预测出(输
出)到该图像中的被摄体的距离来作为与该图像对应的预测值。
[0035] 此外,统计模型设为能够应用例如神经网络、线性识别器或者随机森林等已知的各种机器学习算法来生成。另外,在本实施方式中能够应用的神经网络例如可以包含卷积
神经网络(CNN:Convolutional Neural Network)、全耦合神经网络及递归型神经网络等。
[0036] 图像取得部32从该摄像装置2(图像传感器22)取得由上述的摄像装置2摄像到的图像。
[0037] 距离取得部33使用由图像取得部32取得的图像,取得表示到该图像中的被摄体的距离的距离信息。在这种情况下,距离取得部33通过将图像输入至保存在统计模型保存部
31中的统计模型来取得表示到图像中的被摄体的距离的距离信息。
[0038] 输出部34将由距离取得部33取得的距离信息以例如与图像在位置上建立对应而配置的映射形式输出。在该情况下,输出部34能够输出由将由距离信息表示的距离作为像
素值的像素构成的图像数据(即,将距离信息作为图像数据输出)。在这样将距离信息作为
图像数据而输出的情况下,该图像数据能够作为用例如颜色来表示距离的距离图像而显
示。由输出部34输出的距离信息例如还能够利用于计算由摄像装置2摄像到的图像中的被
摄体的尺寸。
[0039] 学习处理部35执行使用例如由图像取得部32取得的图像来使保存在统计模型保存部31中的统计模型进行学习的处理。关于由学习处理部35执行的处理的详细,在后面叙
述。
[0040] 另外,在图1所示的例子中,设为图像处理装置3包含各部31~35而进行了说明,但该图像处理装置3例如也可以由包含图像取得部32、距离取得部33及输出部34的测距装置、
与包含统计模型保存部31、图像取得部32及学习处理部35的学习装置构成。
[0041] 图2表示图1所示的图像处理装置3的系统结构的一例。图像处理装置3具备CPU301、非易失性存储器302、RAM303及通信设备304。另外,图像处理装置3具有将CPU301、非易失性存储器302、RAM303及通信设备304相互连接的总线305。
[0042] CPU301是用于对图像处理装置3内的各种组件的动作进行控制的处理器。CPU301既可以是单一的处理器,也可以由多个处理器构成。CPU301执行从非易失性存储器302加载
到RAM303的各种程序。这些程序包括操作系统(OS)、各种应用程序。应用程序包括图像处理
程序303A。
[0043] 非易失性存储器302是用作辅助存储装置的存储介质。RAM303是用作主存储装置的存储介质。在图2中,仅示出了非易失性存储器302及RAM303,但图像处理装置3也可以具
备例如HDD(Hard Disk Drive)及SSD(Solid State Drive)等其他存储装置。
[0044] 此外,在本实施方式中,图1所示的统计模型保存部31例如通过非易失性存储器302或者其他存储装置等来实现。
[0045] 另外,在本实施方式中设为,图1所示的图像取得部32、距离取得部33、输出部34及学习处理部35的一部分或者全部通过使CPU301(即,图像处理装置3的计算机)执行图像处
理程序303A、即通过软件来实现。该图像处理程序303A既可以保存在计算机可读取的存储
介质中发布,也可以通过网络下载到图像处理装置3。
[0046] 在此,设为使CPU301执行图像处理程序303A而进行说明,但各部32~35的一部分或全部也可以使用例如GPU(未图示)代替CPU301来实现。另外,各部32~35的一部分或者全
部既可以通过IC(Integrated Circuit:集成电路)等硬件来实现,也可以通过软件及硬件
的组合来实现。
[0047] 通信设备304是构成为执行有线通信或无线通信的设备。通信设备304包括发送信号的发送部和接收信号的接收部。通信设备304经由网络而执行与外部设备的通信、与存在
于周边的外部设备的通信等。该外部设备包括摄像装置2。在该情况下,图像处理装置3能够
经由通信设备304从摄像装置2接收图像。
[0048] 虽然在图2中被省略,但图像处理装置3也可以进一步具备例如鼠标或者键盘那样的输入设备及显示器那样的显示设备。
[0049] 接着,参照图3,对本实施方式中的测距系统1的动作的概要进行说明。
[0050] 在测距系统1中,摄像装置2(图像传感器22)如上述那样生成受到光学系统(透镜21)的像差的影响的图像。
[0051] 图像处理装置3(图像取得部32)取得由摄像装置2生成的图像,将该图像输入至保存在统计模型保存部31中的统计模型。
[0052] 在此,根据本实施方式中的统计模型,输出到如上述那样输入的图像中的被摄体的距离(预测值)。由此,图像处理装置3(距离取得部33)能够取得表示从统计模型输出的距
离(到图像中的被摄体的距离)的距离信息。
[0053] 这样,在本实施方式中,能够使用统计模型从由摄像装置2摄像到的图像中取得距离信息。
[0054] 在此,参照图4,对本实施方式中预测出到被摄体的距离的原理进行简单说明。
[0055] 在由摄像装置2摄像到的图像(以下,表述为摄像图像)中,如上所述产生由于该摄像装置2的光学系统的像差(透镜像差)而引起的模糊。具体而言,由于透射具有像差的透镜
21时的光的折射率按每个波段而不同,所以例如在被摄体的位置从焦点位置(在摄像装置2
中对焦的位置)偏离的情况下,各波段的光不集中在1点而到达不同的点。这在图像上表现
为模糊(色像差)。
[0056] 另外,在摄像图像中,观察根据到该摄像图像中的被摄体的距离(即,被摄体相对于摄像装置2的位置)而非线性地变化的模糊(颜色、尺寸及形状)。
[0057] 因此,在本实施方式中,如图4所示,将在摄像图像401中产生的模糊(模糊信息)402作为与到被摄体403的距离有关的物理的线索,通过统计模型进行分析,由此预测出到
该被摄体403的距离404。
[0058] 以下,参照图5,对在统计模型中根据摄像图像而预测距离的方式的一例进行说明。在此,对补片方式进行说明。
[0059] 如图5所示,在补片方式中,从摄像图像401中切出(提取)局部区域(以下,表述为图像补片)401a。
[0060] 在该情况下,例如可以将摄像图像401的整体区域分割成矩阵状,将该分割后的部分区域作为图像补片401a依次切出,也可以识别摄像图像401,以包罗检测出被摄体(像)的
区域的方式切出图像补片401a。另外,图像补片401a也可以与其他的图像补片401a之间一
部分重叠。
[0061] 在补片方式中,输出距离作为与如上述那样切出的图像补片401a对应的预测值。即,在补片方式中,将与从摄像图像401切出的图像补片401a的每一个有关的信息作为输
入,预测出到该图像补片401a各自所包含的被摄体的距离404。
[0062] 图6表示与在上述的补片方式中被输入至统计模型的图像补片401a有关的信息的一例。
[0063] 在补片方式中,针对摄像图像401所包含的R图像、G图像及B图像,分别生成从该摄像图像401切出的图像补片401a的梯度数据(R图像的梯度数据、G图像的梯度数据及B图像
的梯度数据)。统计模型中被输入这样生成的梯度数据。
[0064] 此外,梯度数据相当于各像素和与该像素相邻的像素之间的像素值的差分(差分值)。例如在图像补片401a被提取为n像素(X轴方向)×m像素(Y轴方向)的矩形区域的情况
下,生成将针对该图像补片401a内的各像素计算出的例如与右相邻的像素之间的差分值以
n行×m列的矩阵状配置而成的梯度数据(即,各像素的梯度数据)。
[0065] 统计模型使用R图像的梯度数据、G图像的梯度数据、B图像的梯度数据,根据在该各图像中产生的模糊而预测距离。在图6中,示出了R图像、G图像及B图像各自的梯度数据被
输入至统计模型的情况,但也可以是RGB图像的梯度数据被输入至统计模型的结构。
[0066] 在此,在本实施方式中,通过如上所述那样使用统计模型,能够从图像中取得到该图像所包含的被摄体的距离(表示距离的距离信息),但为了提高从该统计模型输出的距离
的精度,需要使该统计模型进行学习。
[0067] 以下,参照图7,对一般的统计模型的学习方法的概要进行说明。统计模型的学习是通过将与为了该学习而准备的图像(以下,表述为学习用图像)501有关的信息输入至统
计模型,并将从统计模型输出(预测出)的距离502与正确值503之间的误差(损失)反馈至该
统计模型来进行的。另外,正确值503是指从学习用图像501的摄像地点到该学习用图像501
所包含的被摄体的实际的距离(实测值),例如也被称为正确标签等。另外,反馈是指以使误
差减少的方式更新统计模型的参数(例如权重系数)。
[0068] 具体而言,在统计模型中作为从摄像图像中预测出距离的方式而应用上述的补片方式的情况下,针对从学习用图像501切出的每个图像补片(局部区域),将与该图像补片有
关的信息(梯度数据)输入至统计模型,通过该统计模型输出距离502作为与各图像补片对
应的预测值。通过将这样输出的距离502与正确值503进行比较而得到的误差被反馈到统计
模型。
[0069] 在上述的一般的统计模型的学习方法中,需要准备如图8所示那样的被赋予了正确标签的学习用图像(即,包含学习用图像与应该从该学习用图像取得的距离即正确标签
在内的学习用的数据集),为了得到该正确标签,必须在每次摄像学习用图像时计测到该学
习用图像所包含的被摄体的实际的距离。为了提高统计模型的精度,需要使统计模型学习
很多学习用的数据集,因此不容易准备这样的很多学习用数据集。
[0070] 在此,为了使统计模型进行学习,需要评价(反馈)损失(误差),该损失(误差)是基于通过输入学习用图像(图像补片)而从该统计模型输出的距离而计算出的,但在本实施方
式中设为,到学习用图像所包含的被摄体的距离的实测值不明,但进行基于使用该距离的
大小关系已知的多个学习用图像而计算出的位次损失(次序(rank)损失)的弱监督学习
(weak supervised learning)。
[0071] 此外,基于位次损失的弱监督学习是基于数据间的相对的顺序关系(位次)进行学习的方法。在本实施方式中,根据基于从摄像装置2到被摄体的距离的2个图像各自的位次
来使统计模型进行学习。
[0072] 在此设为,如图9所示那样有距摄像装置2的实际的距离不明、但该距离的大小关系(位次)已知的5个被摄体S1~S5。此外,被摄体S1~S5中的被摄体S1位于离摄像装置2最近
的位置,被摄体S5位于离摄像装置2最远的位置。在用摄像装置2对这样的被摄体S1~S5摄
像,并将包含该被摄体S1~S5的每一个被摄体的图像设为图像x1~x5时,与到该图像x1~x5
各自所包含的被摄体S1~S5的距离对应的各图像的位次(次序)成为:图像x1为“1”,图像x2为“2”,图像x3为“3”,图像x4为“4”,图像x5为“5”。
[0073] 假定针对这样的图像x1~x5,使用统计模型来预测出例如到图像x2所包含的被摄体S2的距离和到图像x5所包含的被摄体S5的距离的情况。
[0074] 在该情况下,若使用已充分地进行学习且具有高精度的统计模型,则通过将图像x2输入而从该统计模型输出的距离应该比通过将图像x5输入而从该统计模型输出的距离
小。
[0075] 即,在本实施方式中设为,例如在2个图像xi与图像xk的大小关系已知的情况下,基于如果“rank(xi)>rank(xk)则fθ(xi)>fθ(xk)”这样的关系成立这一前提,使用维持这样的关系的损失(位次损失)来使统计模型进行学习。
[0076] 在该情况下,rank(xi)表示对图像xi附加的位次(次序),rank(xk)表示对图像xk附加的位次(次序)。另外,fθ(xi)表示通过输入图像xi而从统计模型fθ输出的距离(即,与图像xi对应的预测值),fθ(xk)表示通过输入图像xk而从统计模型fθ输出的距离(即,与图像xk对应的预测值)。另外,fθ中的θ是统计模型的参数。
[0077] 另外,从上述的摄像装置2到被摄体的距离的大小关系已知的图像,例如能够通过如图10所示那样一边使摄像装置2向远离被固定在规定的位置的被摄体S的方向移动一边
依次进行摄像而容易地取得。
[0078] 一般而言,在由摄像装置2摄像到的图像中,按照该被摄像到的顺序而附加识别编号(例如,连续的编号),因此在本实施方式中,将对该图像附加的识别编号用作该图像的位
次。即,在识别编号小的情况下,能够判别出到被附加了该识别编号的图像所包含的被摄体
的距离小(近),在该识别编号大的情况下,能够判别出到被附加了该识别编号的图像所包
含的被摄体的距离大(远)。
[0079] 另外,在由摄像装置2摄像到的图像中,除了上述的识别编号以外,还附加该图像被摄像的日期时间。因此,在如上述那样一边使摄像装置2向远离被摄体的方向移动一边依
次摄像图像的情况下,到图像各自所包含的被摄体的距离的大小关系(即,该图像的位次的
前后关系)也能够基于对该图像附加的日期时间来判别。
[0080] 在此,设为一边使摄像装置2向远离被摄体的方向移动一边摄像图像而进行了说明,但也可以设为一边使摄像装置2向接近被摄体的方向移动一边依次摄像图像。在该情况
下,在识别编号小的情况下,能够判别出到被附加了该识别编号的图像所包含的被摄体的
距离大(远),在该识别编号大的情况下,能够判别处到被附加了该识别编号的图像所包含
的被摄体的距离小(近)。
[0081] 另外,在图10中示出了具有平面形状的被摄体,但作为这样的被摄体,例如能够利用电视监视器等。在此,对具有平面形状的被摄体进行了说明,但该被摄体也可以是具有其
他形状的其他物体等。
[0082] 以下,对图1所示的图像处理装置3所包含的学习处理部35具体地进行说明。图11是示出表示学习处理部35的功能结构的一例的框图。
[0083] 如图11所示,学习处理部35包括判别部35a、计算部35b及学习部35c。
[0084] 在此,在本实施方式中进行统计模型的学习的情况下,图像取得部32取得未被赋予上述的正确标签的多个学习用图像。另外,设为对学习用图像中附加有上述的识别编号。
[0085] 判别部35a基于对由图像取得部32取得的多个学习用图像中的2个学习用图像的每一个所附加的识别编号(位次),判别到该学习用图像的每一个所包含的被摄体的距离的
大小关系(以下,仅表述为图像间的大小关系)。
[0086] 计算部35b基于通过将已由判别部35a判别出大小关系的2个学习用图像的每一个输入至统计模型而输出的距离、和由判别部35a判别出的该学习用图像间的大小关系,计算
位次损失。
[0087] 学习部35c基于由计算部35b计算出的位次损失,使保存于统计模型保存部31的统计模型进行学习。基于学习部35c的学习完成后的统计模型被保存在统计模型保存部31中
(即,盖写于被保存在统计模型保存部31中的统计模型)。
[0088] 接着,参照图12的流程图,对使统计模型进行学习时的图像处理装置3的处理顺序的一例进行说明。
[0089] 在此,设为在统计模型保存部31中预先存储有学习完毕的统计模型(预先学习完毕模型)而进行说明,但该统计模型例如既可以通过对由摄像装置2摄像到的图像进行学习
而生成,也可以通过对由与该摄像装置2不同的摄像装置(或透镜)摄像到的图像进行学习
而生成。即,在本实施方式中,至少预先准备用于将图像作为输入而输出到该图像所包含的
被摄体的距离的统计模型即可。另外,在本实施方式中预先准备的统计模型例如也可以是
随机初始化的状态的统计模型(未学习的统计模型)等。
[0090] 首先,图像取得部32取得多个学习用图像(以下,表述为学习用图像集合)(步骤S1)。在步骤S1中取得的学习用图像集合例如是由摄像装置2摄像到的图像的集合。
[0091] 当执行步骤S1的处理时,学习处理部35从在步骤S1中取得的学习用图像集合中选择(取得)例如任意的2个学习用图像(步骤S2)。在以下的说明中,将在步骤S2中选择出的2
个学习用图像设为图像xi及图像xk。
[0092] 当执行步骤S2的处理时,学习处理部35从图像xi及图像xk的每一个中切出任意的区域(步骤S3)。具体而言,学习处理部35从图像xi中切出作为该图像xi的至少一部分的区
域。同样地,学习处理部35从图像xk中切出作为该图像xk的至少一部分的区域。此外,在步骤S3中从图像xi及图像xk中分别切出的区域相当于上述的图像补片,例如是n像素×m像素的
矩形区域。
[0093] 在此,设为从图像xi及图像xk中分别切出规定的区域(图像补片)而进行了说明,但该规定的区域也可以是占据图像xi及图像xk整体的区域。
[0094] 另外,在以下的说明中,为了方便,将在步骤S3中从图像xi中切出的区域简单设为图像xi,将在该步骤S3中从图像xk中切出的区域简单设为图像xk。
[0095] 在此,在本实施方式中,到学习用图像所包含的被摄体的距离的大小关系是已知的,因此学习处理部35所包含的判别部35a判别在步骤S2中选择出的图像xi和图像xk间的大
小关系(到图像xi及图像xk各自所包含的被摄体的距离的大小关系)(步骤S4)。该图像xi及
图像xk间的大小关系能够基于分别附加于该图像xi及图像xk的识别编号来判别。
[0096] 当执行步骤S4的处理时,学习处理部35所包含的计算部35b使用保存于统计模型保存部31的统计模型,取得到图像xi所包含的被摄体的距离(预测值)和到图像xk所包含的
被摄体的距离(预测值)(步骤S5)。
[0097] 在步骤S5中,通过输入图像xi(即,从图像xi切出的n像素×m像素的图像补片),取得从统计模型输出的距离fθ(xi)及图像xk(即,从图像xk切出的n像素×m像素的图像补片),
由此取得从统计模型输出的距离fθ(xk)。
[0098] 接下来,计算部35b基于在步骤S5中取得的距离(以下,表述为与图像xi及图像xk各自对应的预测值),计算位次损失(考虑了图像xi及图像xk间的大小关系的损失)(步骤S6)。
[0099] 在步骤S6中,计算反映了与图像xi及图像xk各自对应的预测值的大小关系是否与图像xi及图像xk间的大小关系相等的损失(位次损失)。
[0100] 在此,例如,根据“Chris Burges,Tal Shaked,Erin Renshaw,Ari Lazier,Matt Deeds,Nicole Hamilton,and Greg Hullender.Learning to rank using gradient 
descent.In  Proceedings  of the 22nd  international conference on 
Machinelearning,pages 89‑96,2005.”表示位次损失的函数(位次损失函数)由以下的式
(1)定义。
[0101] Lrank(xi,xk)=‑yik(fθ(xk)‑fθ(xi))+softplus(fθ(xk)‑fθ(xi))   式(1)
[0102]
[0103] softplus(x)=log(1+ex)           式(3)
[0104] 在该式(1)中,Lrank(xi,xk)表示位次损失,yik相当于表示与上述的图像xi及图像xk的每一个对应的预测值的大小关系是否与图像xi及图像xk间的大小关系相等(即,统计模型的预测值满足已知的大小关系)的标签。另外,如式(2)所示,在rank(xi)>rank(xk)的情况下为yik1,在rank(xi)和k(xk)和k(xi)k(xk)中,rank(xi)>rank(xk)和rank(xi)别结果。
[0105] 另外,式(1)的softplus是被用作激活函数的被称为软正的函数,如式(3)那样被定义。
[0106] 根据这样的位次损失函数,在与图像xi及图像xk分别对应的预测值的大小关系与图像xi及图像xk间的大小关系相等的情况下,计算出的位次损失(的值)变小,在与图像xi及
图像xk分别对应的预测值的大小关系与图像xi及图像xk间的大小关系不相等的情况下,计
算出的位次损失(的值)变大。
[0107] 接着,学习处理部35所包含的学习部35c使用在步骤S6中计算出的位次损失,使统计模型进行学习(步骤S7)。统计模型的学习通过更新该统计模型的参数θ来进行,但该参数
θ的更新按照以下的式(4)那样的最优化问题进行。
[0108]
[0109] 在此,式(4)中的N表示上述的学习用图像集合。虽然在图12中被省略,但步骤S2~S6的处理针对从该学习用图像集合N中选择的任意的图像xi及图像xk(各自中切出的区域)
的每个组执行。
[0110] 在该情况下,通过式(4),能够求出针对图像xi及图像xk的每个组计算出的位次损失Lrank(xi,xk)的合计最小的参数θ’(即,更新后的参数)。
[0111] 另外,在本实施方式中的统计模型中应用了神经网络或者卷积神经网络等(即,统计模型由神经网络或者卷积神经网络等构成)的情况下,在该统计模型的学习(参数θ的更
新)中使用在相反方向上计算上述的式(4)的误差反向传播法。根据该误差反向传播法,计
算位次损失的梯度,按照该梯度来更新参数θ。
[0112] 在步骤S7中,通过将统计模型的参数θ更新为使用上述的式(4)求出的参数θ′,由此能够使统计模型学习在步骤S1中取得的学习用图像集合。
[0113] 此外,在本实施方式中,例如将预先确定的数量的图像xi及图像xk的组作为对象来执行图12所示的处理,但也可以通过反复进行该图12所示的处理来使统计模型进一步学
习。
[0114] 另外,使用了上述式(1)那样的位次损失函数的学习方法被称为RankNet,但在本实施方式中,也可以通过其他学习方法来使统计模型进行学习。具体而言,作为本实施方式
的统计模型的学习方法,例如也可以利用FRank、RankBoot、Ranking SVM或者IR SVM等。即,在本实施方式中,如果如上述那样以使与图像xi及图像xk各自对应的预测值的大小关系与
图像xi及图像xk间的大小关系相等(即,在与学习用图像的各自的位次有关的制约下进行学
习)的方式使学习模型进行学习,则能够利用各种损失函数。
[0115] 接着,参照图13的流程图,对使用通过执行上述图11所示的处理而学习了学习用图像集合的统计模型从摄像图像中取得距离信息时的图像处理装置3的处理顺序的一例进
行说明。
[0116] 首先,摄像装置2(图像传感器22)通过对测定距摄像装置2的距离的被摄体进行摄像,生成包含该被摄体的摄像图像。该摄像图像是如上所述那样受到摄像装置2的光学系统
(透镜21)的像差的影响的图像。
[0117] 图像处理装置3所包含的图像取得部32从摄像装置2取得摄像图像(步骤S11)。
[0118] 接着,距离取得部33将与在步骤S11中取得的摄像图像(图像补片的每一个)有关的信息输入至保存在统计模型保存部31中的统计模型(步骤S12)。此外,在步骤S12中输入
至统计模型的与摄像图像有关的信息包括构成该摄像图像的各像素的梯度数据。
[0119] 当执行步骤S12的处理时,在统计模型中预测出到被摄体的距离,该统计模型输出该预测出的距离。由此,距离取得部33取得表示从统计模型输出的距离的距离信息(步骤
S13)。此外,在步骤S13中取得的距离信息例如包括构成在步骤S11中取得的摄像图像的每
个图像补片的距离。
[0120] 当执行步骤S13的处理时,输出部34将在该步骤S13中取得的距离信息例如以与摄像图像在位置上建立对应而配置的映射形式输出(步骤S14)。另外,在本实施方式中,设为
距离信息以映射形式输出而进行了说明,但该距离信息也可以以其他形式输出。
[0121] 如上所述,在本实施方式中,取得由摄像装置2摄像到的包含被摄体的图像xi及图像xk(第一及第二图像),基于将该图像xi(该图像xi的至少一部分即第一区域)作为输入而
从统计模型输出的距离(第一距离)及将该图像xk(该图像xk的至少一部分即第二区域)作为
输入而从统计模型输出的距离(第二距离)来使统计模型进行学习。在本实施方式中,到图
像xi所包含的被摄体的距离(第三距离)与到图像xk所包含的被摄体的距离(第四距离)的大
小关系(即,图像xi及图像xk间的大小关系)是已知的,以与图像xi对应的预测值(第一距离)
和与图像xk对应的预测值(第二距离)的大小关系与图像xi及图像xk间的前后关系相等的方
式使统计模型进行学习。
[0122] 在本实施方式中,通过这样的结构,即使是未被赋予正确标签(示教标签)的学习用图像,也能够使统计模型进行学习,因此能够提高该模型中的学习的容易性。
[0123] 另外,在本实施方式中,设为一边使摄像装置2向例如远离被固定于规定的位置的被摄体的方向移动一边进行摄像包含图像xi及图像xk的多个学习用图像。由此,能够基于按
照被摄像的顺序而对该学习用图像的每一个附加的识别编号(例如,连续的编号),来容易
地判别到各学习用图像所包含的被摄体的距离的大小关系。
[0124] 另外,包含图像xi及图像xk的多个学习用图像例如也可以一边使摄像装置2向接近被摄体的方向移动一般进行摄像。
[0125] 另外,在本实施方式中,设为到多个学习用图像各自所包含的被摄体的距离的大小关系基于对该学习用图像附加的识别编号来判别进行了说明,但该大小关系也可以基于
如上述那样将被摄体的位置固定的情况下的摄像该学习用图像时的摄像装置2的位置来判
别。这样的摄像装置2的位置只要附加于学习用图像即可。
[0126] 在此,例如存在在摄像装置2中搭载有内界传感器(陀螺仪传感器或加速度传感器等)的情况,根据由该内界传感器检测出的信号,能够计算出该摄像装置2的运动(轨迹)。在
该情况下,摄像上述的学习用图像时的摄像装置2的位置能够基于根据由内界传感器得到
的信号计算出的摄像装置2的动作来取得。
[0127] 另外,例如在使用具有使摄像装置2移动的移动机构的工作台对学习用图像进行摄像的情况下,摄像学习用图像时的摄像装置2的位置也可以基于该工作台的位置而取得。
[0128] 另外,作为本实施方式中的学习用图像所包含的被摄体,例如能够利用具有平面形状的电视监视器等。在这样利用电视监视器作为被摄体的情况下,由于能够在该电视监
视器上切换显示各种图像,所以能够使统计模型学习各种颜色模式(的学习用图像)。
[0129] 进而,在本实施方式中,设为在使统计模型学习时从学习用图像集合中选择任意的2个学习用图像(即,随机地选择学习用图像)而进行了说明,但作为该2个学习用图像,例
如也可以优先选择到被摄体的距离的差分成为预先决定的值以上的学习用图像。另外,虽
然到各学习用图像所包含的被摄体的距离(实测值)不明,但由于该学习用图像各自被摄像
到的顺序(即,到被摄体的距离的大小关系)根据识别编号而已知,因此例如通过选择被附
加于学习用图像的识别编号的差分为预先决定的值以上的2个学习用图像,由此能够选择
推定为到被摄体的距离的差分是预先决定的值以上的图像。由此,能够排除学习用图像间
的大小关系的误认(混乱)。
[0130] 另外,在摄像学习用图像时,由于摄像装置2的动作,可能会发生尽管被摄体未移动但连续地摄像到图像这样的情况。因此,也可以优先选择被摄像到的时刻(日期时间)的
差分为预先决定的值以上的2个学习用图像。
[0131] 另外,在统计模型的学习时,从学习用图像集合中选择出的2个学习用图像的每一个中切出任意的区域(即,随机地切出区域),但该区域例如也可以基于与各学习用图像中
的位置、像素值等相应的规定的规则性而被切出。
[0132] 此外,在本实施方式中,作为在统计模型中根据图像来预测距离的方式的一例而对补片方式进行了说明,但作为根据图像来预测距离的方式,例如也可以采用图像的整体
区域被输入至统计模型并输出与该整体区域对应的预测值(距离)的画面统一方式等。
[0133] 另外,在本实施方式中,色号为统计模型通过学习受到光学系统的像差的影响的学习用图像(根据到该学习用图像所包含的被摄体的距离而非线性地变化的模糊)来生成
而进行了说明,但该统计模型例如也可以通过学习基于透射了在摄像装置2的开口部设置
的滤波器(滤色器等)后的光而生成的学习用图像(即,通过该滤波器而有意地在图像中产
生的、根据到被摄体的距离而非线性地变化的模糊)而生成。
[0134] (第二实施方式)
[0135] 接着,对第二实施方式进行说明。关于本实施方式中的测距系统(摄像装置及图像处理装置)的结构等,由于与前述的第一实施方式相同,因此在本实施方式中对测距系统的
结构进行说明的情况下,适当使用图1等。在此,主要对与前述的第一实施方式不同的点进
行叙述。
[0136] 在前述的第一实施方式中,设为统计模型输出到图像所包含的被摄体的距离而进行了说明,但本实施方式中的统计模型设为将相对于该距离(即,预测值)的不可靠度的程
度(以下,表述为不可靠度)与该距离一起输出。本实施方式与前述的第一实施方式的不同
点在于,使用反映了这样从统计模型输出的不可靠度的位次损失(位次损失函数)来使统计
模型进行学习。另外,不可靠度设为,例如由0以上的实数表示,值越大则表示可靠性越高。
不可靠度的计算方法并不限定于特定的方法,能够应用已知的各种方法。
[0137] 以下,参照图14的流程图,对本实施方式中使统计模型进行学习时的图像处理装置3的处理顺序的一例进行说明。
[0138] 首先,执行与前述图12所示的步骤S1~S4的处理相当的步骤S21~S24的处理。
[0139] 当执行步骤S24的处理时,学习处理部35所包含的计算部35b使用保存于统计模型保存部31的统计模型,取得到图像xi所包含的被摄体的距离及相对于该距离的不可靠度
(与图像xi对应的预测值及不可靠度)、和到图像xk所包含的被摄体的距离及相对于该距离
的不可靠度(与图像xk对应的预测值及不可靠度)(步骤S25)。
[0140] 在此,若将上述的不可靠度设为由σ表示,则在步骤S5中,取得通过将图像xi(即,从图像xi切出的n像素×m像素的图像补片)输入至统计模型而从统计模型fθ输出的距离fθ
(xi)及不可靠度σi、和通过将图像xk(即,从图像xk切出的n像素×m像素的图像补片)输入而
从统计模型fθ输出的距离fθ(xk)及不可靠度σk。
[0141] 接着,计算部35b基于在步骤S25中取得的距离及不可靠度,计算位次损失(步骤S26)。
[0142] 在前述的第一实施方式中,设为使用式(1)来计算位次损失而进行了说明,但表示本实施方式中的位次损失的函数(位次损失函数)如以下的式(5)那样定义。
[0143]
[0144] σ=max(σi,σk)          式(6)
[0145] 在该式(5)中,Luncrt(xi,xk)表示在本实施方式中计算出的位次损失,Lrank(xi,xk)与前述的第一实施方式中的式(1)的Lrank(xi,xk)相同。
[0146] 在此,例如在步骤S23中切出了没有纹理的区域、光饱和(即,泛白)的区域的情况下,从统计模型输出高精度的距离(即,预测正确的距离)是困难的,但在前述的第一实施方
式中,即使是这样的用于预测距离的线索不存在或者较少的区域(以下,表述为预测困难区
域)也要以满足图像xi及图像xk间的大小关系的方式进行学习,因此有可能发生过度学习。
在该情况下,统计模型被最优化为预测困难区域,该统计模型的通用性降低。
[0147] 因此,在本实施方式中,如上述的式(5)所示,将不可靠度σ加入损失函数,从而计算出考虑了上述的预测困难区域中的预测困难性(不可预测性)的位次损失。另外,式(5)的
σ如式(6)所定义那样,是不可靠度σi及不可靠度σk中的值较大的不可靠度。
[0148] 根据如式(5)那样的位次损失函数(不可靠性位次损失函数),在预测困难区域中无法降低(减小)Lrank(xi,xk)的情况下,通过提高不可靠度σi及不可靠度σk中的至少一方(即,不可靠度σ),能够调整为降低本实施方式中的位次损失即Luncrt(xi,xk)。但是,为了防止由于过度提高不可靠度σ而Luncrt(xi,xk)过度下降,在式(5)的右边加上第二项作为补偿(penalty)。
[0149] 另外,式(5)所示的位次损失函数例如能够通过将不均匀分散的定义式扩展而得到。
[0150] 当执行步骤S26的处理时,执行与前述的图12所示的步骤S7的处理相当的步骤S27的处理。此外,在该步骤S27中,只要将前述的第一实施方式中说明的式(4)的Lrank(xi,xk)作为Luncrt(xi,xk),而使统计模型进行学习即可。
[0151] 如上所述,在本实施方式中,在以使基于与图像xi及图像xk对应的预测值(第一距离及第二距离)计算出的位次损失最小化的方式使统计模型进行学习时,基于与从统计模
型输出的图像xi及图像xk对应的不可靠度(第一及第二不可靠度)中的至少一方来调整该位
次损失。
[0152] 在本实施方式中,通过这样的结构,能够缓和上述的预测困难区域对统计模型的学习造成的影响,因此能够实现精度高的统计模型的学习。
[0153] (第三实施方式)
[0154] 接着,对第三实施方式进行说明。由于本实施方式中的测距系统(摄像装置及图像处理装置)的结构等与前述的第一实施方式相同,因此在本实施方式中对测距系统的结构
进行说明的情况下,适当使用图1等。在此,主要对与前述的第一实施方式不同的点进行叙
述。
[0155] 本实施方式与前述的第一实施方式的不同点在于,以满足2个学习用图像间的大小关系、且与同一学习用图像内的不同的2个区域对应的距离(预测值)的偏差成为最小的
方式使统计模型进行学习。另外,在本实施方式中,假定了利用具有平面形状的电视监视器
等作为学习用图像所包含的被摄体的情况。
[0156] 以下,对本实施方式中使统计模型进行学习时的图像处理装置3的处理顺序的一例进行说明。在此,为了方便,使用图12的流程图进行说明。
[0157] 首先,执行在前述的第一实施方式中说明的步骤S1及S2的处理。在以下的说明中,将在步骤S2中选择出的2个学习用图像设为图像xi及图像xk。
[0158] 当执行步骤S2的处理时,学习处理部35从图像xi及图像xk的每一个中切出任意的区域(步骤S3)。
[0159] 这里,在前述的第一实施方式中设为从图像xi及图像xk分别切出1个区域而进行了说明,但在本实施方式中,例如从图像xi切出2个区域,从图像xk切出1个区域。
[0160] 此外,在前述的第一实施方式中,设为可以切出占据图像xi及图像xk的整体的区域而进行了说明,但在本实施方式中设为,图像xi及图像xk的一部分的区域(图像补片)被切
出。
[0161] 在以下的说明中,为了方便,将在步骤S3中从图像xi切出的2个区域设为图像xi1及图像xi2,将在该步骤S3中从图像xk切出的区域简单设为图像xk。
[0162] 当执行步骤S3的处理时,执行在前述的第一实施方式中说明的步骤S4及S5的处理。此外,在步骤S5中,取得通过输入图像xi1而从统计模型fθ输出的距离fθ(xi1)、通过输入图像xi2而从统计模型fθ输出的距离fθ(xi2)及通过输入图像xk而从统计模型fθ输出的距离fθ(xk)。
[0163] 接着,计算部35b基于在步骤S5中取得的距离(与图像xi1、图像xi2及图像xk分别对应的预测值)来计算位次损失(步骤S6)。
[0164] 在此,由于本实施方式中的学习用图像所包含的被摄体具有平面形状,因此到同一学习用图像所包含的被摄体的距离相同。在本实施方式中,着眼于这一点,以使与图像xi1及图像xi2(即,从同一图像xi切出的2个区域)对应的预测值的偏差最小化的方式使统计模
型进行学习。
[0165] 在该情况下,本实施方式中的表示位次损失的函数(位次损失函数)如以下的式(7)那样定义。
[0166] Lintra(xi1,xk,xi2)=Lrank(xi1,xk)+λ|fθ(xi1)‑fθ(xi2)|    式(7)
[0167] rank(xi1)≠rank(xk),rank(xi1)=rank(xi2)        式(8)
[0168] 在该式(7)中,Lintra(xi1,xi2,xk)表示在本实施方式中计算出的位次损失,Lrank(xi1,xk)相当于前述的第一实施方式中的式(1)的Lrank(xi,xk)。即,Lrank(xi1,xk)将式(1)中的图像xi作为图像xi1来计算。
[0169] 另外,式(7)的右边的第二项表示与图像xi1对应的距离(预测值)和与图像xi2对应的距离(预测值)的偏差(差分),该第二项中的λ是用于取得与该右边的第一项的平衡的任
意的系数(λ>0)。
[0170] 另外,在本实施方式中,图像xi1及图像xi2分别是从同一图像xi切出的区域,所以图像xi1、图像xi2及图像xk间的大小关系(即,图像xi1、图像xi2及图像xk各自的位次的前后关系)满足式(8)。
[0171] 当执行步骤S6的处理时,执行在前述的第一实施方式中说明的步骤S7的处理。在该步骤S7中,只要将前述的第一实施方式中说明的式(4)的Lkran(xi,xk)作为Lintra(xi1,xi2,xk)来使统计模型进行学习即可。
[0172] 如上所述,在本实施方式中,通过已将从图像xi切出的2个区域(第一及第三区域)的每一个作为输入而从统计模型输出的距离(第一距离及第五距离)的差分最小化的方式
使统计模型进行学习的构成,与前述的第一实施方式相比,能够实现考虑了与同一学习用
图像内的各区域对应的距离的偏差的更高精度的统计模型的学习。
[0173] 在本实施方式中,设为考虑与图像xi及图像xk中的图像xi内的各区域对应的距离的偏差来计算位次损失而进行了说明,但例如也可以如以下的式(9)那样,使用计算进一步
考虑了与图像xk内的各区域对应的距离的偏差的位次损失的位次损失函数。
[0174] Lintra(xi1,xk1,xi2,xk2)=Lrank(xi1,xk1)+λ|fθ(xi1)‑fθ(xi2)|+λ|fθ(xk1)‑fθ(xk2)|  式(9)[0175]
[0176] 另外,在式(9)中,将从图像xk切出的2个区域分别表示为图像xk1及图像xk2。
[0177] 另外,本实施方式也可以构成为与前述的第二实施方式组合。在该情况下,能够使用以下的式(10)那样的位次损失函数。
[0178]
[0179] 根据以上所述的至少1个实施方式,能够提供能够提高统计模型中的学习的容易性的学习方法、程序及图像处理装置。
[0180] 对本发明的几个实施方式进行了说明,但这些实施方式是作为例子而提示的,并不意图限定发明的范围。这些实施方式能够以其他各种方式实施,在不脱离发明的主旨的
范围内,能够进行各种省略、置换、变更。这些实施方式及其变形包含在发明的范围或主旨
中,同样包含在权利要求书所记载的发明及其等同的范围内。
[0181] 另外,能够将上述的实施方式汇总为以下的技术方案。
[0182] [技术方案1]
[0183] 一种学习方法,使统计模型进行学习,该统计模型用于将包含被摄体的图像作为输入而输出到该被摄体的距离,
[0184] 所述学习方法具备如下步骤:
[0185] 取得由摄像装置摄像到的包含被摄体的第一图像及第二图像;以及
[0186] 基于将作为所述第一图像的至少一部分的第一区域作为输入而从所述统计模型输出的第一距离及将作为所述第二图像的至少一部分的第二区域作为输入而从所述统计
模型输出的第二距离,使所述统计模型进行学习,
[0187] 到所述第一图像所包含的被摄体的第三距离与到所述第二图像所包含的被摄体的第四距离之间的大小关系是已知的,
[0188] 所述学习包括:以所述第一距离与所述第二距离的大小关系和所述第三距离与所述第四距离的大小关系相等的方式使所述统计模型进行学习。
[0189] [技术方案2]
[0190] 根据上述技术方案1,
[0191] 所述统计模型将所述第一区域作为输入而输出所述第一距离及该第一距离的第一不可靠度,将所述第二区域作为输入而输出所述第二距离及该第二距离的第二不可靠
度,
[0192] 所述学习包括:以使基于从所述统计模型输出的第一距离及第二距离计算出的位次损失最小化的方式使该统计模型进行学习,
[0193] 所述位次损失基于所述第一不可靠度及所述第二不可靠度中的至少一方来调整。
[0194] [技术方案3]
[0195] 根据所述技术方案1或2,
[0196] 所述统计模型将作为所述第一图像的至少一部分且与所述第一区域不同的第三区域作为输入而输出第五距离,
[0197] 所述学习包括:以使所述第一距离与所述第五距离的差分最小化的方式使所述统计模型进行学习。
[0198] [技术方案4]
[0199] 根据所述技术方案1~3,
[0200] 所述第一图像及所述第二图像是一边使所述摄像装置在远离所述被摄体的方向上移动一边通过该摄像装置摄像到的,
[0201] 对所述第一图像及所述第二图像赋予识别编号,该识别编号表示被所述摄像装置进行摄像的顺序,
[0202] 所述第三距离与所述第四距离的大小关系,基于附加于所述第一图像及所述第二图像的识别编号来判别。
[0203] [技术方案5]
[0204] 根据所述技术方案1~3,
[0205] 所述第一图像及所述第二图像是一边使所述摄像装置在接近所述被摄像体的方向上移动一边由该摄像装置摄像到的,
[0206] 对所述第一图像及所述第二图像赋予识别编号,该识别编号表示被所述摄像装置进行摄像的顺序,
[0207] 所述第三距离与所述第四距离的大小关系,基于附加于所述第一图像及所述第二图像的识别编号来判别。
[0208] [技术方案6]
[0209] 根据所述技术方案1~3,
[0210] 所述第三距离与所述第四距离的大小关系,基于由所述摄像装置摄像到所述第一图像及所述第二图像时的该摄像装置的位置来判别。
[0211] [技术方案7]
[0212] 根据所述技术方案6,
[0213] 由所述摄像装置摄像到所述第一图像及所述第二图像时的该摄像装置的位置,由搭载于该摄像装置的传感器取得。
[0214] [技术方案8]
[0215] 根据所述技术方案6,
[0216] 由所述摄像装置摄像到所述第一图像及所述第二图像时的该摄像装置的位置,基于使该摄像装置移动的移动机构的位置而取得。
[0217] [技术方案9]
[0218] 根据所述技术方案1~8,
[0219] 所述被摄体的形状为平面形状。
[0220] [技术方案10]
[0221] 根据所述技术方案1~9,
[0222] 所述第三距离与所述第四距离的差分为预先决定的值以上。
[0223] [技术方案11]
[0224] 根据所述技术方案1~10,
[0225] 摄像到所述第一图像的第一时刻与摄像到所述第二图像的第二时刻的差分为预先决定的值以上。
[0226] [技术方案12]
[0227] 根据所述技术方案1~11,
[0228] 所述统计模型通过学习模糊而生成,该模糊是在受到光学系统的像差的影响的图像中产生的、根据到该图像所包含的被摄体的距离而非线性地变化的模糊。
[0229] [技术方案13]
[0230] 根据所述技术方案1~11,
[0231] 所述统计模型通过学习模糊而生成,该模糊是在基于透射了滤波器的光而生成的图像中产生的、根据到该图像所包含的被摄体的距离而非线性地变化的模糊。
[0232] [技术方案14]
[0233] 一种程序,使统计模型进行学习,该统计模型用于将包含被摄体的图像作为输入而输出到该被摄体的距离,
[0234] 所述程序使计算机执行如下处理:
[0235] 取得由摄像装置摄像到的包含被摄体的第一图像及第二图像;以及
[0236] 基于将作为所述第一图像的至少一部分的第一区域作为输入而从所述统计模型输出的第一距离及将作为所述第二图像的至少一部分的第二区域作为输入而从所述统计
模型输出的第二距离,使所述统计模型进行学习,
[0237] 到所述第一图像所包含的被摄体的第三距离与到所述第二图像所包含的被摄体的第四距离之间的大小关系是已知的,
[0238] 所述学习包括:以所述第一距离与所述第二距离的大小关系和所述第三距离与所述第四距离的大小关系相等的方式使所述统计模型进行学习。
[0239] [技术方案15]
[0240] 一种图像处理装置,使统计模型进行学习,该统计模型用于将包含被摄体的图像作为输入而输出到该被摄体的距离,
[0241] 所述图像处理装置具备:
[0242] 取得单元,取得由摄像装置摄像到的包含被摄体的第一图像及第二图像;以及
[0243] 学习单元,基于将作为所述第一图像的至少一部分的第一区域作为输入而从所述统计模型输出的第一距离及将作为所述第二图像的至少一部分的第二区域作为输入而从
所述统计模型输出的第二距离,使所述统计模型进行学习,
[0244] 到所述第一图像所包含的被摄体的第三距离与到所述第二图像所包含的被摄体的第四距离之间的大小关系是已知的,
[0245] 所述学习包括:以所述第一距离与所述第二距离的大小关系和所述第三距离与所述第四距离的大小关系相等的方式使所述统计模型进行学习。

当前第1页 第1页 第2页 第3页