首页 / 基于扩散模型的抗弧光图像数据集扩充方法

基于扩散模型的抗弧光图像数据集扩充方法实质审查 发明

技术领域

[0001] 本发明涉及深度学习方法在工业检测中的应用技术领域,具体涉及基于扩散模型的抗弧光图像数据集扩充方法。

相关背景技术

[0002] 自动化焊接是智能制造业中的一个重要组成部分,它利用机器设备和控制系统自动执行焊接工作,以提高生产效率、保证焊接质量并降低人工操作的风险。线结构光测量是一种常用的三维测量技术,通过投射一条或多条结构化的光线(例如激光)到物体上,然后分析反射回来的光线的变形,可以得到物体的三维信息。在自动化焊接中,线结构光测量可以用于实时监测焊缝的位置和形状,从而实现精确的焊接控制。在焊接过程中,激光条纹图像提供了丰富的信息,可以用于评估焊接质量。激光条纹是焊接过程中产生的光亮区域,其形状、大小和亮度等特性可以反映焊接过程的稳定性和焊接质量。但是,由于激光条纹图像通常包含复杂的模式和噪声,因此从中提取有用的信息是并不是一件简单的事。
[0003] 深度学习是一种强大的机器学习技术,能够自动从大量的数据中学习和提取复杂的特征。通过使用深度学习算法,可以训练出能够自动从激光条纹图像中提取有用信息的模型,从而实时准确地评估焊接质量。然而,利用深度学习进行激光条纹图像识别也面临一些挑战。首先,深度学习模型通常需要大量的标注数据进行训练,而在工业环境中获取这样的数据通常是困难和昂贵的。其次,工业环境中的条件经常变化,对识别的准确率要求高,这些需求迫使模型拥有更好的性能,这往往需要更大的数据集。
[0004] 深度学习方法虽然在工业检测中拥有强大的适应能力,但它们大多属于有监督的方法,这种方法极度依赖于数据集。数据集的内容确定了深度学习算法的检测内容,数据集的质量极大影响了算法的性能。而在自动化焊接领域中,由于商业或者隐私等问题,很难获取到合适的激光条纹公开数据集。自制数据集的过程中也会有诸多难点,由于场景单一,难以收集不同光照、角度等变化的数据。收集大量数据时重复度过高。其次,某些缺陷或者场景是非常罕见的,收集多样的数据对模型的泛化能力有着显著影响。
[0005] 当前,焊接中的激光条的数据集采集与制作主要从两方面入手,第一是在数据采集的前期,尽可能地收集大量的不同环境、不同特征、不同角度的数据图像。第二是基于这些采集图像利用随机旋转、裁切、缩放等手段扩充数据集。这种扩充方法虽然快速简单,但是这些图像从本质上属于原有图像的一部分,它们并不能提升原有数据的多样性,扩充的图像其亮度、特征等都与原有图像相似。其次,这些简单的变化会可能丢失图像中目标的信息,大量加入由这些方法扩充的数据样本会影响数据集的真实样本分布,从而算法的性能。
[0006] 综上,提供一种方法使得深度学习算法应用于焊接中激光条检测时具备良好的数据基础,是非常有意义的。

具体实施方式

[0050] 这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本发明相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本发明的一些方面相一致的系统的例子。
[0051] 为了解决如何更好地完成激光条数据集的扩充,生成更符合需求的高质量数据样本的问题。缓解数据采集多样性低、数据量少、采集成本高的问题,本实施方案提供了基于扩散模型的抗弧光图像数据集扩充方法,基于扩散模型,采取图像生成的方式完成数据集的扩充。图像生成的算法流程分为离线过程和在线过程:
[0052] 离线过程是扩散模型的训练过程,在这个过程中,采集的图像依次经过扩散步骤和生成步骤,离线的过程赋予了扩散模型对数据的理解与表达能力,它是在线过程的前提与基础。
[0053] 在线过程是图像的生成过程,它是数据集扩充的实际方法载体,这个过程会移除扩散步骤,随机生成的样本经过离线过程中已经训练好的生成步骤,生成符合需求的数据样本。
[0054] 本发明以焊接中弧光多干扰下的激光条纹图像生成为例完成算法的实现,扩散模型的整体结构如图1所示,本发明提供了基于扩散模型的激光条纹图像生成算法,实现焊接中激光条纹图像数据集的扩充,其包含扩散步骤与生成步骤两个主要过程。在扩散过程中,数据集中的原始图像x0作为输入,逐步给图像叠加噪声,噪声ε来自于噪声采样器,最后经过T步加噪变成噪声图像xT。在生成步骤中,噪声图像xT则是逐步去噪,噪声预测网络会预测每一步需要去除的噪声 最终还原图像。离线过程会依次经历完整的扩撒步骤和生成步骤,主要目的是训练噪声预测网络,使其能够预测更真实的噪声 在线过程则会直接随机初始化一张噪声图像,只经由生成步骤得到一张新的数据样本。
[0055] 所述扩散步骤是将原始图像逐步扩散为噪声的过程。扩散步骤的起点是原始图像,然后在每一步中添加一定的噪声,噪声通常采样于一个高斯分布,使得数据逐渐变得更加随机和不可预测。这个过程是一系列的随机扩散步骤,是从有序向无序的转变。每一步都使数据分布变得更接近于设定的噪声分布(例如高斯分布)。不断地重复这个过程,直到数据完全变为噪声。对于原始图像x0~q(x0),总共经过T个这样的扩散过程,每一步扩散过程后得到的数据都是经由上一步数据xt‑1,按照如下方式通过高斯采样后得到的:
[0056]
[0057] 其中 是每一步采样噪声的方差,其值域是(0,1),且β1<β2<…<βT,说明加入的噪声会越来越大,t∈T是预设的固定采样次数,也相当于采样时间点,从公式中可以了解到,xt是从均值为 方差为βt的高斯分布采样中得到。在扩散模型中,每一时刻的方差设定通常称为噪声采样器(Noise Scheduler),方差的采样方式是扩散模型中的一个重要组成策略,例如由线性采样、余弦采样等。原始图像经过逐步的加噪过程变成噪声图像,过程如图2所示。
[0058] 由于扩散过程是一个马尔科夫链,t时刻的图像只与t‑1时刻的图像有关,每一个时刻的图像可以由前一刻图像得到,即q(xt|xt‑1)。那如何建立任意时刻xt与初始x0的关系q(xt~T|x0)呢,可以采取数学归纳法对每一次扩散过程进行展开,首先采取重参数技巧假设αt=1‑βt, 然后根据式(1)进行逐步迭代的方式得到如下:
[0059]
[0060] 其中随机噪声 从上述公式可以得知,虽然每一步扩散过程的噪声∈采样自方差βt不同的分布,但它们都符合高斯分布。从贝叶斯概率理论得知,两个符合正态分布相加还是符合正态分布,只是均值和方差会改变,所以由式(2)可知,这个不断迭代的过程最终是满足 的高斯分布,从而得到从初始x0获得任意时刻xt的公式:
[0061]
[0062] 从上述的结论中可以得到扩散模型最重要的特性是链式传播特性,任意时刻的图像是由原始图像x0与随机噪声∈线性加权而来, 和 是二者的加权系数,进一步表示权重系统是由已知的αt、βt得到,它们是扩散模型中噪声采样器的基石。原始图像x0是已知的,那么在这个扩散公式中唯一不可知的则是随机噪声∈,它是采样自高斯分布,所以预测每一次的∈是扩散模型训练过程中的主要任务,扩散过程的训练算法流程如表所示。
[0063] 表1扩散步骤的训练流程
[0064]
[0065] 所述生成步骤可以看作是扩散步骤的反向过程,扩散步骤是将原始图像噪声化,而生成步骤则是将已经被噪声掩盖的图像恢复为原始图像,从广义角度看,它也是一个符合马克可夫链的随机扩散过程。假设如果我们知道每一步的真实分布q(xt~1|xt),那么从一个满足 的xT的噪声图像,就可以逐次去除噪声还原出真实图像x0,生成过程的去噪如图3所示。从过程来看,生成过程实现了图像的生成,基于这一特性完成激光条纹的图像生成。
[0066] 虽然分布q(xt~1|xt)是无法直接得到的,但是根据扩散过程原始图像x0和q(xt|xt‑1),结合贝叶斯概率理论,则可以计算这个过程的条件概率:
[0067]
[0068] 这样通过贝叶斯概率理论成功将后验概率转化为先验概率。从等式的右边的构成可以看出,其中的q(xt~1|x0)、q(xt|x0)都是扩散过程中式(3)可以得到的:
[0069]
[0070] 接下来,将式(5)待入式(4)可以得到:
[0071]
[0072] 其中,对于xt时刻的概率分布计算,C(xt,x0)是一个与xt‑1无关的量,在上文证明过扩散过程最终是满足 的高斯分布,则根据高斯分布的概率函数,结合式(6)可以得到后验概率q(xt~1|xt,x0)的均值和方差:
[0073]
[0074]
[0075] 从式(4)可以看出,最终方差 是一个已知的定量,它在扩散过程中由噪声采样器得到。从式(8)显示的均值 来看,其取决于噪声图像xt和原始图像x0,最终这个概率分布会指导图像生成的应用。生成过程的采样流程如表2所示。
[0076] 表2采样过程的算法流程表
[0077]
[0078] 所述噪声采样器(Noise Schdeluer)定义了扩散步骤中噪声∈的生成方式,决定各个步骤中加入或移除噪声的策略,这对于控制生成图像的质量和多样性至关重要。线性线性加噪是最普遍的加噪方式,但是随着时刻t增加,噪声的比例会极大地提高,从而过早地使图像中的特征信息丢失,而在初始时又会因为加的噪声比例非常小难以预测准确。为了解决这一问题,本发明采取了更平滑余弦函数进行加噪,引入余弦函数使加噪过程更加平滑,解决图像线性加噪过程中过快变成噪声图像的问题。
[0079]
[0080] 噪声预测网络是在生成步骤中完成噪声预测的任务,这是一个噪声还原任务,本发明采用更加鲁棒性的噪声预测网络提升算法对于激光条纹图像还原(生成)的性能。本发明在U‑Net上进行改进设计了ET‑UNet(Enhance Transformer based‑UNet),进一步提升噪声预测的能力,网络结构如图4所示。生成过程每一个时间步数(TimeStep)都需要预测噪声,所以采取一个多层感知层(MLP)对时间进行编码,用于区分不同时刻的噪声,时间编码与对应的图像的共同构成了网络的输入。网络的主干由左侧的编码器和右侧对称的解码器组成,编码器负责编码噪声图像与时间信息,解码器负责还原信息输出对应时刻的噪声预测结果。在网络深层时,加入Transformer中的多头自注意力机制,提升网络的性能。
[0081] 为探究扩散模型对工业检测数据样本的理解能力与生成效果,本发明以自动化焊接中激光条纹的图像检测为例,进行了实验。离线过程中完成扩散模型的训练是在线过程能够实现图像生成的前提。本发明对生成步骤进行了可视化,可视化结果如图5所示。对于随机初始化的噪音图像,通过生成过程中的逐步去噪,模型最终能够生成激光条纹图像。
[0082] 本发明采取了无条件式的图像生成,即生成过程中初始的噪声图像是随机的,并没有加入一定的先验知识。图6显示了基于自监督扩散模型生成的激光条纹图像,从结果可以看出,本发明提出的方法能够生成符合原数据集的样本图像。生成的激光条纹完整、特征明显,同时能够生成带弧光、飞溅的样本,此外,生成的样本亮度、光条位置、干扰元素的分布随机,能够提升数据集的多样性。
[0083] 生成的数据与训练数据的像素分布直方图如图7所示。二者都呈现出了两端高,中间低,像素主要聚集在低亮度的特点,说明生成数据符合激光条纹图像生成的需求。而且生成数据的像素分布更均匀,这样能提样本的多样性,提升激光条纹分割模型对不同灰度值的感知差异,从而提升模型的泛化能力。
[0084] 本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由权利要求指出。

当前第1页 第1页 第2页 第3页