技术领域
[0001] 本申请涉及计算机视觉和模式识别技术领域,尤其涉及一种基于图像预融合的跨域行为识别方法及装置。
相关背景技术
[0002] 行为识别领域包括多种不同深度架构的方法,例如:双流网络架构,用两个2D卷积块对RGB和光流信息进行联合训练,建模时间信息;时间关系网络深度模型,采用特殊的池化层来建模视频帧之间的时间关系;集成了膨胀的二维卷积滤波器,以利用大规模预训练的二维模型的深度网络等。然而,上述方法是在相同分布的训练数据集和测试数据集上训练的,即所有样本都来自同一数据集,无法直接运用在跨域行为识别领域。
[0003] 跨域识别的关键是源域和目标域之间的域差异,因为不同域之间存在着数据分布的差异,包括外观、光照、背景等方面的差异,对于跨域识别任务,其训练和测试的样本往往来自不同的数据集,即样本的分布是不同的。这会导致一些行为识别方法在跨域情况下,不能很好的消除样本的数据分布差异,从而导致模型的分类效果大幅下降,进而影响跨域识别的准确性。
具体实施方式
[0049] 下面将详细地对实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下实施例中描述的实施方式并不代表与本申请相一致的所有实施方式。仅是与权利要求书中所详述的、本申请的一些方面相一致的系统和方法的示例。
[0050] 在行为识别领域中,跨域识别的关键是源域和目标域之间的域差异,因为不同域之间存在着数据分布的差异,包括外观、光照、背景等方面的差异,对于跨域识别任务,其训练和测试的样本往往来自不同的数据集,即样本的分布是不同的。这会导致一些行为识别方法在跨域情况下,不能很好的消除样本的数据分布差异,从而导致模型的分类效果大幅下降,进而影响跨域识别的准确性。
[0051] 为解决跨域识别时准确性低的问题,本申请部分实施例提供一种基于图像预融合的跨域行为识别方法,参见图1,图1为本申请提供的基于图像预融合的跨域行为识别方法的流程图,本申请实施例提供的基于图像预融合的跨域行为识别方法包括:
[0052] S10:构造行为识别数据集,所述行为识别数据集包括源域数据集和目标域数据集。
[0053] 构造用于跨域识别的行为识别数据集,选取两个不同的行为识别数据集分别为A与B,从A、B中选出行为类别相同的数据,分别构造为源域数据集和目标域数据集。可以理解的是,源域数据集中的源域数据与目标域数据集中的目标域数据的行为类别相同。
[0054] 在一些实施例中,以大型行为识别数据集UCF101与数据集HMDB51为例,数据集UCF101提供101个动作行为类别的13320个视频,数据集HMDB51包含51个动作行为类别,共有6849个视频。其中,将数据集UCF101作为源域数据集,将数据集HMDB51作为目标域数据集。分别从数据集UCF101、HMDB51中选出行为类别相同的数据,例如,选取的两个数据集包含相同的七个行为类别,则分别构造数据集为源域数据集UCF7和目标域数据集HMDB7。需要说明的是,源域数据集UCF7和目标域数据集HMDB7中的数据分别具有真实标签,真实标签是指数据集中提供的对应数据所属的行为类别标签。
[0055] S20:对所述源域数据集中的数据进行归一化处理,以得到源域数据。
[0056] 需要说明的是,无论是源域数据集中的数据还是目标域数据集中的数据,均为图像数据。对源域数据集UCF7中的图像数据进行归一化处理,归一化处理包括对源域数据集中的图像数据进行图像形状的处理,以及像素值取值范围的处理,以将源域数据集UCF7中的图像数据调整为相同的图像形状,以及相同的像素值取值范围。需要说明的是,归一化处理后像素值的取值范围为0‑1。例如,可将源域数据UCF7集中的图像形状统一调整为224×224×3,像素值取值范围调整为0‑1,以得到源域数据。
[0057] S30:使用所述源域数据训练神经网络模型,以得到预训练模型。
[0058] 参见图2,图2为本申请提供的行为识别卷积神经网络模型的结构示意图,对于单帧图像的操作为通过卷积层conv提取图像特征,同时为了获取之前帧的信息,会将之前帧得到的部分提取特征替换当前帧对应位置的特征,并通过卷积层进行特征融合,最终将所有的特征送入分类层得到最后的行为识别分类预测结果。神经网络模型包括多层卷积层、全连接层以及残差结构。将图像形状为224×224×3的源域数据输入神经网络模型,在一些实施例中,神经网络模型可为深度全卷积神经网络模型,全卷积神经网络模型可适应任意尺寸的源域数据输入。
[0059] 将源域数据输入神经网络模型后,基于交叉熵损失函数获取源域数据的第一损失函数值,交叉熵损失函数公式为:
[0060]
[0061] 其中,i为样本,c为类别,N为源域数据集中的样本数量,M为源域数据集中的类别数量,yic为符号函数,pic为模型预测样本i的类别为c的预测概率。如果样本i的真实类别与c相同,则yic为1,如果样本i的真实类别与c不同,则yic为0。
[0062] 根据交叉熵损失函数计算出神经网络模型的预测值与真实值之间的第一损失函数值,通过反向传播算法和随机梯度下降法来更新模型参数,减小模型预测值与真实值之间的损失,从而使得模型的预测值能更接近真实值,以训练神经网络模型,在第一损失函数值小于或等于第一损失阈值时,输出神经网络模型的模型参数,进而完成模型训练,以得到预训练模型。
[0063] S40:对所述目标域数据集中的数据进行归一化处理,以得到目标域数据。
[0064] 需要说明的是,归一化处理后的目标域数据的图像形状与源域数据的图像形状相同,目标域数据的像素值取值范围与源域数据的像素值取值范围相同。在一些实施例中,可使目标域数据的数据尺寸与源域数据的图像形状相同,也为224×224×3。将源域数据与目标域数据的图像形状统一为相同的大小,更有利于进行后续的数据融合。
[0065] S50:将所述目标域数据输入所述预训练模型,以得到预测输出标签以及所述预测输出标签的预测置信度。
[0066] 将目标域数据集HMDB7中的目标域数据输入预训练模型,得到预训练模型的预测输出标签label,以及预测输出标签label的预测置信度conf。
[0067] S60:将所述预测输出标签和所述预测置信度作为所述目标域数据的伪标签。
[0068] 本申请实施例提供的识别方法,由于跨域识别需要在目标域数据集HMDB7上测试,因此测试过程中不使用目标域数据集HMDB7的真实标签。且伪标签可以减少数据的类别重叠,利用伪标签,可使数据类别边界更清晰,学习到的类别更紧凑。
[0069] S70:根据所述伪标签构造虚拟样本。
[0070] 基于上述步骤S60中获得的目标域数据集HMDB7的伪标签,对目标域数据集HMDB7中的目标域数据进行筛选。在一些实施例中,置信度阈值可为t=0.7,将预测置信度高于置信度阈值的目标域数据以及该目标域数据的预测输出标签从目标域数据集HMDB7中取出,以得到取出数据。
[0071] 将取出数据与源域数据集UCF7中的随机数据进行融合,以构造虚拟样本。需要说明的是,源域数据集UCF7中的随机数据为真实标签相同的数据,源域数据集UCF7不需要生成伪标签,因为跨域识别在源域上训练,在目标域上测试,训练时源域数据集UCF7上的真实标签是可以使用的。在一些实施例中,将取出数据与源域数据集UCF7中的随机数据按照下式进行融合:
[0072]
[0073] 其中,λ为融合比例系数,λ∈[0,1],为融合数据,xi为取出数据,xj为随机数据。在一些实施例中,λ可取0.5,将λ的值代入上式,得到融合数据 利用获得的融合数据 来构造虚拟样本。参见图3,图3为本申请提供的图像融合及虚拟样本生成示意图。需要说明的是,用于融合的数据中,源域数据的真实标签与目标域数据的伪标签是一致的,标签不一致的数据不进行融合。
[0074] S80:获取所述虚拟样本中的融合数据 的融合标签,利用所述虚拟样本中的融合数据 以及所述融合标签构造融合数据集。可以理解的是,融合标签所对应的行为类别与源域数据的真实标签或目标域数据的伪标签所对应的行为类别相同。
[0075] S90:对所述融合数据集中的数据进行归一化处理,以得到处理后融合数据。
[0076] 需要说明的是,处理后融合数据的图像形状与源域数据的图像形状相同,处理后融合数据的像素值取值范围与源域数据的像素值取值范围相同。在一些实施例中,可处理后使融合数据的图像形状与源域数据的图像形状相同,也为224×224×3。通过使目标域数据和处理后融合数据分别与源域数据的图像形状相同,以及使目标域数据和处理后融合数据分别与源域数据的像素值取值范围相同,以达到跨域识别的效果。
[0077] S100:使用所述处理后融合数据训练所述预训练模型,以得到跨域行为识别模型。
[0078] 将处理后融合数据输入预训练模型,基于交叉熵损失函数获取第二损失函数值。可以理解的是,此步骤中的交叉损失函数的公式与上述步骤S中的公式相同,不同的是,公式中的N为目标域数据集中的样本数量,M为目标域数据集中的类别数量。
[0079] 根据交叉熵损失函数计算出预训练模型的预测值与真实值之间的第二损失函数值,通过反向传播算法和随机梯度下降法来更新模型参数,减小模型预测值与真实值之间的损失,从而使得模型的预测值能更接近真实值,以训练预训练模型,在第二损失函数值小于或等于第二损失阈值时,输出预训练模型的模型参数,进而完成模型训练,以得到跨域行为识别模型。
[0080] S110:将所述目标域数据输入所述跨域行为识别模型,以得到跨域行为识别结果。利用得到的跨域行为识别结果,即可对跨域行为进行识别。
[0081] 在一些实施例中,本申请提供的基于图像预融合的跨域行为识别方法还包括:
[0082] 获取目标域数据集HMDB7的真实标签,将上述S110中得到的跨域行为识别结果与目标域数据集HMDB7的真实标签进行对比,即通过跨域识别行为模型在目标域数据集上的预测准确率来进行评估。例如:将预训练模型在目标域数据集上进行测试,得到第一准确率acc1,将跨域识别行为模型在目标域数据集上进行测试,得到第二准确率acc2。若acc2>acc1,即可说明跨域行为识别方法的有效性,即可对跨域行为识别模型的跨域识别性能进行评估。
[0083] 本申请的跨域行为识别方法通过使用伪标签融合数据构造虚拟样本来扩展数据,从而减小预训练模型迁移到一个新的场景时的模型退化情况,并达到增加模型鲁棒性和跨域识别的能力的目的。然后在数据融合的基础上,通过交叉熵损失函数指导卷积神经网络模型学习融合源域数据集特征,使其在学习过程中能够深入挖掘人体动作相关特征,并对模型性能进行分析与测试。该方法可最大可能的缩小域差异,提高跨域模型的性能。
[0084] 本申请部分实施例还提供一种基于图像预融合的跨域行为识别装置,应用于上述实施例所提供的识别方法,所述装置包括:
[0085] 采集模块,用于从数据集中采集数据;
[0086] 处理模块,用于对源域数据集、目标域数据集和融合数据集中的数据进行处理;
[0087] 融合模块,用于将所述目标域数据集中的取出数据与所述源域数据集中的随机数据进行融合;
[0088] 构造模块,用于构造数据集和虚拟样本;
[0089] 训练模块,用于对神经网络模型和预训练模型进行训练;
[0090] 对比模块,用于对跨域识别模型的跨域识别性能进行评估。
[0091] 由上述技术方案可知,本申请实施例提供一种基于图像预融合的跨域行为识别方法及装置,方法包括:构造行为识别数据集,包括源域数据集和目标域数据集;使用归一化处理后的源域数据训练神经网络模型以得到预训练模型;将归一化处理后的目标域数据输入预训练模型以得到预测输出标签以及相应的预测置信度;将预测输出标签和预测置信度作为目标域数据的伪标签;根据伪标签构造虚拟样本;获取虚拟样本中数据的融合标签,并利用虚拟样本中的数据构造融合数据集;使用归一化后的融合数据训练预训练模型以得到跨域行为识别模型;将目标域数据输入跨域行为识别模型以得到跨域行为识别结果。本申请的识别方法可减少源域与目标域之间的差异,使模型能够将从一个域中学习到的知识迁移到其他域中,从而提高模型的泛化能力和鲁棒性,可解决跨域识别时准确性低的问题。
[0092] 本申请提供的实施例之间的相似部分相互参见即可,以上提供的具体实施方式只是本申请总的构思下的几个示例,并不构成本申请保护范围的限定。对于本领域的技术人员而言,在不付出创造性劳动的前提下依据本申请方案所扩展出的任何其他实施方式都属于本申请的保护范围。