技术领域
[0001] 本发明属于图像处理技术领域,涉及弱监督指向性视觉理解,特别是涉及一种针对常见REC模型的弱监督训练方法。
相关背景技术
[0002] 参考表达理解(REC)旨在基于参考表达在图像中定位目标实例。作为跨模态识别任务,REC不限于一组固定的对象,理论上能够进行任何开放式检测。这些吸引人的特性使其越来越受到工业界和学术界的关注。然而,昂贵的实例级别标注长期限制着它的发展。
[0003] 对于弱监督参考表达理解任务,在目前的文献中,所有的方法都是模型特定的,而且由于缺乏实例级别的标注,这些方法往往采用相对简单的多模态交互策略。而在全监督实验设置下,模型往往具有更为复杂的跨模态处理模块和更强的边界框回归能力。但是由于监督方式的差异,这些经验却很难应用到弱监督模型中。
具体实施方式
[0019] 以下将结合附图,对本发明的技术方案及有益效果进行详细说明。
[0020] 如图1,本发明提供一种针对常见REC模型的弱监督训练方法,包括如下过程:
[0021] 一、伪标签生成过程:
[0022] 1.按照弱监督指向性视觉理解模型的输入要求准备对应的RGB图像和文本描述;
[0023] 2.根据弱监督指向性视觉理解模型的输出得到对应的预测目标边界框,即伪标签;
[0024] 二、模型训练过程:
[0025] 1.将上述步骤中的图像和文本描述输入到现有任意指向性视觉理解模型[1‑3]中,并采用随机调整尺寸数据增强方法,在训练过程中采用指数移动平均(EMA)策略进行参数更新,并使用伪标签监督模型训练;
[0026] 2.最终得到训练好的任意指向性视觉理解模型,基于此模型进行图像描述的预测。上述步骤3中,在任意指向性视觉理解模型的训练过程中,针对输入的图像采用随机调[4] [5]整尺寸数据增强 方法,并在训练过程中采用指数移动平均(EMA) 策略进行参数更新。公式如下:
[0027]
[0028] 其中,α是EMA速率,t是训练步数。
[0029] 三、模型部署过程:
[0030] 在经过模型训练后,对于训练好的模型,将图片和描述语言输入,即可得到目标边界框作为预测输出。
[0031] 参考文献:
[0032] [1]Zhou,Y.;Ji,R.;Luo,G.;Sun,X.;Su,J.;Ding,X.;Lin,C.‑W.;and Tian,Q.2021.Areal‑time global inference network for one‑stage referring expression comprehension.IEEE Transactions on Neural Networks and Learning Systems.[0033] [2]Luo,G.;Zhou,Y.;Sun,J.;Huang,S.;Sun,X.;Ye,Q.;Wu,Y.;and Ji,R.2022.What Goes beyond Multi‑modal Fusion in One‑stage Referring Expression Comprehension:An Empirical Study.arXiv preprint arXiv:2204.07913.[0034] [3]Deng,J.;Yang,Z.;Chen,T.;Zhou,W.;and Li,H.2021.Transvg:End‑to‑end visual grounding with transformers.In Proceedings of the IEEE/CVF International Conference on Computer Vision,1769–1779.
[0035] [4]Krizhevsky,A.;Sutskever,I.;and Hinton,G.E.2012.Imagenet classification with deep convolutional neural networks.Advances in neural information processing systems,25.
[0036] [5]Tarvainen,A.;and Valpola,H.2017.Mean teachers are better role models:Weight‑averaged consistency targets improve semi‑supervised deep learning results.Advances in neural information processing systems,30.[0037] 表1
[0038]
[0039] 如表1所示,采用数据增强和指数移动平均后,伪标签的质量得到提升,从而提高模型的检测性能。
[0040] 以上实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。