技术领域
[0001] 本发明属于图像生成技术领域,特别是涉及一种文本生成图像方法。
相关背景技术
[0002] 文本生成图像任务与图像分类、图像分割等单一的图像任务不同,它实现了在计算机视觉和自然语言处理两个不同领域进行跨模态研究,建立了从文本到图像的联系。文本合成图像的主要流程是自然语言模型将文本转换成语义向量,再利用图像模型生成语义一致的高质量图像。相较于单模态图像生成问题,多模态数据更具有全面性和复杂性。跨模态生成是多模态学习的常见任务,针对多源异构的复杂数据,迁移学习可以在不同模态间转化知识。近年来,基于对抗学习策略的迁移学习方法取得了优于经典迁移学习方法的性能。跨模态生成任务有助于构造完整的多模态认知场景,同时能够提高网络在不同模态间进行信息迁移、匹配与翻译的能力。现有的文本合成图像领域主要模型包括自回归模型(ARM)、变分自编码器模型(VAE)以及基于GAN的模型。ARM缺乏长期记忆不适用于复杂的模型,VAE模型生成的图像模糊不真实,GAN同时包含生成器和判别器,通过两者的博弈来实现逼真数据的生成。受GAN的启发,近几年提出了一系列的图像生成任务,如通过语义分割图像生对应的实景图像,通过文本生成对应描述的图像。通过GAN生成的图像,从图像质量、多样性、语义一致性等方面不断取得突破。
[0003] Reed等最先将GAN应用到文本生成图像中,生成肉眼可接受的64×64分辨率的图像,验证GAN在文本生成图像的可行性。Zhang等提出堆叠式的结构(StackGAN),将任务阶段化,逐步细化生成的图像,将分辨率提升到256×256。随后,Zhang等人改进了StackGAN,提出段端到端树状结构的StackGAN++,通过多尺度的判别器和生成器,提高了生成图像的质量和清晰度,但是图像的整体亮度偏暗淡,与数据集样本存在偏差,同时缺少生成图像真实度的判定,且为了使生成的图像整体上与描述一致,局部上与句子中的词语一致。Tao Xu等人提出了AttnGAN,在通过噪声初始化图像时,将文本信息嵌入其中,并在每个阶段判断生成的图像是否与文本匹配,通过这种方式使保持生成的图像和文本信息一致,同时,在每个阶段中通过使用注意机制选取文本中的单词,补充图像局部区域的细节。但AttGAN在文本合成图像的过程中没有很好地挖掘局部语义,缺乏空间信息。为了解决这个问题WenTong Liao等人提出了SSA‑GAN以端到端的方式进行训练,因此与多阶段细化框架相比,它可以更有效和稳定地训练,同时该方法通过SSA block控制像素级补充局部的细节。一方面SSA block根据文本特征向量学习语义感知通道仿射的参数;另一方面,根据当前文本融合的过程预测语义掩码。语义掩码表示生成的图像在像素级上还需要用文本信息增强的地方。但是SSA‑GAN的图像生成效果与预测的语义掩码有关;语义掩码的效果会明显影响生成图像的质量。此外,基于GAN的文本生成图像算法还存在一个主要的局限性:即使生成的图像整体上与描述相符,但在局部区域中的某些语义往往无法识别或与句子中的词不一致。
具体实施方式
[0054] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0055] 本发明提供一种基于对比学习残差语义空间感知GAN(RSSA‑GAN)的文本生成图像的方法,网络模型如图1所示,该模型包含一个文本编码器用于文本编码,一个RSSA block用于加深文本融合和提高分辨率,一个判别器用于判断生成的图像是否与给定文本在语义上一致,以及一个对比学习模块用于文本-图像-标签的对比学习用于提升学习和生成的效果。其中RSSA模块如图2所示包含7个如图3的SSA模块通过残差连接用于传递预测的掩码到下一阶段,提升丰富掩码的语义提升生成图像的效果。RSSA‑GAN以文本描述和正态分布噪声向量作为输入,输出大小为256*256的RGB图像,具体包括以下步骤:
[0056] S1、文本编码
[0057] 如图1,本发明采用的预训练文本编码是一个双向LSTM,通过最小化深度注意多模态相似模型(Deep Attentional Multimodal Similarity Model,DAMSM)损失,使用真实的图像-文本对进行预训练。将给定的文本描述编码为文本向量和长度为18的单词特征。
[0058] S2、文本生成图像
[0059] SSA block(Semantic‑Spatial Aware Block)模块如图3所示,将编码后的文本特征向量e和来自上一个SSA block的图像特征映射 作为输入,输出与文本特征进一步融合的图像特征映射 R为图像的集合,wi,hi,chi为第i个SSA块生成的图像特征映射的宽度、高度和通道数。第一个SSA块(无上采样)的输入图像特征图的形状为4×4×512,这是通过使用全连接(FC)层将噪声向量z投影到视觉域,然后对其进行重塑来实现的。因此,经过6次SSA块上采样后,图像特征图的分辨率为256×256。每个SSA块由一个上采样块、一个语义掩码预测器、一个带有残差连接的语义-空间条件批归一化块组成。本发明的RSSA block是每次经过语义掩码预测器生成语义掩码后,将上阶段SSA block生成的语义掩码经过上采样后通过残差连接与本阶段的语义掩码进一步进行信息融合。上采样块通过双线性插值运算使图像特征映射的分辨率提高一倍。残差连接通过将fi‑1的有效特征信息传递到fi使有效的图像特征进一步学习优化,用于维护图像特征的主要内容,防止与文本无关的部分被更改,图像信息被文本信息淹没。
[0060] S3、图像-文本-标签空间的统一对比学习
[0061] 视觉识别目前使用两种类型的方法:基于图像-标签的监督学习,基于图像-文本的对比学习。由于数据源和学习目标不同,两种学习各有优势,图像-标签的预训练方式能生成更具有判别力的表征,图像标签数据的监督学习通常旨在将图像映射到离散标签,在训练过程中完全忽略与每个标签相关的文本概念;图像-文本的方式具有零样本识别能力,对比学习的目的是学习一对视觉和文本编码器来对齐图像和文本,这种学习方法假设每个图像-文本对都有一个唯一的标签。但是,前者依赖人工标注数据,后者的判别能力相比于干净标签训练的方法较弱。通过将两个数据源合并到一个共同的图像-文本-标签空间,该空间是通过将每个标签映射到一个用于监督学习的文本概念,并为每个文本描述分配一个用于语言-图像预训练的唯一标签来构建的,称为统一对比学习(UniCL,unified contrastive learning),它具有单一的学习目标,可以促使两种数据类型的协同作用。
[0062] 在使用UniCL的过程中,本发明使用视觉和语言编码器对图像和文本进行编码,并将视觉和文本特征通过标签指导进行对齐,即以文本和图像作为输入,同时利用标签计算目标损失,通过使用UniCL,将图像文本和对应的标签结合到一起,学习具有区别性和语义丰富的内容,去生成更真实,更符合文本描述的图像,通过该方法使网络可以更好的学习图像、文本、标签之间的关系,从而可以更好的预测语义掩码。
[0063] 合并图像-标签和图像-文本数据源的具体过程如下:
[0064] 定义图像-文本-标签空间S为:
[0065]
[0066] 其中,x∈X表示图像,t∈T,表示图像对应的文本描述,y∈Y表示数据集在分组时的标签。
[0067] 因为在训练的过程中,文本和图像是双向学习的所以:
[0068] LBiC=Li2t+Lt2i
[0069] 其中Li2t为将批处理中的图像与给定文本对齐的图像到文本的对比损失:
[0070]
[0071] k∈P(i),
[0072] P(i)={k|k∈N,yk=yi}
[0073] 其中N表示批次,u表示编码后的文本向量,v表示编码后的图像向量,P(i)为批次N中第i组图文,τ为超参数调控训练的效果,i、k、j表示从1到批次大小N的一个数字序列。
[0074] Lt2i为将匹配的文本与给定图像对齐的文本到图像的对比损失:
[0075]
[0076] k∈p(j),
[0077] p(j)={k|k∈N,yk=yj}
[0078] 进一步的,上述S2文本生成图像中,为了使文本和预测的语义掩码,消除语义掩码中不必要的噪声,同时可以提高图像生成的质量,本发明使用了语义条件归一化。首先对标N×C×H×W准BN(批量归一化)和CBN(条件批量归一化)进行进一步说明。给定输入的批次x∈R ,其中N为图像大小,BN首先将其批次x归一化为每个特征通道的均值和单位偏差:
[0079]
[0080]
[0081]
[0082] 其中α为稳定结果的一个较小的常数,n,h,w为集合R对应元素x的批次、高和宽;xnchw表示批次中的图像、uc(x)为计算批次均值的函数,σc(x)为计算批次方差的函数,ynchw为归一化的结果,为了使文本和预测的语义掩码,消除语义掩码中不必要的噪声,同时提高图像生成的质量进行通道仿射变换:
[0083]
[0084] 其中 为归一化后进行通道衍射变换后的结果,λc和βc为学习的参数,它们对批次中样本的所有空间位置都起作用。在学习的过程中λc和βc为固定值,为了使实验获得更好的效果,通过自适应方式使调整参数λ和β动态的进行仿射变换,因此公式变成了:
[0085]
[0086] 其中,con表示更新λ和β的参数。
[0087] 为了有效的进行文本和图像的特征融合,λc和βc在文本向量中进行学习和训练;以及将语义感知通过BN在图像特征映射的空间上能达到理想的效果,所以,将预测的语义掩码作为空间条件加入上式中得到:
[0088]
[0089] 其中,为文本向量;mi,(h,w)为语义掩码,决定了文本信息的添加位置,还决定了在像素级的图像特征映射上需要增强多少文本信息。
[0090] 因为λ和β是根据文本信息学习调整的,预测的语义掩码在空间上控制仿射变换因此,文本-图像融合是语义空间感知的。
[0091] 本发明采用了单向判别器,因为它的有效性和简单性,如图1所示,通过两个卷积层将从生成的图像中提取的特征与文本向量连接起来计算对抗损失。与匹配感知零中心梯度惩罚(Matching‑Aware zero‑center Gradient Penalty,MA‑GP)相结合,引导生成器合成更逼真的图像,具有更好的文本-图像语义一致性。
[0092] 为了进一步提高生成图像的质量和文本图像的一致性,并帮助与生成器共同训练文本编码器,本发明在框架中加入了广泛应用的DAMSM,下面对本发明的生成器进行说明,生成器的目标函数为:
[0093]
[0094]
[0095] 其中LG为生成器的损失,Ex~PG表示求判别器对真实样本判定结果的期望, 为判别器对判定结果的期望值,LDAMSM为词级细粒度的图像-文本匹配的损失,λDA为DAMSM损失的权重,LBiC为对比学习图文对齐的损失,λBiC为对比学习损失的权重。判别器的目标函数为:
[0096]
[0097] 其中,Ex~pdata表示求判别器对生成样本判别结果的期望,s是给定的文本描述,而是不匹配的文本描述。x是对应s的真实图像, 表示函数在x方向的变化率, 表示函数在s方向的变化率,是生成的图像,D(·)是鉴别器对输入图像是否与输入句子匹配的判断,max表示求最大值,变量λMA和p是MA‑GP损耗的超参数。
[0098] 表1展示了RSSA‑GAN和几个最新的T2I GAN模型的定量结果。从表的第二列可以看出,与最新的最先进的方法SSA‑GAN相比,RSSA‑GAN报告了CUB数据集COCO数据集上IS的显著改进。更高的IS意味着更高的质量和文本图像语义一致性。与最先进的性能相比,本发明的方法显著降低了COCO数据集上的FID得分,从19.37降至16.97。R‑precision指标相比其他方法也较好。因此无论对于具有许多细节属性的图像还是具有多个目标的更复杂的图像,本发明都能够生成具有更好的整体和局部语义一致性的高质量图像,证明了本发明的优越性和有效性。
[0099] 表1、不同方法在FID、IS、R‑precision上的指标
[0100]
[0101]
[0102] 将本发明方法生成的图像与三种最新的T2I GAN模型进行定性比较,即DF‑GAN、DM‑GAN、SSA_GAN对于CUB Bird数据集,如图4中的前4列所示,本发明生成的图像具有更生动的细节,在语义上与给定的文本描述一致,背景也更清晰。对于COCO数据集,如图4最后4列所示,可以看到SSA‑GAN能够生成具有不同背景的多个对象的复杂图像。从图4中第5列可以看出,本发明的图像比其他方法生成的图像更真实。
[0103] 本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。
[0104] 以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。