技术领域
[0001] 本发明涉及计算机视觉技术领域,具体是一种卡通角色模型构建方法。
相关背景技术
[0002] 创建卡通人物的3D模型被广泛的应用于多种领域,包括视频游戏、互动媒体和动画制作等。在数字建模领域,特别是人体建模方向,已经取得了显著的进展。研究人员探索了人体数字模型,可通过参数化实现不同人体角色的快速建模。通过虚拟环境建模和真实人体扫描获取了大量的数据,可以应用于深度模型的训练。目前的技术方案主要集中在两个方面:人体的参数化模型和带有着装的建模。前者通过估计人体数字模型的形状和姿态参数实现模型的建模,而后者侧重于建模穿衣服的人体。
[0003] 然而,对卡通人物的3D快速建模还没有得到充分的研究。现有建模高质量的3D模型严重依赖于熟练的角色设计师手工制作,这个过程是费时且人力成本高昂的。而深度学习相关的技术在学习海量的数据后拥有较好的泛化能力,有助于加快这一过程。然而,卡通人物相对于真实人物具有丰富的多样性,这对相关的任务产生了显著的影响,从而使学习过程变得困难。
具体实施方式
[0034] 下面结合实施例及附图,对本发明作进一步的详细说明,但本发明的实施方式不限于此。
[0035] 实施例1
[0036] 如图1所示,为了实现卡通角色3D模型的快速重建,本发明提出了一种双分支结构神经网络模型。这种架构分离了姿态和形状的建模过程,并结合特征一致性约束增强骨干网络(即编码器)捕获对应任务相关特征的表达能力。
[0037] 为了解决卡通人物外观形象的显著变化带来的影响,本发明提出了一种融合机制来产生输入对象的综合表达。包括将输入图像块打乱后提取到的局部特征和原始图像中提取的全局特征相结合。
[0038] 为了解决卡通人物姿态变化的复杂性,本发明提出一种几何引导的反馈循环策略。这个策略在特征维度上通过迭代的方式将3D建模结果与2D输入图像在特征维度上比对,减少两者的差异以实现语义对齐。
[0039] 本发明提出一种新颖的卡通人物网格建模方案,通过特征解耦的方式独立学习不同任务对应的特征。该方法采用两组编码器和解码器分别对姿态参数和形状参数进行建模。鉴于卡通人物的区别主要存在于耳朵、嘴、手和脚等部位。提出一种拼图增强技术,通过打乱图像中拼图碎片的顺序,使得模型关注角色的局部细节。此外,还提出了一种混合融合模块,将原始图像提取的全局特征与拼图处理图像提取的局部特征相结合。考虑到卡通图像中姿态的显著差异,设计了一种由几何信息引导的反馈循环策略。采用迭代的方式逐步减少特征空间内几何信息和图像信息之间的差异,实现了建模和图像在姿态表达之间的一致性。此外,还引入了一种特征一致性损失,以提高模型表达相关任务特征的能力。
[0040] 本发明提出了一种基于双分支结构的卡通角色3D建模方案,利用一种特征解耦的建模方式,提高了建模结果与输入图像的一致表达。
[0041] 本发明通过对卡通角色模型的形状和姿态参数回归,可以实现图像到3D模型的快速重建。结合局部细节特征的建模,提高对不同角色类型的区分。
[0042] 本发明提出了一种几何信息引导的循环反馈策略,该策略可以有效的将建模结果与2D输入图像对齐,提高对角色姿态建模的准确性。
[0043] 实施例2
[0044] 如图1所示,作为实施例1的进一步优化,在实施例1的基础上,本实施例还包括以下技术特征:
[0045] 本方案的目标是给定一张卡通动物角色的输入图像,建模过程包括对应角色形状和姿态建模。整体的架构如图1所示。
[0046] 一、特征解耦实现
[0047] 本发明定义给定输入图像,模型输出23个骨骼关键点的旋转信息和向量维度为100的形状信息。
[0048] 主体网络为双分支结构,不同分支包含一组对应的编码器和解码器,分别对角色的形状和姿态进行建模。结构的末尾采用不同任务的监督信息,以引导各自分支特征的学习。为了进一步扩大两者的差异,提出一种特征一致性约束。将输入模型的姿势进行随机变化,以产生相同角色的不同姿态,姿态数据可以从人体模型数据中获取。同时,保留输入模型的姿态,从数据集中获得随机的形状参数,得到相同姿态的不同角色表达。然后通过骨干网络的特征提取,分别获得不同姿态和不同形状的特征。
[0049] 特征一致性损失计算不同特征之间的欧式距离,以约束不同分支的特征提取器提取任务相关特征,计算过程表示为:
[0050]
[0051] 其中, 是特征一致性约束损失,I是输入图像,Il是数据增广后得到的图像,B(·)是骨干网络对图像特征进行提取。L表示不同姿态或不同形状的数量,l表示不同姿态或不同形状的编号,||·||2计算两者之间的L2距离。
[0052] 二、混合特征融合模块
[0053] 卡通角色之间的区分主要通过局部的细节,如耳朵、嘴巴和脚等。本发明将同时建模目标角色的全局和局部特征。将输入图像划分成n×n块,随机打乱块的排列顺序后进行特征提取。由于目标的整体信息被破坏,迫使网络通过输入的局部细节获得对应任务的表征。
[0054] 提出一种正交分解的特征融合方式,以筛选局部特征中的冗余信息。首先利用自注意力机制对局部特征不同区域块之间的关联进行建模:
[0055] Fl′=σ(f(Fl)·Fl)
[0056] 其中σ(·)为Softplus激活函数,f(·)为卷积核为1的卷积计算,Fl表示输入的局部特征,Fl′为变换后的局部特征。
[0057] 局部特征相对于全局特征的正交分解特征可表示为:
[0058]
[0059] 其中Fg和Fl分别表示全局和局部特征,A(·)是平均池化的计算。正交解耦的特征与全局特征拼接到一起,拼接后的特征经过一层多层感知器(MLP)实现两者的融合。
[0060] 三、几何引导的循环反馈模块
[0061] 卡通角色相对于人其动作变换更复杂多样,因此设计一种多次迭代的方式使得一个初始姿态的模型逐渐拟合于目标姿态。本发明考虑从特征维度上表示这种拟合程度,包括图像特征空间和几何特征空间。
[0062] 形式上,将第i次建模的模型参数输入到RaBit(数字化统一模型)中,得到其对应参数表达的网格模型。网格的数量超过3万个。将其进行下采样得到606个3D关键点,经过PointNet(3D骨干网络)提取几何特征。解码器对几何特征和图像特征之间的关系进行建模,以调整模型的参数,实现图像特征和几何特征的语义对齐。其实现方式为:
[0063] θi+1=θi+D(Fimg,Fgeo)
[0064] 其中θi为第i次模型参数的迭代结果,D为解码器输入包括图像特征Fimg和几何特征Fgeo。
[0065] 由于采用了本发明的技术方案,实现了以下的技术效果:
[0066] 我们在公开的3DBiCar数据集上进行了验证。提出的模型将输入图像统一裁剪到‑5224的分辨率,使用ResNet‑50作为骨干网络。总共训练了250个轮次,学习率设置为5*e ,循环迭代次数设置为3次。从表1的对比结果中可以发现,我们所提出的方案超过了所有以前的方法并得到了最优的性能,因此这证明了提出的方案在解决单个图像建模卡通3D模型任务方面的有效性。
[0067] 表1 3DBiCar数据集实验结果对比表
[0068] 对比方法 MPVE↓(mm) MPJPE↓(mm) PA‑MPJPE↓(mm)DecoMR 85.7 81.2 47.2
Mesh‑Transformer 62.5 49.6 30.7
HMR 65.4 51.3 30.9
我们的方法 61.6 48.1 30.3
[0069] 如上所述,可较好地实现本发明。
[0070] 本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合和/或扩展、替换。
[0071] 以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,依据本发明的技术实质,在本发明的精神和原则之内,对以上实施例所作的任何简单的修改、等同替换与改进等,均仍属于本发明技术方案的保护范围之内。