用于流媒体自由视点视频的神经残差辐射场_专利转让申请注册交易-盲点网

用于流媒体自由视点视频的神经残差辐射场实质审查发明

技术领域

[0003] 本发明一般涉及用于基于神经网络的辐射场紧凑编码以促进流媒体自由视点视频的装置和方法。

具体实施方式

[0042] 现在将参照附图描述本发明的具体非限制性实施例。应当理解，本文公开的任何实施例的特定特征和方面可以与本文公开的任何其他实施例的特定特征和方面一起使用和/或组合。还应理解，这些实施例仅作为示例，并且仅说明本发明范围内的少数实施例。对于本发明所属领域的技术人员来说显而易见的各种改变和修改被认为在所附权利要求中进一步限定的本发明的精神、范围和预期之内。

[0043] 本文描述的残差辐射场(ReRF)对时空特征空间中的相邻时间戳之间的残差信息进行建模，使用基于总体坐标的小型多层感知器(MLP)作为特征解码器。具体地，ReRF采用紧凑运动网格和残差特征网格来利用帧间特征相似性。我们表明这种策略可以在不牺牲质量的情况下处理大运动。本申请还描述了用于维持运动/残差网格的平滑性和稀疏性的顺序训练方案。基于ReRF，本申请还描述了实现三数量级压缩率的特殊FVV编解码器，并且提供了配套ReRF播放器以支持动态场景的长时间FVV的在线流式传输。大量实验证明了ReRF在紧凑地表示动态辐射场方面的有效性，在速度和质量上实现了前所未有的自由视点观看体验。

[0044] 1.简介

[0045] 动态场景的真实感自由视点视频(FVV)，特别是人类表演，减小了表演者和观看者之间的差距。但是像在流媒体平台上点击和观看常规2D视频那样简单地制作和观看FVV的目标仍然意义深远。从数据处理和压缩到流式传输和渲染都充满了挑战。

[0046] 基于几何的解决方案重构动态3D网格或点，而基于图像的解决方案则在密集传输的连续镜头上插值新的视图。这两种技术都依赖于高质量重构，这些重构往往容易受到遮挡和无纹理区域的影响。最近的神经技术进步带来了一种绕过显式几何重构的替代路线。神经辐射场(NeRF)的开创性工作在基于坐标的多层感知器(MLP)中简洁地表示了一个静态场景，以进行真实感的体绘制。MLP可以被视为从空间连续特征空间到具有RGB和密度的辐射输出的隐式特征解码器。然而，对于实时渲染来说，即使使用中等深度的MLP也可能过于昂贵。因此，各种扩展都专注于使用智能表示来“雕刻”特征空间，以在计算速度和精度之间达到复杂的平衡。最新的例子包括显式特征体积、多尺度散列、码本、三平面、张量等。

[0047] 虽然有效，但到目前为止，几乎所有现有的解决方案都是为处理静态场景而量身定制的。相比之下，流式动态辐射场需要使用基于总体坐标的MLP将来自空间‑时间连续特征空间的特征解码为辐射输出。一种朴素的每帧解决方案是在一系列独立的空间特征空间上应用静态方法。这种方案丢弃了重要的时间相干性，导致长序列的低质量和低效率。最近的方法试图通过将特征在时间上扭曲回规范空间中来维护规范特征空间，以再现每个实时帧中的特征。通过采用隐式匹配或数据驱动的先验，如深度、傅里叶特征、光流或骨骼/面部运动先验，已经提出了各种补偿时间运动的方案。然而，对全局规范空间的严重依赖使它们容易受到大运动或拓扑变化的影响。训练开销也根据序列长度而显著增加。最近的工作开始探索相邻帧之间的特征冗余，但它未能保持连贯的时空特征空间。

[0048] 图1示出了示例ReRF，其利用残差辐射场和全局MLP来实现高度可压缩和流媒体辐射场建模。基于ReRF的编解码器方案和流媒体播放器给用户带来丰富的互动体验。

[0049] 如图1所示，示例ReRF对时空特征空间中相邻时间戳之间的辐射场的残差建模。具体地，全局微小MLP被配置为以顺序方式粗略估计动态场景的辐射输出。为了维持训练和推理的高效率，ReRF使用显式网格表示对特征空间建模。然而，ReRF仅对第一帧(在下面的描述中也称为关键帧)进行训练来获得用于整个序列的网格体积和MLP解码器，同时，使用得到的网格体积作为初始特征体积。对于每个后续帧，ReRF使用紧凑(或低分辨率)运动网格和稀疏残差特征网格：低分辨率运动网格代表从当前帧到前一帧的位置偏移，而稀疏残差网格用于补偿当前帧中的误差和新观察到的区域。这里，关键帧是指视频中图像的全帧，从该全帧学习特征体积网格，不使用运动网格和残差网格。这种设计的主要益处在于ReRF充分利用相邻帧之间的特征相似性，其中可以简单地从两个相邻帧获得当前帧的完整特征网格，同时避免使用全局规范空间。另外，运动网格和残差网格两者都适合压缩，尤其是对于长时间的动态场景。

[0050] 在一些实施例中，两阶段方案可用于通过顺序训练从RGB视频中高效获得ReRF。例如，新型运动池化策略可用于维持帧间运动网格的平滑性和紧凑性以及稀疏正则化项来提高ReRF的紧凑性。在一些实施例中，为了使ReRF对用户实用，可以根据传统的基于关键帧的策略开发基于ReRF的编解码器，实现与基于每帧的神经表示相比三个数量级的压缩率。在一些实施例中，可以开发配套ReRF播放器进行动态场景的长时间FVV的在线流式传输。利用ReRF，用户可以首次在动态辐射场上暂停、播放、快进/快退和搜索，就像观看2D视频一样，得到了前所未有的高质量自由视点观看体验。

[0051] 图2示出了根据一些实施例的用于实现ReRF的示例方法。在一些实施例中，该方法可以从顺序训练方案(更多详情见第3节)开始以生成针对每一帧i(基于帧i和帧i‑1))的具有运动网格Mi和残差网格ri的紧凑ReRF表示。接下来，基于ReRF的编解码器方案和播放器(更多详情见第4节)可以压缩ReRF表示以实现快速数据传输和在线播放。

[0052] 本发明剩余部分中描述的基于ReRF的解决方案至少带来了以下技术改进：

[0053] ·引入残差辐射场(ReRF)，一种新型神经表示，以支持动态辐射场的流媒体自由视点观看。

[0054] ·设计定制的运动网格和残差网格以支持顺序训练，同时不需要使用因大运动而臭名昭著的全局规范空间。特别地，设计多个训练策略来实现高压缩率，同时维持高渲染质量。

[0055] ·完整描述了基于ReRF的编解码器和配套FVV播放器(使本领域技术人员能够开发)，以流式传输长序列的动态辐射场，具有广泛的控制功能。

[0056] 2.相关工作

[0057] 用于静态场景的新型视角合成。新型视角合成，即在给定一组2D图像的情况下合成新视点的问题，最近引起了相当大的关注。光场表示通过两平面参数化来表述问题。早期的方法通过插值生成新视点的光线，这可以实现实时渲染，但需要缓存所有光线。最近的工作使用神经网络进行紧凑存储。基于网格的表示允许高效的存储，并可以记录依赖于视角的纹理。然而，优化网格以适应具有复杂拓扑结构的场景仍然是一个挑战。多平面图像因其无拓扑特性而显示出处理复杂场景的能力。最近，突破性的方法NeRF极大地提高了渲染的真实感，并激发了许多后续工作，包括多尺度、重光照、编辑、3D感知生成等。然而，它假设静态场景并且无法处理随着时间的场景变化。

[0058] 用于动态场景的新型视角合成。由于照明变化和对象移动，动态场景更加复杂。一种方式是重构动态场景并从新视角渲染几何图形。已经广泛探索了RGB或RGB‑D解决方案。其他方法通过用于视角合成的神经网络对动态场景建模。例如，一些方法使用神经网络从所有其他图像回归每个图像，以实现视角、时间或光插值。一些方法使用编码器‑解码器网络将2D图像转移到3D体积中，并利用体积渲染进行端到端训练。一些方法将点特征与多视角图像相结合，以用于动态人体渲染。将运动平流输送特征向量用于静止图像动画也是一个有趣的方向。

[0059] 最近，NeRF已扩展到动态设置中。一些工作直接调节神经辐射场的时间，以处理空间变化。其他工作在每个时间戳学习从当前场景到学习到的规范辐射场的空间偏移。例如，一些方法在额外的高维坐标上调节NeRF，以解决连续变形场之外的不连续拓扑变化。一些方法通过对场景中每个点的轨迹进行建模来处理场景的动态变化。一些方法使用显式体素来对用于动态场景的规范空间和变形场进行建模。一些方法通过傅里叶系数对时变密度和颜色进行建模，以将基于八叉树的辐射场扩展到动态场景。与现有方法相比，我们的方法使用了小了三个数量级的存储，并实现具有大运动的长序列。

[0060] NeRF加速和压缩。NeRF在自由视角渲染中显示出非凡的结果，但它的训练和渲染速度很慢。最近的方法通过使用浅MLP解码器将NeRF分解为显式3D特征编码来减少复杂的MLP计算。已经探索了涉及体素网格、八叉树、三平面、多尺度散列、码本、张量分解和纹理多边形的方法。

[0061] 使用显式编码大大减少了训练和推理时间，但与这些3D结构相关联的额外存储消耗是一个问题。一些方法通过CP分解、秩降低或矢量量化来实现高压缩比，但限于静态场景。最近的动态方法对用于视频序列的稀疏体素网格采用窄带调谐，这种方法训练高效，但仍具有每帧MB的大小。一些方法将4D空间分解为静态、变形和新区域，以进行高效的动态场景训练和渲染，但受到视频序列长度的限制。相比之下，我们采用了残差辐射场和基于ReRF的编解码器方案，该方案实现了对具有大运动的长序列的高压缩和流式传输。

[0062] 3.神经残差辐射场

[0063] 在本节中，描述了用于动态场景的示例ReRF表示(第3.1节)，然后是从RGB视频输入生成ReRF的配套训练方案(第3.2节)。本节中描述的步骤用于说明目的。根据实施方式，该方法可包括更少、更多或替代步骤，以实现不同的技术优势。

[0064] 3.1运动感知残差场

[0065] 回想一下，NeRF中具有颜色和密度(c,σ)的辐射用公式表示为c,σ＝Ψ(x,d)，使用MLP(表示为Ψ))作为解码器，给定3D位置x和观看方向d。然后，基于辐射场采用体绘制进行真实感新型视角合成。为了维持高效的训练和推理，ReRF可以使用显式网格表示。具体地，对于显式密度网格Vσ和颜色特征网格Vc，静态场景的辐射场为：

[0066]

[0067] 其中interp(·)表示网格上的三线性插值函数，并且Φ是用于加速的相对浅的MLP。为了简化，可以通过将附加信道附加到Vc来将Vσ和Vc联合成共同特征网格f。为了该目的，用于静态辐射场的显式网格表示由特征网格f和作为隐式特征解码器的微小MLPΦ构成。

[0068] 图3示出了示例性神经残差辐射场(ReRF)。在一些实施例中，首先，估计了密集(也称为高分辨率)运动场Dt。接下来，通过运动池化生成紧凑运动网格Mt。最后，可以将ft‑1(例如，在t‑1时用于帧的特征网格，在时间t时紧接在帧ft之前)扭曲成基础网格以学习残差网格rt，从而提高特征稀疏性并促进压缩。

[0069] 为了进一步表征动态辐射场，可以采用基于坐标的微小MLPΦ作为用于时空特征空间的全局特征解码器。一个朴素解决方案是对具有N个帧的动态场景利用每帧特征网格但丢弃了重要的时间相干性。最近的工作DeVRF维持具有密集运动场(高分辨率运动场) 的规范特征网格f1，以再现每个实时帧中的特征，但由于依赖规范空间，它易受大运动或拓扑变化的影响。鲜明对比的是，本文描述的ReRF可以显式地探索时空特征空间中相邻时间戳之间的特征相似性。这里，为当前帧t引入紧凑(也称为低分辨率)运动网格Mt和残差特征网格rt。低分辨率运动网格Mt表示体素偏移，以指示前一帧中针对当前帧中体素的对应体素索引。残差网格rt表示用于当前帧中的相邻扭曲误差和新观察到的区域两者的稀疏补偿。此外，对于第一帧，采用具有配套全局MLPΦ的完整显式特征网格表示f1。最后，ReRF将具有N个帧的动态辐射场顺序地表征为Φ,f1，并且如图2所示。

[0070] 注意，ReRF实现高效顺序特征建模。给定前一个ft‑1，可以从Mt和rt简单地获得当前特征网格ft，同时避免使用全局规范空间。具体地，Mt首先应用于ft‑1以提取帧间冗余并获得用于当前帧的基础特征网格使p表示显式网格的索引。然后，每体素基础特征网格用公式表示为：

[0071]

[0072] 其反过来又尽可能地探索帧间特征相似性。然后可以通过添加残差补偿来恢复整个特征网格：通过根据等式1在ft上应用全局MLPΦ来实现当前辐射场的重构。与显式特征网格{ft}相比，该运动感知残差表示{Mt,rt}是紧凑的且压缩友好的，其在相干时空特征空间中对特征变化自然地建模。

[0073] 3.2顺序残差场生成

[0074] 在一些实施例中，可以使用两阶段顺序训练方案来从长时间RGB视频输入获得包括Φ,f1和的ReRF表示，这自然会增强残差网格和运动网格两者的紧凑性，以实现第4节中的流媒体应用。在一开始，可以利用现成的方法获得用于第一帧(也称为动态辐射场的开始帧)的完整显式特征网格f1，伴随有全局MLPΦ作为特征解码器。然后，顺序给出前一帧(即，紧接在ft前面的帧)的特征网格ft‑1和用于当前帧的输入图像，就可以在以下两阶段中紧凑生成运动网格Mt和残差网格rt。

[0075] 运动网格估计。首先，可以通过将前一帧用作规范空间来仅生成从当前帧到前一帧的密集运动场Dt。为了维持平滑紧凑的运动网格Mt，应用运动池化策略。体素pt中的运动向量可以指向前一帧中不同的体素pt‑1。因此，类似于标准平均池化操作，平均向量指向的体素被选为体素运动具体地，首先将Dt分割成立方体(例如，三维立方体)，其中每个立方体包含连续8×8×8个体素。然后，对于每个立方体，在8×8×8的核心处对Dt应用平均池化，以迫使每个立方体共享同一运动向量。之后，将其下采样以生成低分辨率运动网格Mt。注意，紧凑运动网格Mt是压缩友好的，因为其大小比原先的密集网格小了512倍。以此方式，可以通过运动场追踪来自前一帧的一些特征立方体，从而可以进一步减小残差体素的熵。为此目的，生成低分辨率Mt来紧凑地表征帧上的平滑运动。

[0076] 残差网格优化。在紧凑运动网格Mt的帮助下，可以将前一个特征网格ft‑1扭曲成当前基础网格其粗略补偿由帧间运动引起的特征差异。为了优化残差网格，将和Φ固定，并且可以将梯度反向传播到残差网格rt以仅更新rt。除了光度损失之外，可以使用L1损失增强其稀疏性以提高紧凑性来使rt正则化。这种稀疏公式化还迫使rt仅补偿用于帧间残差或新观察到的区域的稀疏信息。用于学习ft的总损失函数用公式表示为：

[0077]

[0078] 其中是一组训练像素光线；c(1)和分别为光线1的地面实况颜色和预测颜色；λ＝0.01是正则化项的权重。

[0079] 一旦获得了Mt,rt，可以如第3.1节所示恢复当前帧的显式特征网格ft，这也实现了下一帧的接续训练。注意，由于紧凑表示和稀疏特性，Mt和rt的设计及生成机制使得它们是压缩友好的，实现以下ReRF编解码器和流式传输。下面的第7节提供了ReRF的额外示例性训练细节。

[0080] 4.ReRF编解码器和流媒体应用

[0081] 4.1特征级残差压缩。

[0082] 图4示出了根据一些实施例的基于ReRF的编解码器和播放器的示例性流程图。在一些实施例中，编码器通过使用PCA、3D‑DCT、量化和熵编码压缩输入信号以产生比特流。解码器接收压缩的比特流、解码每一个句法元素并逆转编码过程。另外，给出解码的运动场(运动网格)Mt和之前重构的特征网格就可以通过变形获得预测的特征网格

[0083] 在一些实施例中，运动网格和残差网格两者都适合压缩，尤其是对于长时间的动态场景。为了使ReRF对用户实用，可以为长时间动态场景的在线流式传输开发基于ReRF的编解码器和配套FVV播放器，如图4所示。在图4所示的示例性流程图中，首先将特征网格序列分成几个连续的特征网格组(GOF)，每个GOF是如图5(示出了根据一些实施例的示例性GOF结构)所示的连续网格的集合。GOF包括I特征网格(关键帧)和P特征网格。每个GOF开始于独立于所有其他特征网格编码的I特征网格。p特征网格相对于前一个特征网格包含可变形补偿的残差网格。使{f1,r2,…,rt‑1,rt,…}表示GOF，其中f1是特征网格，并且rt是残差网格。

[0084] 在一些实施例中，图4中的编解码器(流程图的左部分)可以首先将f1和rt改造成f1(m,n)和rt(m,n)，一种m×n特征矩阵，其中m和n分别为非空特征体素的数量和特征信道的数量。然后，可以对rt(m,n)执行线性主成分分析(PCA)以得到主方向V。最后，可以通过r′t＝rt·V将rt投射到主方向。网格f1和r′t的每个信道被分成8×8×8个体素的立方体，并且使用3D DCT单独变换每个立方体。之后，使用量化矩阵量化变换系数。

[0085] 量化的变换系数是熵编码的并与辅助信息如运动场Mt、帧类型等一起传输。具体地，使用差分脉码调制(DPCM)方法对DC系数编码。

[0086] AC系数编码涉及以“3D zigzag”顺序排列量化的DCT系数、采用游程编码(RLE)算法将相似频率分组在一起、插入长度编码零。最后，可以使用Huffman编码进一步压缩DPCM编码的DC系数和RLE编码的AC系数。上述压缩方法的优点在于能够通过调整量化参数实现可变比特率，从而实现根据可用带宽的动态适应性流式传输ReRF。

[0087] 4.2网络流媒体ReRF播放器

[0088] 可以因此实现用于长序列的在线流媒体动态辐射场的配套ReRF播放器，具有广泛控制功能。当接收到比特流时，首先通过对量化的变换系数执行逆量化和逆变换来重构I特征网格

[0089] 重构I特征网格后，将重构随后接收到的P特征网格。具体地，通过量化的变换系数的逆量化和逆变换生成最初重构的残差网格然后将反向投射到原点空间另外，给出解码的运动场Mt和之前重构的特征网格就可以通过变形获得预测的特征网格最后，添加和以产生最终重构的特征网格将输出到渲染器以生成动态场景的真实感FVV。

[0090] 受益于GOF结构的设计，ReRF播放器允许在回放期间快速搜索到新位置来播放。因为在压缩的比特流中遇到新的GOF意味着解码器可以在不重构任何先前特征网格的情况下解码压缩的特征网格。利用ReRF播放器，用户可以首次暂停、播放、快进/快退和搜索动态辐射场，就像观看2D视频一样，带来了前所未有的高质量自由视点观看体验。

[0091] 5.实验结果

[0092] 在本节，对各种有挑战性的场景评估ReRF。捕获的动态数据集包含大约74个视图，分辨率为1920×1080，帧率为25fps。在单个NVIDIA GeForce RTX3090上使用PyTorch框架训练提出的网络。还实现配套ReRF播放器用于长序列的在线流媒体动态场。为了验证提出的ReRF播放器的有效性，使用具有Intel(R)Core(TM)i9‑11900 CPU@2.5GHz和NVIDIA GeForce RTX3090 GPU的PC作为测试平台。在实验中，每个GOF的长度设置为20。如图6和图14所示，在具有长序列和有挑战性的大运动的向内360°场景和前向场景两者中均生成高质量外观结果。本申请中描述的方法可以通过缩放图6的第三行中示出的量化因子来灵活调整存储。

[0093] 图6示出了示例性ReRF方法对具有大运动的向内360°长序列的渲染外观结果。最后一行显示，ReRF可以实现可变比特率。

[0094] 5.1比较

[0095] 图7：与动态场景重构方法和每帧静态重构方法的定性比较。

[0096] 动态场景比较。提供实验结果来证明所述ReRF方法的有效性。ReRF与用于动态场景的其他现有技术方法进行定性和定量比较，包括DeVRF、DVGO、INGP、INGPT和TiNeuVox。INGP‑T是改进的时间调节的NGP版本。它将归一化的4D输入[x,y,z,t]用作哈希表输入。图7示出了当与ReRF压缩方法在短序列和长序列两方面比较时不同方法的视觉质量结果。具体地，ReRF方法可以实现可与每帧重构DVGO和INGP相媲美的真实感自由视点渲染，但是存储过载要小得多。与动态重构方法(DeVRF、INGP‑T、TiNeuVox)相比，ReRF在真实感和清晰度方面实现了最逼真的渲染结果，另外不损失长序列中的性能。DeVRF学习从实时帧到第一帧的显式变形场。当运动大时，尤其是在长序列中，难以从第一帧直接扭曲。由于帧数提高，INGPT和TiNeuVox遇到严重的模糊效果。注意，无论帧的数量如何提高(甚至到4000帧)，ReRF总是维持高真实感和清晰度，如图8所示。

[0097] 图8：帧数量方面的定量比较，这显示，我们的方法的性能不会随着帧数量的提高而降低。

[0098] 对于定量比较，采用峰值信噪比(PSNR)和结构相似度指数(SSIM)作为度量来评估ReRF渲染准确性。选择70个捕获的视图作为训练集，其他4个视图作为测试集。表1显示，我们可以有效地使用小存储来实现高质量结果。在具有大运动的长序列中，ReRF方法在外观方面胜过其他动态方法。

[0099] 同样，注意，ReRF方法可以实现快速训练(大约每帧10分钟)和快速渲染(20fps)，明显快于NeRF和许多先前方法。

[0100]

[0101] 表1：与动态场景重构方法和每帧静态重构方法的定性比较。计算帧之间的平均存储和帧和视图之间的平均PSNR。与原始DVGO相比，ReRF模型尺寸小了三个数量级，并保留了视觉质量。

[0102] 5.2评估

[0103] 图9：率失真曲线。此图显示了不同配置的不同组件的率失真。基于ReRF的架构在图9中表示为“我们的完整”，这是最紧凑的并且可以按照不同的存储要求动态地缩放比特率。

[0104] 图10：基于ReRF的方法中的不同变化的定性评估。

[0105] 烧蚀研究。分析运动感知残差模块和PCA模块。对于没有运动感知的残差，方法独立地训练每个帧并直接编码2个帧的残差。图9突出显示了运动感知可显著提高紧凑性。同样，PCA模块可以更进一步地提高紧凑性。图10显示700KB存储限制下的结果。相反，基于ReRF的完整模型生成真实感结果，具有由压缩引起的最小噪音。

[0106] 存储分析。表2显示了基于ReRF的高质量版本中每个组件的存储。它报告了压缩的T残差特征、体素运动场、PCA反投影矩阵V和包括指示空白空间和头文件信息的掩码的其他项的平均比特率。注意，总平均模型大小为793KB，紧凑了三个数量级。

[0107] 运行时分析。如表3的运行时明细分析所示，我们的ReRF播放器支持按需ReRF流的实时解码和渲染。解码和渲染一个帧的平均时间分别为大约47.03ms和44.62ms。另外，解码时间和渲染时间彼此接近，这对并行处理更友好。通过平行解码和渲染，播放器的总处理时间为大约50ms。用户可以以沉浸式方式体验高帧率的自由视角视频，就像在YouTube上观看2D视频一样平滑。

[0108]

[0109] 表2：对不同组件的存储的定量评估。它显示，基于ReRF的方法比没有压缩的原始模型尺寸小了1000倍。

[0110] 6.讨论

[0111] 结论。本发明提出了一种用于对长时间的动态场景进行紧凑建模的新型残差辐射场(ReRF)技术。ReRF中的新型运动/残差网格对压缩友好，以按顺序对动态场景的时空特征空间进行建模。基于ReRF的编解码器方案实现了三个数量级的压缩改进，而ReRF播放器进一步实现了在线动态辐射场流式传输和自由观看。实验结果证明了ReRF在高度紧凑和有效的动态场景建模中的有效性。利用对长时间动态场景的独特流媒体能力，所描述的基于ReRF的方法是神经场景建模的关键步骤，具有在VR/AR中的各种潜在沉浸式应用。

[0112]

[0113] 表3：ReRF播放器每个阶段中的处理每帧时间的明细。结果在整个序列上取平均值。

[0114] 7.补充材料

[0115] 图11示出了根据一些实施例的用于训练ReRF的示例概览。

[0116] 神经残差场的训练详情。

[0117] 本节提供了用于从RGB视频输入生成ReRF的训练方案的详细示例，如图11所示。具体地，可以为第一帧构建显式特征网格。然后，顺序给出前一个特征网格ft‑1和当前时间戳处的RGB图像，模型为当前帧优化运动网格Mt和残差网格rt，以生成紧凑神经表示。

[0118] A.1第一帧处的特征网格优化。

[0119] 在一些实施例中，给出长时间多视图序列，第一步是从第一帧学习显式特征网格和全局MLPΦ。可以使用显式密度网格Vσ和颜色特征网格Vc表征第一帧。为了渲染视图，可以通过沿光线的像素和采样点投射光线。对于采样的点p，可以通过三线性插值从网格中高效地查询场景属性(密度和颜色特征)：

[0120]

[0121] 其中C是颜色特征维度的数量，Nx、Ny和Nz是Vσ和Vc的体素分辨率。例如，在上述实验中选择C＝12。采用softplus和后激活获得采样点的密度属性，并将全局MLPΦ应用到颜色特征以用于依赖于视图的渲染。这个浅MLP包含两个隐藏层，并且每个层具有128个信道。训练期间，可以逐步扩大密度网格Vσ和颜色特征网格Vc。体素的初始数量为125×125×125。达到训练步1000、2000和4000后，最终分辨率将会分别扩大到150×150×150、200×200×200和250×250×250。

[0122] 训练这个显式特征网格期间，可以采用光度MSE损失，并且可以应用Vv的总变化损失：

[0123]

[0124] 其中λTV＝0.000016；是一组训练像素光线；c(l)和分别为光线1的地面实况颜色和预测颜色。表示体素中密度值之间的平方差。总变化损失仅在训练迭代1000至12000期间激活。我们利用Adam优化器在粗略阶段训练5000次迭代，在精细阶段训练16000次迭代，批量大小为10192条光线。针对Vσ,Vc和全局MLP的学习率分别为0.1、0.11和
0.002。

[0125] A.2运动网格优化。

[0126] 本节提供了生成我们的紧凑低分辨率运动网格Mt的示例性细节，这表示从当前帧到前一帧的位置偏移，以探索特征相似性。我们建议从密集估计的运动场Dt生成Mt，这是外形为3×Nx×Ny×Nz的网格并且包含从t帧到t‑1帧的扭曲信息。

[0127] 对于密集运动场估计，可以首先沿着t帧的像素光线对点pt进行采样。然后采样的点pt将通过三线性插值查询3D运动Δpt→t‑1＝Dt(pt)：

[0128]

[0129] 找到对应的点pt‑1＝pt+Δpt→t‑1后，可以从用于pt的前一个特征网格ft‑1获得特征。然后，全局MLPΦ将颜色特征解码到RGB空间。最后，可以通过体绘制计算像素颜色。在这种估计期间，在分别达到训练步1000、2000和4000后，我们还逐步从(125×125×125)→(150×150×150)→(200×200×200)→(250×250×250)扩大变形场Dt。采用以下光度MSE损失和总变化损失25来估计Dt：

[0130]

[0131] 其中总变化损失加强密集运动场的平滑性，并且λTV设置为1。Adam优化器可用于在粗略阶段训练3000次迭代，并在精细阶段训练16000次迭代，批量大小为10192条光线，并且‑4学习率为10 。

[0132] 然后，可以通过如主稿件中描述的运动池化策略从Dt生成平滑紧凑的运动网格Mt。

[0133] A.3残差网格优化。

[0134] 本节提供了生成当前帧的稀疏残差网格rt的示例实施细节，该稀疏残差网格用于补偿扭曲误差和新观察到的区域。具体地，该实施方式可以首先使用紧凑运动场Mt扭曲前一帧特征ft‑1，以生成基础特征网格然后，在优化期间，光线可以从图像像素和沿着光线的采样点pt射出。基础特征网格和残差网格都通过三线性插值查询，以获得和rt(pt)：

[0135]

[0136] 注意C＝13，这是由于我们在我们的特征网格f表示中联合密度和颜色特征。然后，可以通过求和获得当前帧的最终场景属性：最后，全局MLPΦ将其解码为具有体绘制的辐射场，以计算像素颜色。

[0137] 在一些实施例中，在分别达到训练步1000、2000和4000后，针对残差网格，可以采用同一个逐步训练方案，从(125×125×125)→(150×150×150)→(200×200×200)→(250×250×250)开始。除了密度残差上的光度MSE损失和总变化损失外，我们还利用额外的L1损失来鼓励残差稀疏性：

[0138]

[0139] 其中表示特征网格ft的密度；λTV＝0.000016并且λ残差＝0.01。

[0140] 与我们的第一帧显式网格优化类似，密度残差的总变化损失仅在训练迭代1000至12000期间激活。我们采用Adam优化器在粗略阶段训练5000次迭代，在精细阶段训练16000次迭代，批量大小为10192条光线。残差网格rt的密度和残差网格rt的颜色特征的学习率分别为0.1、0.11。注意，基础特征网格是固定的，并且我们在我们的残差网格优化期间用零值初始化残差网格。

[0141] B ReRF编解码器和流媒体应用

[0142] 在过去的几十年里，JPEG、JPEG2000、H.264/AVC和H.265/HEVC等图像和视频压缩标准被提出并广泛应用于许多实际应用中。这些视频压缩方法大多遵循混合编码结构，其中采用运动补偿和残差编码来减少空间和时间冗余。最近的工作也试图将神经网络用于视频压缩，并显示出相当强的性能。受这些压缩方法的启发，我们提出了一种基于ReRF的编解码器和配套FVV播放器，用于长时间动态场景的在线流式传输，同时仍然保证在现有网络上获得沉浸式探索体验。图12展示了我们框架的整体流水线。

[0143] 图12示出了基于ReRF的编解码器和播放器的概览(编码器和解码器的建模元素分别用浅绿色和粉色着色)。编码器通过使用PCA、3D‑DCT、量化和熵编码压缩输入信号以产生比特流。解码器接收压缩的比特流、解码每一个句法元素并逆转编码过程。另外，给出解码的运动场Mt和之前重构的特征网格我们就可以通过变形获得预测的特征网格[0144] B.1特征级残差压缩。

[0145] 图13示出了示例GOF结构。

[0146] 运动网格和残差网格两者都适合压缩，尤其是对于长时间的动态场景。为了使ReRF对用户实用，我们设计了一种基于ReRF的编解码器，该编解码器遵循传统的基于关键帧的策略。我们首先将特征网格序列划分为几个连续的特征网格组(GOF)，如图13所示，它是连续网格的集合。GOF包括两种帧类型，即I特征网格(关键帧)和P特征网格。每个GOF都以I特征网格开始，该I特征网格独立于所有其他特征网格进行编码，并包含以下P特征网格序列的大部分重要信息。p特征网格相对于前一个特征网格包含可变形补偿的残差网格。使{f1,r2,…,rt‑1,rt,…}表示GOF，其中f1是初始特征网格，并且rt是当前时间步处的残差网格。我们的目标是以任何给定比特率生成高质量重构特征网格

[0147] PCA。我们首先将f1和rt改造成ft(m,n)和rt(m,n)，一种m×n特征矩阵，其中m和n分别为非空特征体素和特征信道的数量。然后，我们对rt(m,n)执行线性主成分分析(PCA)以获得命名元组(U,S,V)，它是rt(m,n)的奇异值分解的几乎最优的近似值：

[0148] rt(m,n)＝U·diag(S)·VT (10)

[0149] 其中，V是n×q矩阵，表示主方向，S是q向量，U是m×q矩阵。最后，我们将rt投射到主方向，如下：

[0150] r′t＝rt·V (11)

[0151] 3D DCT。网格f1和r′t的每个信道被分成8×8×8个体素的立方体，并且使用3D DCT[11,1]单独变换每个立方体。每个立方体的残差体素由r(i,j,k)表示，并且可以将DCT系数R(u,v,w)计算为：

[0152]

[0153] 坐标原点R(0,0,0)处的变换后的值是DC系数，DC系数是变换后的系数的最重要的值。DC系数的幅值更大并且包含更多RL能量。虽然剩余系数为x系数的AC，但是它们在整个使用的3D‑DCT中包含较少能量，并且它们的大多数能量都集中在立方体的主轴上。

[0154] 量化。之后，使用量化矩阵量化变换系数。系数立方体的量化矩阵应该具有用于每个系数的条目。量化矩阵中的值取决于对应的系数是否有效以及所采用的基础质量因子。我们对3D DCT系数执行标量量化。每个量化的变换系数由下式给出

[0155]

[0156] 其中Sq是缩放因子，并且Q(y,v,w)是量化矩阵条目。在本项工作中，我们基于精神‑视觉实验构建量化矩阵。量化矩阵的值在补充材料中以quant.npy提供。

[0157] 熵编码。量化的变换系数被熵编码，并与运动场Mt、帧类型等辅助信息一起传输。熵编码涉及以“3D zigzag”顺序排列量化的DCT系数、采用游程编码(RLE)算法将相似的频率分组在一起、插入长度编码零以及接下来对剩余部分使用Huffman编码。DC系数与AC系数单独编码。具体地，使用差分脉码调制(DPCM)方法编码DC系数：除了第一个DC系数，我们对当前DC系数与前一个DC系数之间的差异进行编码。使用RLC方法编码AC系数。为了使其最有可能达到长时间的零，采用了“3D zigzag”扫描。最后，我们使用Huffman编码进一步压缩DPCM编码的DC系数和RLE编码的AC系数。

[0158] 实验结果表明，与基于每帧的神经表示相比，我们基于ReRF的编解码器实现了三个数量级的压缩率。我们的压缩方法的另一个优点是能够通过在量化期间调整缩放因子Sq来实现可变比特率，从而实现根据可用带宽的动态适应性流式传输ReRF。

[0159] B.2网络流媒体ReRF播放器

[0160] 我们还实现用于长序列的在线流媒体动态辐射场的配套ReRF播放器，具有广泛控制功能。我们的ReRF播放器支持从流媒体服务器下载编码的比特流。当接收到比特流时，首先通过对量化的变换系数执行逆量化和逆变换来重构I特征网格

[0161] 重构I特征网格后，将重构随后接收到的P特征网格。具体地，通过量化的变换系数的逆量化和逆变换生成最初重构的残差网格然后通过下式将反向投射到原点空间[0162]

[0163] 另外，给出解码的运动场Mt和之前重构的特征网格我们就可以通过变形获得预测的特征网格使p表示我们的显式网格的索引。然后，预测的特征网格用公式表示为：

[0164]

[0165] 添加预测的特征网格以及初始重构残差网格以产生最后的重构特征网格如下：

[0166]

[0167] 最后，将重构特征网格输出到渲染器以生成动态场景的真实感FVV。由于我们的ReRF播放器能够高效地重构和渲染动态场景，因此用户可自由选择它们的视角，就像他们在目标场景中一样。

[0168] 图14示出了针对神经3D数据集中的前向场景的渲染结果。

[0169] 受益于GOF结构的设计，我们的ReRF播放器允许在回放期间快速搜索到新位置来播放。原因是编码的比特流由连续GOF构成。GOF中的第一帧是包含独立编码的特征的I特征网格(关键帧)。在压缩的比特流中遇到新的GOF意味着解码器可以在不重构任何先前特征网格的情况下解码压缩的特征网格。利用ReRF播放器，用户可以首次暂停、播放、快进/快退和搜索动态辐射场，就像观看2D视频一样，带来了前所未有的高质量自由视点观看体验。

[0170] 注意，I特征网格(关键帧)与用于第一帧的显式特征网格不同。在第一帧训练中，我们仅使用显式特征网格进行表示。所有其他顺序帧特征都是使用残差网格rt训练的，并且可以生成特征网格ft。GOF结构用于实现快速搜索。它将选择每个GOF大小的关键帧。对于I特征网格，对完整特征网格ft编码(从残差网格生成)。对于P特征网格，对残差网格rt编码。

[0171]

[0172]

[0173] 表4：与最新方法在静态场景上的比较。我们在两个数据集上将我们的方法与先前和同期的新型视图合成方法进行了比较。基线法的所有分数都直接取自他们的论文(每当可用时)。我们的方法使用最小的存储，同时保持高PSNR。

[0174] C实验

[0175] C.1数据集详情

[0176] 我们捕获的动态数据集包含大约74个视图，分辨率为1920×1080，帧率为25fps。相机看向中心呈圆柱形分布。最多的序列超过1000帧，最长的序列包含4000帧。我们使用五份现实世界捕获的数据和两份合成数据进行实验。

[0177] C.2其他实验结果

[0178] 静态场景比较。为了展示我们的I特征网格(关键帧)压缩性能，我们还将其与现有静态场景新型视图合成方法在表格中的合成的NeRF数据集和TanksTemples数据集上进行了比较。

[0179] 与原始DVGO相比，在不显著牺牲质量的情况下，实现了更小数量级的比特率。我们选择2个不同的量化因子来显示我们的高质量压缩和低质量压缩结果。注意，我们的高质量版本实现了最紧凑的建模，渲染质量与原始DVGO基本相同，也优于vanilla NeRF和许多其他方法。我们的低质量版本还表明，我们可以使用更加紧凑的存储(<1MB)来达到高PSNR(>30)。

[0180] 图15示出了合成的NeRF数据集上的定量结果。

[0181] 图16示出了与一些最近的工作的定性比较。

[0182] 图15和图16还显示，与先前和同期的方法相比，我们的方法最紧凑并且保持了对静态场景的高渲染质量。采用七个不同的量化缩放因子来实现可变比特率。我们的方法还同时实现快速重构和渲染。

[0183] 图17示出了对长序列(3000帧)的性能。

查看完整全部详细技术资料

当前第1页第1页第2页第3页

用于流媒体自由视点视频的神经残差辐射场实质审查发明

技术领域

相关背景技术

具体实施方式

[0004]神经辐射场(NeRF)在对静态对象的建模和自由视角渲染方面的成功激发了对动态场景的无数尝...，盲点网为您提供用于流媒体自由视点视频的神经残差辐射场专利转让信息专利转让交易数据查询就上盲点网

用于流媒体自由视点视频的神经残差辐射场实质审查 发明

技术领域

相关背景技术

具体实施方式

[0004]神经辐射场(NeRF)在对静态对象的建模和自由视角渲染方面的成功激发了对动态场景的无数尝...，盲点网为您提供用于流媒体自由视点视频的神经残差辐射场专利转让信息专利转让交易数据查询就上盲点网

用于流媒体自由视点视频的神经残差辐射场实质审查发明