首页 / 用于视频帧的重构技术

用于视频帧的重构技术实质审查 发明

技术内容

用于视频帧的重构技术 [0001] 相关申请交叉引用 [0002] 本申请要求2021年6月28日提交的第63/215,854号美国临时专利申请的权益。 背景技术 [0003] 本申请的主题涉及用于视频帧的重构技术。 [0004] 参考图1,来自存储装置或传输信道的压缩位流100被输入到解码器缓冲器110,所述解码器缓冲器通过通信链路120连接到解码器130,所述解码器的输出140在150显示。 [0005] 参考图2,视频压缩系统接收输入视频流200,所述输入视频流作为第一输入提供到图片编码器210并且作为输入提供到复杂性估计器220。复杂性估计器输出估计值230,所述估计值是到图片位分配器240的输入,所述图片位分配器的输出250产生到图片编码器 210的第二输入。在由输出250所指示分配的位数的控制下,图片编码器210对第一输入200进行操作,以产生用于压缩位流的编码输出260。 [0006] 数字视频压缩技术广泛用于许多应用中,以减少存储和传输带宽要求。主要数字视频压缩技术由国际标准MPEG‑1(ISO/IEC 11718‑2)、MPEG‑2(ISO/IEC 13818‑2)、MPEG‑4(ISO/IEC JTC1/SC29/WG11)、高级视频编码(AVC)H.264系列H:视听和多媒体系统(2019年6月)指定,这些国际标准由作为国际标准组织(ISO)和国际电工委员会(IEC)的联合技术委员会的一部分的动态图像专家组(MPEG)开发,每个国际标准以引用的方式并入本文中。这些标准被开发以:用于对用于广泛范围的应用的运动图片和相关联音频信号的编码,所述应用涉及压缩数字视频的传输和存储,包含视频流、视频点播、经由同轴网络的数字电视传输、光纤网络、地面广播或直接卫星广播;以及用于存储在存储介质上的交互式多媒体内容。 [0007] MPEG标准指定位流,其中使用可变位数来表示每个压缩图片。可变特征归因于不同类型的图片处理,以及场景被编码的时空复杂性的固有变化。这使得使用缓冲器来平滑位速率的波动。对于恒定位速率存储介质或传输信道缓冲,允许压缩图片的位速率在取决于缓冲器的大小的限度内变化,同时将恒定位速率输出到存储装置或传输信道。 [0008] 参考图3,示出了形成一组压缩MPEG帧的帧序列的帧群组内的三种类型的编码帧(例如,图片)I、P、B的实例。帧类型之间的主要区分特征是所使用的压缩方法。第一类型,即帧内模式帧或I帧,独立于任何其它帧而压缩。尽管I帧之间的距离没有固定上限,但这些I帧通常散布在整个序列中以便于随机存取和其它特殊操作模式。预测性运动补偿帧(P帧)由所述帧中的压缩数据以及先前的I帧或P帧重构。双向运动补偿帧(B帧)由所述图片中的压缩数据加上先前的I帧或P帧和后续的I帧或P帧重构。因为重构的I帧或P帧可用于重构其它帧,因此它们被称为参考图片。 [0009] MPEG图片由基于宏块量化器参数而编码的宏块构成,所述宏块量化器参数充当在MPEG‑2中权衡质量与位速率的主要方式。在帧内,量化器参数可以因宏块而异。宏块量化器以任何合适的方式计算。大多数视频序列在连续图片之间表现出高度相关性。在对图片进行编码之前去除此冗余的有用方法是运动补偿。 [0010] MPEG标准可以与恒定位速率和可变位速率的传输和存储介质一起使用。由于不同类型的图片处理以及场景被编码的时空复杂性的固有变化,每个图片中的位数将是可变的。 [0011] 为了使位流满足MPEG速率控制要求,每个帧的所有数据都需要在解码器需要时在缓冲器内可用,并且解码器缓冲器不会过满。这些要求转变为每个帧中允许的位数的上限和下限。给定帧的上限和下限取决于在其之前的帧中使用的位数。 [0012] 视频转码是将一个压缩视频流转换为另一压缩视频流的过程。视频转码技术广泛用于各种应用中。将转码技术应用于视频流有两个主要优点。首先,通过存储高质量的压缩视频流(而不是原始视频文件),可以节省服务器中的大量存储空间。其次,通过重复使用源视频流中携带的压缩视频信息的一部分,与传统的编码过程相比,可以大大简化转码过程。 各种位速率之间(例如,从DVD高质量视频到无线低质量视频)的视频转码使用速率控制来满足带宽、缓冲器和延迟约束等。 [0013] 一般来说,视频转码器可以分为三种类型。参考图4A,转码器可以通过更大的量化步长并且因此通过更低的质量来重新量化输入位流的DCT系数。因此,转码器的复杂性相对较低。然而,漂移误差可能在P帧和B帧中发生,并且在P帧中累积,直到下一个I帧被转码。 [0014] 参考图4C,转码器可以将完整解码器与完整编码器级联。因为在转码器中运动被重新估计,并且残差被重新计算,因此可以消除漂移误差。然而,这导致高计算复杂性,并且通常不适合于低复杂性或实时应用。 [0015] 参考图4B,为了折中质量和复杂性,转码器可以基于先前的转码帧重新计算残差,可以避免漂移误差,并且最终重构误差取决于量化噪声。因此,转码器产生相对较高质量的转码视频。由于IDCT/MCP/DCT(反离散余弦变换/运动补偿图片/离散余弦变换)操作,图4B的转码器的复杂性高于图4A的转码器的复杂性。然而,所述转码器比图4C的转码器简单得多,因为它重新使用由输入位流携带的运动信息而不是处理运动重新估计。因此,转码器提供相对较高质量和相对较低复杂性。 [0016] 遗憾的是,一些转码视频流往往难以以期望的最大位速率维持编码质量。 附图说明 [0017] 为了更好地理解本发明,并且为了展示可如何实施本发明,现在将以举例的方式参考附图,在附图中: [0018] 图1示出对包含视频的位流进行解码。 [0019] 图2示出基于位分配的图片编码器。 [0020] 图3示出I帧、P帧和B帧以及它们之间的参考。 [0021] 图4A‑4C示出转码器。 [0022] 图5示出包含重复帧的24P到60P转换。 [0023] 图6示出视频的帧的模式识别。 [0024] 图7示出基于重复模式的选择帧类型修改。 [0025] 图8示出基于重复模式的选择帧类型修改。 具体实施方式 [0026] 参考图5,通常,运动图片具有每秒24个渐进帧的帧速率。然而,在许多情况下,具有每秒24个渐进帧的帧速率的运动图片被转码为每秒60个渐进帧或每秒60个交错字段(为了简单起见,在本文中通常被称为帧)。为了将24P内容转换为60P内容,通常使用下拉将24个帧转换为60个帧。此下拉可以通过每隔一个帧拍摄并重复两次,然后拍摄其它帧并重复三次来执行。结果是2个帧、3个帧、2个帧、3个帧、2个帧、3个帧、2个帧、3个帧、2个帧、3个帧等的重复模式。举例来说,对于1秒的视频,可以存在24个原始帧和36个重复帧。 [0027] 参考图6,当对先前已经从24P视频内容转换的例如在编码位流中接收的视频内容进行转码时,将预期重复帧将在位流内被适当地用信号表示为重复帧,使得不需要编码位来对重复帧的像素进行编码。遗憾的是,随着时间推移,并且可能由于多实体编码、多实体修改、票证覆盖和其它修改,重复帧未适当地被标识为重复帧,而是通常以可能需要大量位来对帧的像素进行编码的方式而编码。举例来说,所有帧都可以用I帧、P帧和B帧进行编码,这些帧中的每一个对帧的像素进行编码,其中一些帧可以使用运动向量来参考其它帧。可以使用模式识别过程将帧彼此比较以标识是否使用了下拉过程,并且如果使用了下拉过程,则所述帧对应于重复帧。 [0028] 参考图7和图8,对视频流进行编码的一种技术是使用模式识别的输出来确定所接收帧700的下拉帧的模式,例如2个帧、3个帧、2个帧、3个帧等。在确定帧的重复模式的情况下,期望使用图片群组的重复模式对位流进行编码,所述重复模式例如为I、B、B、P、B、B、P、B、B、P、B、B、I等。图片群组可以被定义为包括初始I帧的一系列循序的I帧之间的图片群组。 然而,确定对于作为先前发生的下拉转换的结果的重复帧,存在第二B帧仅是紧接在前的B帧的重复但不准许参考先前B帧的情况。当这种模式发生时,选择图片群组的帧类型不适合于高效编码,因为第二B帧将需要使用大量位进行编码,因为它不能被编码为先前B帧的重复。然而,应注意,第二B帧可以参考先前P帧或I帧,如果第二B帧是此类先前P帧或I帧的重复,则这可能是期望的。因此,期望一种技术来使得由第二B帧表示的帧可以用‘零’位进行编码,以对帧的像素进行编码(可能存在用于重复帧的开销信令的位)。此外,如果一对循序B图片具有编码所需的基本上不同数目的位,而这些位原本未被标记为复制,则不充分前向的速率控制机制往往会降低循序B帧周围的图像的质量。 [0029] 在710,系统最初检查当前帧是否是一系列循序帧中的第二B帧。如果在710当前帧是该系列循序帧中的第二B帧,则在720,系统检查第二B帧是否是紧接在前的B帧的重复帧。 以此方式,系统已确定这对B帧是彼此的重复帧。接下来,在730,系统检查以确定这对B帧的紧接在前的帧是否不是彼此重复的B帧中的任一个的重复。在730,这对B帧的先前帧是彼此重复的B帧中的任一个的重复的情况下,则系统优选地将第二B帧(其不准许参考另一B帧)编码为这对B帧的紧接在前的帧(例如,P帧或I帧)的重复。以此方式,编码效率得以提高,并且转码器的速率控制可能更有效。在730,这对B帧的紧接在前的帧不是彼此重复的B帧中的任一个的重复的情况下,则在740,系统优选地将第二B帧(其不准许参考另一B帧)提升为P帧(或I帧),并且表示为第一先前I帧或P帧的重复(P帧被准许参考另一P帧或I帧)。 [0030] 对于用AVC编码的源内容可以使用类似的过程,其中典型模式包含P、B、Bref、B、P、B、Bref、B、P、B、Bref、B,其中Bref可以由其它B帧参考。举例来说,如果Bref是第二B帧,并且是紧接在前的B帧的重复,紧接在前的B帧不是先前帧(又名P帧)的重复,则将Bref提升为P帧。以类似方式,如果第三B帧是紧接在前的Bref帧的重复,则将第三B帧提升为P帧。 [0031] 对于源自通过重复每个帧一次而转换为60P内容的30P内容的源内容,可以使用类似的过程。如果系统确定这是发生的模式,则优选地修改序列以包含I、P、B、P、B、P、B、P、B、I。以此方式,B帧中的每一个可以参考先前P帧,并且用信号表示为‘重复帧’,从而增加编码效率。 [0032] 应注意,在许多情况下,输入帧是质量相对较高的HEVC或AVC,并且输出是质量相对较低的AVC或MPEG‑2。 [0033] 此外,前述实施例中的每一个中的每个功能块或各种特征可以由电路实施或执行,电路通常是集成电路或多个集成电路。被设计成执行本说明书中描述的功能的电路可以包括通用处理器、数字信号处理器(DSP)、专用或通用集成电路(ASIC)、现场可编程门阵列(FPGA)、或其它可编程逻辑装置、离散门或晶体管逻辑、或分立硬件部件或其组合。通用处理器可以是微处理器,或者,处理器可以是常规处理器、控制器、微控制器或状态机。上述通用处理器或每个电路可以由数字电路配置,或可以由模拟电路配置。此外,当由于半导体技术进步出现了制造接替当前集成电路的集成电路的技术时,也能够使用这些技术制造的集成电路。 [0034] 应当理解,本发明不限于已经描述的特定实施例,并且可以在不脱离所附权利要求中限定的本发明的范围的情况下在其中作出变化,本发明的范围如根据通行法律的原则,包含等同原则或将权利要求的可执行范围扩大到其字面范围之外的任何其他原则所解释的。除非上下文另外指示,否则权利要求中对元件的实例数目的引用(无论是对一个实例或多于一个实例的引用)都至少需要所述元件的指定实例数目,但并不意图从权利要求的范围中排除具有比所述元件的实例更多的实例的结构或方法。当用于权利要求中时,词语“包括”或其派生词以非排他性含义使用,所述非排他性含义不旨在排除所要求保护的结构或方法中其它元件或步骤的存在。

相关技术
视频重构相关技术
重构技术相关技术
B·L·万维尔德胡森发明人的其他相关专利技术