本发明涉及数据传输,特别是但不是唯一涉及表示如视频的图像 序列的数据的传输。其尤其适合于对错误和数据丢失敏感的线路上的 传输。 在过去的几年中,通过互联网可获得的多媒体内容的数量有了显 著增长。因对移动终端的数据发送速率已高到足以使这些终端能够检 索多媒体内容,现在需要移动终端能够从互联网检索视频和其他多媒 体内容。高速数据分发系统的一个例子是即将到来的GSM阶段2+。 这里用到的术语多媒体用于声音和图像,或仅用于声音以及仅用 于图像。声音可包括语音和音乐。 互联网上的网络通信量基于一种称为互联网协议(IP)的传输协 议。IP涉及从一个地点到另一个地点传输数据包。其通过中间网关实 现包的路由,也就是,其能够使数据发送到没有直接连接到同一物理 网络的机器上。由IP层传输的数据单元称为IP数据报。由IP提供的 分发服务是无连接的,也就是IP数据报彼此独立地在互联网中路由。 因为对于任何特定连接在网关中没有永久约定资源,网关可能因缺少 缓存空间或其他资源偶尔丢弃数据报。因此,由IP提供的分发服务是 一种最佳努力服务,而不是保证服务。 互联网多媒体典型地是用户数据报协议(UDP)、传输控制协议 (TCP)或超文本传输协议(HTTP)上的流。UDP是一个无连接的轻量 传输协议。其在IP提供的服务之上几乎不提供什么。其最重要的功能 是在特定传输端点之间分发数据报。因此,传输应用必须关心如何将 数据分组成数据报。UDP用到的头部包括一个校验和,使得接收端的UDP 层能够校验数据的有效性,否则,IP数据报的降级会进而影响UDP数 据报。UDP不检测数据报已经接收,不重新发送丢失的数据报,也不保 证数据报按与发送相同的顺序被接收。 UDP因不重发数据而得到一种较小延迟的相对稳定的吞吐量。因此 其用于检索应用中来应付网络拥塞的影响并在接收端减少延迟(和抖 动)。但是,客户端必须能够从包丢失和可能隐蔽的丢失内容中恢复。 即使有重新构建和隐藏,重新构建Clip的质量也受一定影响。另一方 面,Clip的播放可能没有讨厌暂停的实时发生。无论在公司或是其他 地方的防火墙因UDP是无连接的可能阻止其使用。 TCP是面向连接的传输协议,并且使用它的应用可以传送或接收一 系列字节而没有UDP中明显的边界。TCP层将字节流划分成分组,在IP 网上发送分组并且保证分组是没有错误的并按正确顺序接收。TCP如何 工作的基本思想如下。每次TCP发送一个数据分组时,其启动一个计 时器。当接收端接收到一个分组时,其立即发送一个确认返回到发送 端。当发送端接收到确认时,其知道一切正常并取消计时器。但是, 如果IP层丢失发出的段或返回的确认信息,则发送端的计时器期满。 在这一时刻,发送端将重新发送数据段。现在,如果发送端在发送下 一数据分组前等待每个分组的确认信息,则整体传输时间将比较长并 且依赖于发送端和接收端之间的往返行程延迟。为解决这个问题,TCP 采用滑动窗口协议使得网络中可以出现几个未确认分组。在这个协议 中,确认分组包括填有客户端愿意接收字节数(当前确认的除外)的 域。这一窗口大小域指示客户端可用的存储输入数据的缓存空间的数 量。发送端在最新接收窗口大小域指示的限制内传输数据。滑动窗口 协议意味着TCP有效地有一个慢启动机制。在连接开始时,发送端能 够发送下一个分组之前第一个分组必须被确认。典型地,客户端则按 指数规律增加窗口大小。但是,如果网络拥塞,窗口大小就减小(以 避免拥塞并避免接收缓存溢出)。窗口大小如何改变的细节依赖于使用 的特定TCP实现。 图1显示了一个多媒体内容创建和检索系统。该系统有一个或多 个媒体源,如摄象机和麦克风。替代地,多媒体内容也可以无须自然 媒体源合成地创建,如动画计算机图形和数字生成音乐。为了组成一 个由不同媒体类型,如视频、音频、文本、图像、图形和动画组成的 多媒体片,从源捕获的初始数据在编辑器中编辑。典型地原始(未压 缩的)多媒体数据占用的存储空间是巨大的。对于包括不同媒体混合 的视频序列,如动画,可达数兆字节。为了在如28.8kbps和56kbps 的低比特率信道上提供有吸引力的多媒体检索服务,多媒体片在编辑 阶段进行了压缩。这典型地发生在离线时。然后这些片传送到多媒体 服务器。典型地,多个客户端可通过一个或多个网络访问该服务器。 该服务器能响应客户端提出的请求。该服务器的主要任务是将想要的 多媒体片传送到客户端由其解压缩并播放。在播放期间,客户端利用 一个或多个输出设备,如屏幕和扬声器。在有些情况下,在数据仍在 下载时客户端就能够开始播放。 利用为整个数据片提供类似服务质量的单一信道可以方便地发送 一个数据片。替代地可以利用不同的信道发送数据片的不同部分,例 如一个信道上发送声音,而另一个信道上发送图像。不同信道可提供 不同的服务质量。在这一上下文中,服务质量包括比特率、丢失或误 码率以及传输延迟变化。 为确保发送足够质量的多媒体内容,其在可靠网络连接上提供, 如TCP,其确保接收的数据是无错误的并按正确的顺序。丢失或被破坏 的协议数据单元重新发送。因此,信道吞吐量差别很大。当丢失或被 破坏的协议数据单元重新发送时甚至引起多媒体流重放的暂停。多媒 体流重放的暂停是令人烦恼的。 有时丢失数据的重传不由传输协议处理而是由一些更高级的协议 处理。这种协议能够选择多媒体流中最关键的丢失部分并请求这些部 分重传。最关键的部分例如可以用于预测流中其他部分。 为更好地理解本发明,下面对检索系统元件,也就是编辑器、服 务器和客户端进行描述。 图2显示了多媒体片编辑器执行的操作的典型顺序。从一个或多 个数据源捕获初始数据。捕获通过使用硬件、硬件专用的设备驱动器 以及控制设备驱动器使用硬件的捕获应用而完成。捕获硬件由如连接 到PC视频捕获卡的视频摄象机组成。捕获阶段的输出通常是未压缩数 据或与未压缩数据相比具有不相关质量下降的稍微压缩的数据。例如, 视频捕获卡的输出可以是未压缩YUV 4∶2∶0格式或运动JPEG格式。 在建议ITU-R BT.601-5“Studio Encoding Parameters of Digital Television for Standard 4∶3 and Wide-Screen 16∶9 Aspect Ratios (标准4∶3和宽屏16∶9纵横比数字电视的演播室编码参数)中定义了 YUV彩色模式和可能二次采样方案。在建议ITUT H.261“Video Codec for Audiovisual Services at p x 64kbits(p x 64kbits视听服务的视 频编解码)”(第3.1节“Source Formats(源格式)”)中定义了相关 数字图像格式,如CIF、QCIF以及SQCIF。 在编辑期间,分离媒体轨道在单一时间线上捆绑在一起。还可以 用各种方式编辑媒体轨道,例如降低视频帧速率。每个媒体轨道可以 压缩。例如,未压缩YUV 4∶2∶0视频轨道可利用低比特速率视频编码 的ITU-T建议H.263进行压缩。如果压缩的媒体轨道是复用的,其隔 行扫描以形成单一比特流。然后该片传送给多媒体服务器。为提供比 特流多路复用并不是必须的。例如,不同媒体组件,如声音和图像可 通过传输层中分组头信息识别。不同UDP端口号可用于不同媒体组件。 图3显示了多媒体服务器执行的操作的典型顺序。典型地,多媒 体服务器有两种操作模式;其发送预存的多媒体片或实况播送(实时) 多媒体流。在第一种模式中,片存储在服务器数据库中,然后由服务 器按需访问。在第二种模式中,多媒体片以立即传送给客户端的连续 媒体流传送给服务器。客户端通过一种至少能选择需要媒体片的合适 的控制协议控制服务器的运行。除此之外,服务器可以支持更高级的 控制。例如,客户端可以停止片的传输,暂停和恢复片的传输以及在 传输信道吞吐量变化服务器必须动态调整比特流以适合可用带宽的情 况下控制媒体流。 图4显示了多媒体检索客户端执行的操作的典型顺序。客户端从 多媒体服务器获得压缩的并多路复用的媒体片。客户端多路分解媒体 片以获得单独的媒体轨道。然后对这些媒体轨道解压缩以提供重新构 建的媒体轨道由输出装置播放。除了这些操作,还提供与终端用户交 互的控制器单元,用于按照终端用户的输入控制播放以及处理客户服 务器控制流量。应当指出多路分解-解压缩-播放链可以在片的第一部 分完成同时继续下载片的后续部分。这通常称为流。流的替代方式是 将整个片下载到客户端然后对其多路分解、解压缩和播放。 对信道变化吞吐量问题的一种典型解决方法是,在开始播放和/或 按信道吞吐统计数字实时调整传输比特率之前,在客户端缓存多媒体 数据。 解决暂停问题的一种方式是在多媒体服务器上使用动态比特率调 整。但是,服务器对网络拥塞的反应不足以快到可以避免客户端的暂 停。除此之外,服务器不能控制TCP(或其他基本协议如IP)的重传 机制。 即使使用动态比特率调整,客户端无论如何还必须做一些初始缓 存以避免由重传引起的发送延迟。如果假设有固定信道比特率,就可 以计算一个数据单元假定被完全接收的时间点。除此之外,还可以计 算出一个数据单元假定被播放的时间点。这两个时间点之间的时间差 称为安全时间。定义安全时间的另一种方式是规定为在播放中不引起 暂停的两个连续接收数据单元之间的最大时间。 当为片计算安全时间时,每个数据单元必须单独考虑。计算假定 在当前被处理的数据单元之前没有出现吞吐量下降。如果信道的最大 吞吐量等于多媒体片的平均比特速率,客户端在吞吐量下降后不能从 接收比特数量的下降中恢复。确保对吞吐量下降的一些保护的唯一方 式是在开始播放前缓存一些数据。如果信道停止提供数据,当缓存中 有数据时客户端仍可以播放流。因此,平均安全时间大致等于初始缓 存时间。因为片的比特率不同,安全时间也不同并且最小安全时间等 于或小于初始缓存延迟。 HTTP,超文本传输协议是万维网(WWW)的基础。它是一个简单协 议。客户端建立一个到服务器的TCP连接,发出一个请求并且读取服 务器的响应。服务器通过关闭连接指示其响应的结束。协议层的协议 典型地是IP上的TCP上的HTTP。 最常用的HTTP请求称为GET。GET请求与唯一指定被请求项的通 用资源标识符(URI)相关。服务器通过返回对应特定URI的文件来响 应GET请求。服务器返回的文件通常包括到位于其他服务器上的其他 文件的指针(超文本链接)。因此用户可以方便地沿链路从文件到文件。 互联网多媒体检索使用的服务器是专用多媒体服务器或一般WWW 服务器。 专用多媒体服务器典型地能够在HTTP、TCP和UDP协议上传输。 其能够动态重新调整多媒体片的内容以满足可用网络带宽并且避免网 络拥塞。其还可以支持快速前进和快速倒带操作以及实时多媒体流。 其可以同时提供许多流。 基于一般WWW服务器的多媒体服务器也称为无服务器或HTTP多媒 体解决方案。多媒体片在HTTP上流动。因为这种类型的服务器对流的 内容没有控制,所以不能使用流(带宽)控制,并且不能响应网络拥 塞。因此,播放时会出现突然的暂停。因此在开始播放之前客户端必 须有相当长的初始缓存延迟以避免这种突然暂停。从标准WWW服务器 上进行多媒体流快进是不可能的。实时多媒体流必须采用特殊技巧如 Java编程来实现。 当接收到流多媒体片时,可以采用合适的独立媒体播放器应用或 浏览器插件来播放。这种多媒体播放器在不同浏览器之间差别很大。 较新的浏览器可能有一些用于最流行流视频播放器的集成插件。 在移动终端及其网络间传输数据有许多不同的数据传输方法可 用。最有名的方法是GSM(全球移动通信系统)。 称为电路交换数据(CSD)的当前GSM数据业务提供9.6kbps电路 交换信道。GSM打算提供具有前向纠错(FEC)和状态信息的14.4kbps 数据信道。高速电路交换数据(HSCSD)提供在同一时间为单一用户提 供多个9.6kbps或14.4kbps时隙。有对称和非对称连接。在对称连接 中,对称分配空中接口资源,并且在两个方向提供相同的数据传输速 率。在非对称连接中,上行链路和下行链路支持不同的数据速率。但 是,非对称空中接口连接只在非透明模式(见下文)中应用。 电路交换GSM数据系统,CSD和HSCSD,提供两种基本的连接类型, 也就是透明(T)和非透明(NT)。两者通过纠正传输错误的方式进行 辨别。在透明连接中,纠错只由射频接口传输方案提供的前向纠错机 制完成。连接被看作是同步电路。可用吞吐量是恒定的,并且传输延 迟是固定的。传输的数据可能包括比特反转错误。在非透明连接中, 虽然端到端的服务是电路交换的,但GSM电路连接被看作是分组(或 帧)数据流。每一个帧包括冗余比特以便使接收机检测剩余错误。因 无线频率通道中的干扰,有两种错误源,掉包和错包。后者可通过冗 余检测恢复。对帧中剩余错误采用无线连接协议(RLP)提供重新传输。 如果发现帧是正确的,接收机确认这一事实。如果发现是不正确的, 就发送否定确认并重传指定帧。因此非透明连接是没有错误的,但是 吞吐量和传输延迟有变化。 还存在其他网络类型,如GPRS(通用分组无线系统)。在GPRS中, 传输是真正基于分组的。 视频序列由一系列静止图像组成。视频压缩方法是基于减少冗余 和视频序列的知觉地不相关部分。视频序列的冗余可分为空间、时间 和频谱冗余。空间冗余指相邻像素之间的相关性。时间冗余指相同对 象出现在连续图像中。减少空间冗余减少表示一个特定图像序列所需 的数据的数量并且因此压缩数据。这可以通过生成描述当前和前一个 (参照)图像之间运动的运动补偿数据实现。实际上,当前图像从前 一图像推算出来。频谱冗余指相同图像的不同颜色成分之间的相关性。 简单减少序列的冗余通常不能将其充分压缩。因此,一些视频编 码器试图降低视频序列中主观上最不重要部分的质量。除此之外,通 过压缩参数和系数的有效无损失编码减少已编码比特流的冗余。主要 技术是采用变长编码。 视频压缩方法典型地在能够采用时间冗余缩减的图像和不能采用 时间冗余缩减的图像之间不同。不使用时间冗余缩减方法的压缩图像 通常称为INTRA或I-帧,而时间预测图像称为INTER或P-帧。在INTER 帧情况下,预测(运动补偿)图像很少足够精确,因此空间压缩预测 错误图像也与每个INTER帧相关。 时间伸缩性通过增加图像显示速率提供了一种增强知觉质量的机 制。这通过采用一对连续参照图像和从其中之一或两个中得到的双向 预测B-图像获得。然后B-图像可以按在两个定位图像之间顺序显示。 这一点在图5中进行了说明。双向时间预测比单向预测生成了一个更 准确的预测图像。因此,在相同的量化级别与前向预测的P图像相比, 提高了压缩率。B-图像不用作参照图像,也就是永不从中预测其他图 像。因为其可以被丢弃而不影响将来图像的图像质量,所以其提供了 时间伸缩性。应当指出,虽然B-图像比P-图像提供更好的压缩性能, 但其构建也更复杂并且需要更多存储器。而且因双向内插需要接收两 个参考图像并且需要额外的计算,会引入额外的延迟。除此之外,B- 图像需要比特流中更多的附带信息。 术语可伸缩性指压缩序列以不同数据速率解码的能力。换句话说, 可伸缩多媒体片在压缩时可以相对容易的编辑,因此可以在不同带宽 的信道上流动并且实时地解码和播放。 可伸缩多媒体典型地是有序的因此有数据的分级层次。基础层包 括多媒体片的基本表示,而增强层包括基础层之上的精细数据。因此, 增强层改善了片的质量。 可伸缩性对于异构和易出错的环境来说是一个想要的属性。需要 该属性来反限制如比特率、显示分辨率、网络吞吐量以及编解码器复 杂程度上的限制。 可伸缩性可用于改善分层编码与传输优先次序相结合的传输系统 中的错误复原能力。术语传输优先级别这里指在包括不对称错误保护 的传输中提供不同质量的服务,及提供不同错误/丢包率的不同信道的 各种机制。根据其特性不同,数据分配也不同,例如,基础层可通过 有高级错误保护的信道发送,而增强层可通过更容易出错的信道传输。 通常,可伸缩多媒体编码比不可伸缩编码有更差的压缩效率。换 句话说,以带有所有增强层的可伸缩多媒体片编码的多媒体片比以相 同质量的非压缩单层片编码需要更大的带宽。但是,这一普遍规则也 存在例外,例如视频压缩中的时间可伸缩B-帧。 下面,将参照ITU-T H.263视频压缩标准论述可伸缩性。H.263是 在通常指数据速率低于64kbps的低比特速率通信中用于视频编码的 ITU-T建议。该建议规定了比特流语法和比特流解码。目前,H.263有 两个版本。版本1由核心算法和四个可选编码模式构成。H.263版本2 是版本1的扩展,提供12种新的可协商编码模式。 图像以亮度和两个颜色差别(色度)成分(Y、CB和CR)编码。与 亮度图像相比,色度图像沿两个坐标轴按一半像素采样。 H.263的可伸缩性模式(附件0)规定了支持时间、信噪比(SNR) 以及空间可伸缩性性能的语法。 空间可伸缩性和SNR可伸缩性密切相关,唯一的区别是由空间可 伸缩性提供的增强的空间分辨率。图6显示了SNR可伸缩图像的一个 例子。SNR可伸缩性指多速率比特流的创建。其考虑编码错误的恢复, 或初始图像及其重建图像之间的差别。这一点通过采用更好的均衡器 在增强层对差别图像编码来实现。这一附加信息增加了整个重生成图 像的SNR。 空间可伸缩性考虑多分辨率比特流的创建以满足变化显示需求和/ 或限制。图7显示了一种空间可伸缩结构。除了空间增强层试图恢复 重建参考层图像的上采样版本和初始图像的更高分辨率版本之间的编 码损失之外,其基本上与SNR可伸缩性相同。例如,如果参照层有四 等分通用中间格式(QCIF)分辨率,并且增强层有通用中间格式(CIF) 分辨率,则参考层图像必须相应地缩放,以便从中可以预测增强层图 像。对于单一增强层,QCIF标准允许在垂直方向、水平方向、或垂直 和水平两个方向按2的系数增加分辨率。可以有多个增强层,每个在 前一个上增加图像分辨率。在H.263标准中明确定义了用于对参考层 图像上采样的内插滤波器。除对增强层参考的上采样处理,空间伸缩 图像的处理和语法与SNR伸缩图像的相同。 在SNR或空间可伸缩中,增强层图像称作EI-或EP-图像。如果从 参考层图像向上预测了增强层图像,则增强层图像称作增强-I(EI) 图像。在这种类型的可伸缩性中,参考层指当前增强层“之下”的层。 在有些情况下,当参考层图像预测的很差,增强层中出现图像静止部 分的过编码,引起不必要的过高的比特率。为避免这个问题,在增强 层允许前向预测。从前一个增强层图像的前向预测,或替代的,从参 照层图像向上预测的图像称作增强-P(EP)图像。注意计算向上和向 前预测图像可以提供EP-图像的双向预测。对于EI-和EP-图像,从参 照层图像向上预测暗示不需要运动矢量。在EP-图像的前向预测情况 下,需要运动矢量。 在多点和广播多媒体应用中,网络吞吐量上的限制在编码时不能 预测。因此,应采用可伸缩比特流。图8显示了IP多信道广播方案, 其中每个路由器根据其能力去除比特流。其显示服务器S为多个客户 端C提供比特流。比特流通过路由器R路由到客户端。在这个例子中, 服务器提供了一个数据片,其可以伸缩到至少三个比特速率, 120kbit/s、60kbit/s和28kbit/s。 如果客户端和服务器通过通常的单播连接相连接,服务器试图按 照临时信道吞吐量调整传输多媒体片的比特率。一个解决方案是采用 分层比特流并且通过改变传输增强层的数量适应带宽变化。 根据本发明的第一个方面,提供了一种按预定顺序在数据信源和 数据信宿之间的传输链路上传输具有一系列数据单元的数据信号的方 法,包括按相对重要性,而不是预定顺序确定的顺序发送数据单元的 步骤。 根据本发明的第二个方面,提供了一种按预定顺序在数据信源和 数据信宿之间的传输链路上传输具有一系列数据单元的数据信号的数 据传输系统,数据单元按相对重要性,而不是预定顺序确定的顺序发 送。 根据本发明的第三个方面,提供了一种按预定顺序在传输链路上 传输具有一系列数据单元的数据信号的服务器,数据单元按相对重要 性,而不是预定顺序确定的顺序发送。 该服务器优选地包括重排序装置。该服务器优选地包括用于提供 可伸缩数据信号的编辑器。 根据本发明的第四个方面,提供了一个存储在计算机用媒介中 的计算机程序产品,包括引起具有一系列数据单元的数据信号按预定 顺序在传输链路上传输的计算机可读程序装置,数据单元按相对重要 性,而不是预定顺序确定的顺序发送。 计算机程序产品优选地包括一个服务器。在这种意义上来说,当 计算机程序加载到硬件上时,其使得硬件作为服务器设备运行。计算 机程序产品优选地包括用于提供可伸缩数据信号的编辑器。计算机程 序产品优选地包括用于对数据单元重新排序的重排序装置。 根据本发明的第五个方面,提供了在数据信源和数据信宿之间的 传输链路上传输具有一系列数据单元的数据信号,数据单元按相对重 要性,而不是预定顺序确定的顺序发送。 优选地,数据单元或数据单元层排成一个序列而不是其初始的序 列,本发明还包括将数据单元或数据单元层返回到其初始序列的装置 或步骤。 传输链路简单地可能是拥塞发生的瓶颈,并且本发明用于解决这 一瓶颈。 本发明的一个优点是比相同初始缓存的现有技术装置可以提供更 大的安全时间。除此之外,其对降低的传输吞吐量提供一定程度的保 护。因此有助于减少暂停的发生而不牺牲压缩效率。 本发明还有助于利用不自动重传而仅对如响应反馈的更高级功能 选择的那些丢失部分重传的传输协议在不可靠网络连接上进行传输。 在这种情况下,其比现有技术装置提供更多时间用于重传数据信号的 关键部分。因此,流的关键部分更可能发送成功而数据信号的最终终 端用户可能感觉到更好的输出质量。 数据信号可用的传输链路的优选带宽最好是可变的。这可能是因 为如重传丢失或破坏数据使得使用链路的数据通信量数量是变化的。 本发明提供了一种改变数据信号使其能够在否则带宽不够或允许 传输链路的某些带宽用于其他数据(如控制信息)的传输链路上传输 的方式。 本发明优选的作用是相对其他数据单元,或在牺牲其他数据单元 安全时间的情况下增加了一些数据单元的安全时间。 数据信号优选地以具有一个基础层和至少一个增强层的层次结构 安排。术语基础层指最基本的层。基础层表示数据信号最不精细的版 本。在每个单元,当(每个)增强层与基础层结合时,对基础层进行 精制使其更象数据单元。每个增强层为基础层增加更多精细信息。基 础层优选的安全时间相对增强层的安全时间有所增加。 数据信号优选的是可伸缩的。基础层和/或每个增强层彼此互相有 可伸缩关系。信号可在时间、空间或SNR域伸缩。 最好是,依靠序列的重新排序,各层的安全时间依赖于其在层次 结构中的位置。例如,特定数据单元的基础层比增强层有更多的安全 时间。有利地,由一层表示的精细水平越好,其安全时间越短。 优选的信源是服务器。替代的其是一个编辑器。 优选的信宿是客户机。其可以是数据信号的目的地如象移动电话 这样的移动终端。 优选的数据单元是帧。在一种实施方案中,数据单元表示图像序 列。方便地,其是视频序列。最优选地,其包括多媒体数据。 需要理解的是术语“层”和“多层”象征性地使用并指可以应用 于彼此中的数据块,而不是严格的位置关系。 现在将参考相应附图通过例子描述本发明,其中: 图1显示了多媒体内容创建和检索系统; 图2显示了多媒体片编辑器的操作; 图3显示了多媒体服务器的操作; 图4显示了多媒体检索客户端的操作; 图5显示了B图像预测的图解说明; 图6显示了SNR可伸缩性的图解说明; 图7显示了空间可伸缩性的图解说明; 图8显示了IP多信道广播系统中使用的可伸缩多媒体; 图9显示了根据本发明的移动多媒体检索系统; 图10显示了根据本发明的编辑器的操作; 图11显示了根据本发明的客户端的操作; 图12显示了重排序序列和初始序列的安全时间; 图13显示了重排序序列的接收和播放; 图14也显示了重排序序列的接收和播放;以及 图15显示了另一个多媒体内容创建和检索系统。 图1-8在上面已经论述过。 图9显示了根据本发明的移动多媒体检索系统10。虽然只显示了 一个单一客户端22,但应当理解在优选实施方案中,可以有许多这样 的客户端。还应当理解,连接服务器18和客户端22的传输链路端口 的至少一部分是无线的。 系统10包括生成压缩片的编辑器12、用于存储压缩片的服务器数 据库14、用于对压缩片序列重排序的重排序装置16、用于发送重排序 压缩片的服务器18以及包括用于恢复压缩片初始顺序的排序恢复装置 20。客户端22控制服务器的操作,例如通过规定发送哪些数据以及如 何发送。很清楚,重排序装置16和顺序恢复装置20需要兼容,以便 后者可以恢复初始顺序。重排序装置16可以设置为不象图9所示的实 施方案,而是在数据到达服务器数据库14之前对其进行操作。特定类 型的数据,如实况流可能绕过数据库14由编辑器12直接发送到重排 序装置16。虽然在图9中分别显示,但编辑器12、服务器数据库14、 重排序装置16以及服务器18可以配置在一个也可称作服务器的单一 单元或实体中。 图10显示了根据本发明的编辑器的操作。以一个或多个未压缩流 形式捕获的初始数据经编辑生成一个或多个未压缩轨道。这些轨道在 压缩步骤中压缩生成压缩轨道。压缩轨道多路复用在一起生成压缩多 媒体片。多媒体片可伸缩地编码。结果比特流由如视频压缩中的帧的 基本单元组成。这些基本单元并不是所有都一样重要;一些是对比特 流解码很关键的主要基本单元,而一些是改善比特流质量的次基本单 元。次基本单元的消除只引起解码多媒体片的质量损失。事实上,主 要基本单元是比特流的基础层而次单元是增强层。 代替将基本单元按初始传输顺序组织,这是通过编辑和初始数据 压缩生成基本单元的顺序,发明的方法按主要基本单元优先的顺序对 其序列重新排序,以使其在传输顺序中先于次基本单元。根据系统和 数据的特性,重排序可以在多路复用处理之前或之后进行。图10显示 的是在多路复用之后进行。 采用重排序算法对序列进行重新排序。在优选实施方案中,该算 法进行流分析以辨别主要和次要基本单元并收集比特速率统计数据。 这些包括每帧的比特数。然后采用迭代重排序步骤对比特流重排序, 以最小化由全信道吞吐量完全质量播放及由降低信道吞吐量降低质量 播放所需的初始缓存时间。下面给出这种重排序算法的一个例子。应 当指出,期望的降低信道吞吐量因为是该算法的一个参数而必须预先 估计。可基于如从信道行为获得的统计数据进行估计。 基本单元的重排序意味着即使信道吞吐量出现一些下降,主要基 本单元的接收也可能早于播放时间中所指示的。但是,次基本单元易 受传输延迟变化的影响,因为该方法安排其恰好在指定播放时间之前 接收。因此,即使信道吞吐量下降很多,客户端仍可能不暂停播放的 情况下播放主要基本单元。另一方面,次基本单元可以比预定播放时 间到达的晚一些并且在播放中用不到。 图11显示了根据本发明的客户端的操作。客户端接收到比特流, 重新排序以生成初始压缩片,多路分解以生成压缩轨道,然后解压缩 以重新构建轨道。客户端的基本单元顺序恢复步骤可在多路分解之前 或之后(依赖于其在内容编辑器中何时发生)使用。图11所示为对应 图10所述顺序在多路分解之前进行。在这种方式下,重排序和顺序恢 复都用于多路复用比特流。顺序恢复将基本单元重新组织到其自然顺 序以解压缩并丢弃所有迟到的次基本单元。 在客户端接收基本单元时,其给出用其应当播放的时间给予该基 本单元时间戳。这一时间戳与当前播放时间进行比较。如果时间戳大 于当前播放时间,则基本单元不解压缩并且被丢弃。如果时间戳小于 当前播放时间,则基本单元解压缩并且在解压缩之后比较两个时间。 如果时间戳小于当前播放时间,就播放基本单元。否则,就将其丢弃。 在重排序在多路复用之后进行的特殊情况下,采用的多路复用/多 路分解格式必须允许基本单元的重排序和初始顺序的恢复。 图15显示了根据本发明的一个多媒体内容创建和检索系统的另一 个视图。系统50包括编辑器52、服务器54和客户端56。 编辑器包括用于将典型图像序列形式的初始数据流压缩成适合传 输形式的压缩器58,用于将压缩的初始数据流与其他压缩数据流多路 复用在一起生成压缩比特流的多路复用器60,以及用于生成对比特流 解码关键的主要基本帧和改善比特流质量的次基本帧的层生成装置 62。 服务器54包括用于根据其在客户端56帮助重建初始数据流方面 的重要性顺序,而不是自然序列顺序排列帧的重排序装置64。 服务器54和客户端56都包括传输/接收装置66和70,各自用于 在服务器54和客户端56之间的传输链路68上进行数据传输。 客户端56包括用于将帧放回其自然序列顺序的顺序恢复装置72, 用于将比特流多路分解的多路分解器74,以及用于将压缩数据流解压 缩以重新生成初始数据流的解压缩器76。客户端包括用于播放或输出 初始数据流的播放/输出装置78。客户端还包括对服务器54应用控制 信号以响应客户端56中接收的帧来控制重排序装置的控制器80。 举例 采用H.263兼容编码器和帧重排序工具的本发明的一个实施方案 经过了测试。编码器能够生成B-帧。重排序工具包括重排序算法并且 能够调整以便对不同下降的信道数据速率进行帧排序。 采用了称为Glasgow的视频帧标准ITU-T测试序列。该序列具有 QCIF分辨率,也就是176×144像素的亮度图像大小和88×72像素的色 度图像大小。 Glasgow序列的最初297帧经压缩生成包括INTRA(I)帧、INTER (P)帧和双向预测(B)帧的临时可伸缩比特流。I和P帧称作主要帧, 而B帧称作次要帧。初始(缺省)序列的帧速率是每秒12.5帧(fps), 这样压缩序列对应于23.68秒。每个帧是压缩的。第一帧是INTRA帧, 而第二帧是INTER帧。然后,是替代INTER帧和B帧。采用一个恒定 的均衡器生成由主要帧平均比特率28984bps和次要帧平均比特率 12089bps组成的平均比特率41073bps的比特流。 为简单起见,该例子没包括比特流与其它比特流的多路复用。 对应主要帧比特率(A)和次要帧比特率(B)的(i)25%;(ii) 50%;以及(iii)75%之和的比特率单独优选帧序列的重新排序。应当 指出,100%次比特率(B)对应于获得完全质量播放需要的平均比特率。 求和的比特率分别是32007、35029和38051bps。为方便起见,在下面 的描述中,这些比特率称作25%(A+0.25B)、50%(A+0.5B)和75% (A+0.75B),并且相应的重排序序列称作25排序、50排序和75排序。 希望信道的全速率是序列的平均比特率。 重排序算法采用两个值: FQFR(全质量全速率),是假设全速率信道时确保全质量播放的最 小初始缓存时间;以及 RQRR(降低质量降低速率),是播放主帧而不播放部分或全部次帧 (假设降低次比特率为25%、50%或75%)以确保降低质量播放的最小 初始缓存时间。 在为特定信道计算FQFR和RQRR时,该算法假设有恒定比特率。 采用比特率统计数字计算每帧可能的比特数。从时间戳可以知道播放 特定帧的时刻。通过帧准备好作为图像显示(当然考虑接收帧比特和 准备的时间)来确定时间,并且这个时间与该帧的时间戳进行比较。 如果帧在将被显示之后接收,就增加缓存时间,如果其及时接收则可 以处理下一帧。一旦算法将所有帧接收的可能时间与其播放时间进行 了比较,并且相应地调节了缓存时间以便能及时接收所有帧,则最小 缓存时间就计算出来了。 该算法用于有初始顺序的序列。在这种情况下,FQFR小于RQRR, 因为为获得全质量播放,如果有降低速率信道,就必须等更长的时间 再开始播放。该算法寻找以最小化全信道吞吐量的全质量播放以及同 时降低信道的降低质量播放所需要的初始缓存时间。换句话说,该算 法试图找到FQFR和RQRR大致相等的一个值。应当指出该算法并不是 最佳的,也就是说该算法不是必须对序列重排序以便找到最小初始缓 存延迟。该算法由以下步骤组成: 1、计算FQFR和RQRR。 2、如果FQFR大于或等于RQRR,则停止重排序。最小初始缓存延 迟是FQFR和RQRR中的较大的一个。否则,继续下一步。 3、按一帧的步幅将所有主帧向序列开始处移位。例如,如果初始 序列是: I0,P1,P2,B3,P4,B5,P6,B7,P8,B9,P10,..., 移位将序列改变为: I0,P1,P2,P4,B3,P6,B5,P8,B7,P10,B9,..., 其中I0是第一帧。可以看出,在次帧的顺序位于相邻主帧前的地 方,主帧和次帧的位置交换。 4、从步骤1继续。 在降低比特率信道中确保无暂停播放需要的缓存时间对于初始序 列比重排序序列大。希望有短的初始缓存时间。重排序处理使得全速 率信道需要的最小缓存时间和期望降低速率信道需要的最小缓存时间 之间有一个折衷。没有重排序,在全速率信道中提供全质量播放需要 更少的初始缓存时间。但是,没有重排序,在降低速率信道中提供降 低质量播放需要更多的初始缓存时间。 在这个例子中,还研究了安全时间。初始缓存时间在25%次比特率 对于重排序序列的降低质量播放设置为最小值。图12显示了安全时间 是如何随着25排序序列和初始顺序序列变化的。其显示出在播放期间, 25排序序列(由上面的线表示)比初始排序序列有更长的安全时间。 对50%和75%次比特率也得到了结果。在下表中显示了对于所有三 个降低比特率序列中所有主帧的平均安全时间(以秒为单位)。安全时 间以最小安全时间和平均安全时间为特征。 25% 50% 75% 最小 重排序 4.79 2.51 1.06 缺省 3.46 1.63 0.64 不同 1.33 0.88 0.42 平均 重排序 5.90 3.51 2.12 缺省 4.66 2.83 1.84 不同 1.24 0.67 0.28 可以看出重排序序列的最小和平均安全时间都比初始序列的长。 相反的,下面的表格显示了对于不同平均比特率全质量播放以秒 为单位需要的缓存延迟。这是为了最小化播放中的暂停。 25% 50% 75% 重排序 10.04 6.03 3.53 缺省 7.02 4.64 3.02 可以看出,对于全质量播放,因为次帧不是按自然顺序传输并且 需要将所有帧放回自然顺序的时间,所以重排序序列需要更长的缓存 延迟。但是,因为本发明提出提供最小初始缓存延迟的降低质量播放, 所以这一点并不重要。为说明这一点,下表显示了为确保无暂停降低 质量播放需要的缓存延迟: 25% 50% 75% 重排序 5.28 3.49 2.47 缺省 6.91 4.46 2.84 这些结果显示在传输信道比特率降低的地方,发明的方法在播放 能够开始之前需要更短的缓存延迟。 图13说明了本发明的效果,显示了25%比特率(也就是上述的 A+0.25B)的25排序序列的播放。播放时间(也就是帧想要或假设播 放给观众的时间)以直线表示。为了按顺序播放,不需要暂停,每一 帧必须在其播放时间之前被接收。位于播放时间线下面的任何符号表 示在预计播放时间之前接收的帧,而位于播放时间线上面的任何符号 表示在预计播放时间之后接收的帧。在图13的例子中,主帧都及时接 收以便播放,而次帧都接收得太迟了。因此次帧全部丢弃没有播放。 需要理解的是,如果序列没有重新排序,可能一些主帧会在其播 放时间之后到达,并且因此需要暂停播放(因为没有丢弃从主帧预测 的所有帧,主帧不能丢弃)。 图14显示了当信道吞吐量没有降低时如何接收和播放25排序序 列。可以看出所有帧都及时接收以供播放。再次,上面的线表示次帧 接收的时间,而下面的线表示主帧接收的时间。 当然,图13和14的确切外观依赖于初始序列的特性,以及比特 率和执行的重排序。在以不同方式对数据重排序的其他系统中可有不 同。 在使用中,本发明可以在线应用以便为一些将来的点准备传输比 特流。例如,假定给定传输信道的可用带宽有显著变化,可对比特流 应用该算法并且为一些替代带宽,如25%、50和75%计算重排序序列。 在传输中,如果遇到问题,例如出现暂停,当前使用的重排序序列可 以改变为更适合较低可用带宽。同样的,如果传输进行得比预期的好, 则可以使用更适合于较高带宽的序列。本发明检测传输的进展和/或在 传输期间播放许多次并相应地调整序列。如果在传输进行中能够对这 一调整动态编程会很有利。在这种方式下,可以解决间断的问题。 本发明对比特流重排序的部分位于编辑器或服务器中。本发明恢 复排序的部分位于客户端。 如果通过用B-帧替换主帧的一部分来降低属于主帧的比特比例, 则可以提供进一步的改进。这稍微降低了压缩效率,因为B-帧从时间 上离得更远的参考帧(P-帧)中预测,这样B-帧和P-帧相似性更少。 这使得B-帧预测的较差并且因此必须使用更多比特对相应的预测错误 图像编码。因为在这一方案中有更多比特属于可以丢弃的次帧,对帧 重排序可以提供针对传输延迟和暂停的更好的保护。 看待本发明的一种方式是可以说其是牺牲次帧的安全时间以维持 主帧的最大安全时间。 本发明尤其适合于流类型多媒体检索。 虽然显示和描述了本发明的优选实施方案,但应当理解,这些实 施方案只是通过例子说明。例如,虽然本发明已经描述应用于临时可 伸缩比特流,但其也可以用于包括空间、频谱和SNR的其它类型的可 伸缩性。在不违背本发明范围的情况下,本领域的技术人员可以对其 做出各种变化、修改和替代。因此,下面的权利要求覆盖在本发明的 精神和范围内的所有这些变化。