背景 在电信会议、实况会晤或其它视频显示应用中,在诸如实况背景代换、摇摄 全景/俯仰拍摄/变焦、目标插入等诸多应用中,从视频实时分离出前景层是有用的。 实时分离前景层要求层分离接近计算机图形质量,包括如在视频抠图中的透明度确 定,但又要有足以达到实况流动速度计算效率。 概述 下面提供本公开内容的简要概述,让读者有个基本理解。此概述不全面评述 公开内容,也不标识本发明的关键性/决定性要素或者界定发明范围。其唯一目的 是以简化形式提供本文揭示的一些概念,作为后面更详细描述的开场白。 一种可基于包括运动、色彩、对比度等在内的一个或多个因素的分割过程可 提供对常规单目视频率列中前景层与背景层的实时分割。单从色彩/对比度或单从 运动自动分离诸层可能会包含差错。为减少分割差错,色彩、运动、以及可任选地 还有对比度信息可被概率性地融合以准确而高效率地推断前景层和/或背景层。以 此方式,不需要像素速度。因而,消除了与光流估计有关的若干问题。取而代之的 是,可从训练数据自动学习运动相对于非运动的似然性,再将其与对比度敏感的色 彩模型融合。然后,可通过诸如图割(Graph Cut)等优化算法来高效率地解决分 割问题。如本文所使用的,优化可包括对一个或多个可任选的结果记分,并选择得 分超过某一阈值或者是多个得分中最佳得分的可任选结果。例如,优化可包括选择 具有最高得分的那个可任选结果。在有些场合,对可任选结果的记分可以包括考虑 具有最小能量的那个可任选结果。 如以下在实况背景代换应用中描述地演示了前景/背景分离的准确度,并示出 其给出了质量令人信服的合成视频输出。但是应当认识到,图像中前景与背景的分 割可具有各种应用和用途。 通过结合附图参考下面的具体说明能更好地理解诸多附带的特征,因而将更 易于常识其优越性。 附图说明 在附图的启发下阅读以下具体说明将可更好地理解本说明,其中: 图1示出用于实现基于单目的图像处理系统的示例系统; 图2示出图像处理系统的示例性简图; 图3示出用于训练运动似然性的训练数据序列中的两个例帧以及相应地人工 获取的分割蒙片; 图4示出训练前景二维微分点和训练背景微分点的示例曲线图; 图5示出训练前景与背景微分点的示例曲线图; 图6示出一示例测试序列和各像素相应的运动似然性; 图7示出一示例输入图像序列; 图8示出图7的图像序列的前景分割; 图9示出使用图8的图像序列的前景分割的背景代换; 图10示出在联机聊天应用中背景代换的一示例帧显示;以及 图11示出一示例图像处理方法。 具体说明 以下结合附图给出的具体说明旨在描述本发明的示例,而并不表示可构建或 利用本发明的示例的唯一形式。本说明阐述了示例的功能以及构建和操作该示例的 一系列步骤。但是,可用不同的示例来实现同样或同等的功能和序列。 虽然这里把本发明的示例描述和图示为在分割系统中实现,但是所描述的系 统只作为示例而非限定。如本领域的技术人员将可认识到的,本发明诸示例适用于 在各种不同类型的图像处理系统中应用。 图1和以下讨论旨在提供对适宜实现将图像的前景区从背景区分割出来的一 种图像处理系统的计算环境的简要的、一般化的描述。图1的操作环境仅是适宜的 操作环境的一个例子,而并非试图对操作环境的使用范围或功能集提出任何限定。 适合随这里所描述的基于单目的图像处理系统一起使用的其它公知的计算系统、环 境和/或配置包括但不限于:个人计算机、服务器计算机、手持式或膝上型设备、 多处理器系统、基于微处理器的系统、可编程消费者电子设备、网络个人计算机、 小型计算机、大型计算机、包括以上各种系统或设备中的任何系统或设备的分布式 计算环境等。 虽非必要,但将在由一台或多台计算机或其它设备执行的诸如程序模块等的 计算机可执行指令的一般化背景中描述该图像处理系统。通常,程序模块包括执行 特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等。一般 可以按照各种环境中的需要来组合或分布这些程序模块的功能集。 参照图1,用于实现该图像处理系统的示例性系统包括诸如计算设备100的计 算设备。在其最基本的配置中,计算设备100一般包括至少一个处理单元102和存 储器104。根据计算设备的确切与类型,存储器104可以是易失性(如RAM)、 非易失性(如RDM、闪存等)、或这二者的某种组合。图1中以虚线106示出了 这种最基本的配置。另外,设备100还可具有其它特征和/或功能集,比如设备100 还可包括附加的存储(例如,可移动和/或不可移动的),包括但不限于磁盘或磁 带或是光盘或光带。这种附加存储在图1中由可移动存储108和不可移动存储110 示出。计算机存储介质包括以任何方法或技术实现的用于存储诸如计算机可读指 令、数据结构、程序模块或其它数据等的信息的易失性与非易失性、可移动与不可 移动介质。存储器104、可移动存储108和不可移动存储110全是计算机存储介质 的示例。计算机存储介质包括但不限于:RAM、ROM、EEPROM、闪存或其它存 储器技术,CD-ROM、数字多用途盘(DVD)或其它光学存储设备,磁带盒、磁 带、磁盘存储或其它磁存储设备,或者能用于存储所需信息并可被设备100访问的 任何其它介质。任何这样的计算机存储介质都可以是设备100的一部分。 设备100还可包含让设备100能与其它设备,诸如通过网络120与另一计算 设备通信的通信连接112。通信连接112是通信介质的示例。通过介质通常具体表 现计算机可读指令、数据结构、程序模块或诸如载波等已调制数据信号或其它传输 机制中的其它数据,且包括任何信息投放介质。术语“已调制数据信号”表示其特 征中的一个或多个被以在该信号中编码信息的方式设置或改变的信号。举例来说但 不作限定,通信介质包括:诸如有线网或直接布线连接等的有线介质,诸如声波、 射频、红外等的无线介质及其它无线介质。这里使用的术语“计算机可读介质”包 括存储介质与通信介质二者。 本领域的技术人员将会认识到,用于存储程序指令的存储设备跨网络分布。 比如远程计算机可以存储被描述为软件的过程的一个示例,本地或终端计算机可访 问该远程计算机并下载软件的部分或全部以运行该程序。替换地,本地计算机可视 需要下载软件的片段,或通过在本地终端处执行一些软件指令并在远程计算机(或 计算机网)上执行一些软件指令来进行分布式处理。本领域的技术人员还将意识到, 通过运用他们已知的常规技术,可用诸如DSP、可编程逻辑阵列等专用电路来执 行软件指令的全部或部分。 设备100还具有输入设备114,诸如键盘、鼠标、笔、语音输入设备、触模输 入设备、激光测距仪、红外相机、视频输入设备、和/或任何其它输入设备。还可 包括输入设备116,诸如一个或多个显示器、扬声器、打印机、和/或任何其它输出 设备。 数码摄像机在消费者与专业环境内都有用。通常,数码摄像机捕获一系列数 字图像,然后把它们传给计算设备作显示或处理,或者传到存储设备供存储。一示 例在视频会议应用中采用数码摄像机。在典型的视频会议中,描绘与会者的图像序 列被传送给一个或多个其它与会者。同时,描绘其它与会者的图像序列被传送给第 一与会者的显示设备。这样,每位与会者在会议期间都能观看到其它与会者的视频。 图2示出一典型的视频电信会议环境200,其中单台摄像机202聚焦于与会者 204,他在自己的显示设备206中的视频显示帧里观看到其它与会者。摄像机202 通常搭载在计算设备的显示器206上或其附近,其具有宽视野以试图将与会者保持 在摄像机的视野内成帧。然而宽视野还捕捉到该场景的背景208。应当认识到,可 根据情况使用替换摄像机与显示设置,诸如替换的位置、取向、摄像机数目、与会 人数等。 业已证明交互式的基于色彩/对比度的分割技术在分割单帧静态图像中的前景 与背景上是有效的。由于只基于色彩/对比度的分割法在定义前景与背景区域时需 要人工操纵,因而色彩/对比度分割法超出了全自动方法的能力。 为了准确和/或高效率地(例如自动地)分割前景层以使其能被实时应用于视频 图像,利用各种线索的融合的稳健方法可被采用。例如,可实现运动与色彩和对比 度以及层内空间相干先验的融合来分割图像视频流中的前景信息。通过融合立体、 色彩与对比度,用立体成像技术可实现在约10fps(帧每秒)下的前景/背景分离。 用常规单目摄像机可达到类似的分割准确度,甚至速度更高。 在一替换示例中,无论是否与色彩和/或对比度融合,立体似然性都可用运动 似然性来增补。立体似然性在2005年6月加利福尼亚州圣地亚哥的Computer Vision Pattern Recognition(计算机视觉模式识别)会议学报中V.Kolmogorov等的“Bi-layer segmentation of binocular stereo video(双目立体时频的双层分割)”中以及在2005 年8月2日提交的题为STEREO-BASED SEGMENTATION(基于立体的分割)的 美国专利申请No.11/195027中描述,这些文献通过援引纳入于此。尤其是,在立 体图像处理系统中,可类似地将运动与立体似然性以及可任选地与色彩和/或对比 度似然性融合。 在以前的技术中,像素速度例如运动一般通过应用光流算法来估计。为作分 割,可根据预定义的运动模型把光流分成若干区域。然而,光流的求解通常是欠约 束问题,因而可添加数个“平滑度”约束来规整该解。不巧的是,规整技术会沿对 象边界产生不准确性。在分割情形中,不希望有诸如边界不准确性等的残余效应, 因为它们会产生不正确的前景/背景过渡。为减少规整技术的残余效应,不是计算 全速度,而是可通过似然比测试将运动与非运动事件区分开来。然后可将从训练例 学习到的运动似然性函数与色彩/对比度似然性以及空间先验概率地融合以实现更 准确的分割。另外,减轻全速度计算要求在算法效率意义上是便利的。 图2示出一自动分离图像序列中的前景与背景的示例图像处理系统。该示例 图像处理系统使用概率模型以及可被用作图像分割的基础的能量最小化技术。准确 提取的前景可与不同的静态或运动的背景基本无混叠地合成,这在视频会议应用中 将是有用的。 在图2的示例中,输入图像210为单目的,即接受来自单个单目视频输入设 备202的图像。然而,应认识到,输入图像也可以是立体的,而且可与下面式(1) 的能量函数中的立体似然性融合。 可将来自视频输入设备202的输入图像输入到强度索引器212,后者可根据像 素各自的强度来索引多个来自该图像的像素。来自输入图像的适当数量的像素可被 索引。例如可以索引整幅图像,可索引输入图像的一部分,诸如一条或多条扫描线、 立体系统里的对极线等。如图2所示,强度索引器212可输出输入图像像素的强度 值214。强度值可以任何合适的方式并以任何合适的格式存储,以数据阵列形式存 储在数据存储中。 数据存储可包括关系型数据库、面向对象数据库、非结构化数据库、内存中 数据库、顺序存储器、或其它数据存储中的一个或多个。存储阵列是数据存储的一 种形式,并可使用诸如ASCII文本的平面文件系统、二进制文件、跨通信网络传 送的数据、或任何其它文件系统来构建。虽然前述或任何其它数据存储设备有这些 可能的实现,但是这里使用的术语“数据存储设备与存储阵列”是指以任何可为计 算设备访问的方式收集和存储的任何数据。 参见图2,给定一图像输入序列,时刻t的输入图像帧210可在RGB色彩空 间内被表示为N个像素的阵列z。该阵列或被索引的N个像素可被指示为由单个 索引n来索引的z=(z1,z2,…zn,…,zN)。经索引的像素z可被输入到分割模块216, 以将前景从背景中分割出来。为分割输入图像的像素,可基于来自运动模型230、 色彩模型232和可任选的对比度模型234的输入将各像素定义为前景或背景。例如, 可由分割模块216用一个或多个分割指示符218将输入图像里的多个像素标记为前 景或背景,每个分割指示符与输入图像的一个或多个像素相关联。 图像帧210的分割可被表达为相应的阵列或多个不透明度或分割状态值α= (α1,α2,…,αn,…,αN)(图2中示为分割指示符218),其中αn的值可指示与分割指 示符关联的像素的分割层。分割指示符可以用任何合适的格式与方式存储,诸如存 储在数据存储中。 分割可以是硬分割(即,像素可或被分类成前景或被分类成背景)。前景与背景 分割指示符或标记可具有任何合适的值,诸如二进制值、文本标记、整数值、实数 值等。在一个示例中,像素n的分割指示符αn可为或0或1的集合。在一个示例 中,0值可指示背景,1值可以是前景。在一些情形中,可使用空和/或负值来指示 层的特定分割状态。在另一示例中,前景分割指示符可以是“F”串,而背景分割 指示符可以是“B”串。应认识到,可使用其它标记、值、标记编号等。分数的不 透明度或分割指示符值是可能的,并且可以指示相关像素的未知或可能状态。分数 不透明度(即α)可使用任何合适的技术来计算,诸如应用以下进一步讨论的SPS的 α抠图技术、如在Rother等的“GrabCut:Interactive foreground extraction using iterated graph cuts(GrabCut:使用迭代图割的交互式前景提取)”,ACMGraph.(图形) 会刊第23卷,2004年第3期,第309-314页中进一步描述的边界抠图等,这些文献 被援引纳入于此。 图2的分割模块216能以任何合适的方式将输入图像中的像素标识为前景或 背景。例如,可将基于运动的分割与色彩分割以及可任选地与对比度分割相融合。 不是纯粹将单由运动分割得出的图像与由色彩和/或对比度分割得出的图像融合, 确切而言,该分割模块利用运动模型230、色彩模型232以及可任选地利用对比度 模型234来虑及运动及色彩以及可任选地还有对比度。 为确定输入图像210的分割指示符218,分割模块216可接收至少一个要分成 前景和背景部分的输入图像210。图像210可以被表示为像素值阵列214,它可以 是在RGB色彩空间中,如由图像索引器212确定的那样。分割模块216可为输入 图像210中的多个像素里使能量函数最小化的每一个像素确定一分割指示符。该能 量函数可包括运动模型230、色彩模型232以及可任选地还包括对比度模型234。 能量函数的最小化可以用任何合适的方式实现,诸如像以上引述的由Boykov等描 述的那样通过二进制标记上的图割来实现。能量函数包括一个或多个元素,其中包 括运动似然性、色彩似然性以及可任选地还包括对比度似然性。运动似然性可使用 从运动初始化模块生成的运动参数、输入图像的像素值、输入图像中的多个像素中 的每一像素的时间微分,以及输入图像的多个像素中的每一像素的空间梯度。对比 度似然性可使用输入图像的像素值。色彩似然性项可使用从色彩初始化模块生成的 色彩参数、在前图像的像素值,以及由运动似然性以及可任选地由对比度似然性初 始确定与在前图像的像素关联的的估算的分割指示符。 为确定运动模型230的运动参数,可将一组一个或多个训练图像250输入到 人工图像处理模块252,在此用户可人工或交互地定义训练图像的前景与背景部 分。人工图像处理模块可使用任何合适技术来定义训练图像中诸像素的前景与背景 标记,诸如Boykov等的“Interactive graph cuts for optimal boundary and region segmentation of objects in N-D images(用于在N-D图像中实现对象的最优边界和区 域分割的交互式图割)”Computer Vision(计算机视觉)国际会议学报,2001、以 及Rother等的“Interactive foreground extraction Using iterated graph cuts(使用迭代 图割的交互式前景提取)”ACM Graph.(图形)会刊,第23卷,2004年第3期, 第309-314页的技术,两文献被援引纳入于此。人工图像处理模块可输出多个训练 分割指示符254,每个分割指示符与训练图像中的一个像素关联。分割指示符指示 训练图像中关联的像素是前景还是背景。训练图像的诸像素的分割指示符可按任何 合适的方式并以任何合适的格式存储,诸如采取可存储在数据存储中的数据阵列形 式。 运动初始化模块256可接收训练图像像素的分割指示符254,并确定运动相对 于非运动事件似然比的运动参数值。下面进一步讨论的这些运动参数值可使训练数 据的标记的分类差错最小化。例如,可使用期望最大化来使高斯混合模型与被标记 的训练图像中像素的时间和空间梯度的前景分布相拟合。另一个高斯混合物模型可 与被标记的训练图像中像素的时间和空间梯度的背景分布相拟合。更具体地说,可 对训练图像中的多个像素确定时间和空间梯度并使之与这些像素相关联,并且高斯 函数拟合训练图像中这多个像素的每个时间和空间梯度对,这多个像素可从人工分 割的训练图像汇集。这样,运动初始化模块256可输出运动参数258,这些参数可 以用任何合适的方式和格式存储,诸如存储在数据存储中。分割模块216可在运动 模型230中使用运动参数258以确定运动似然性。 色彩似然性初始化模块260可以用任何合适的方式在色彩色模型232中确定 色彩似然性算法的参数,例如,色彩似然性初始化模块可应用以上引述并将在下文 细述的Rother等所描述的技术。更具体地说,在输入图像210要被分割之前,可 将高斯混合模型拟合到一个或多个先前已分割的图像帧。可利用期望最大化来将高 斯混合模型拟合到前一幅或几幅先前图像的前景像素和相关联的分割指示符,并且 可利用期望最大化来将高斯混合模型拟合到这一幅或几幅先前图像的背景像素和 相关联的分割指示符。这样,色彩初始化模块260可输出色彩参数262,这些参数 可以用任何合适的方式以及用任何合适的格式存储,诸如存储在数据存储中,并由 分割模块216在色彩模型232中使用以确定色彩似然性。 可任选的对比度模型234会影响空间先验,这会迫使得到的分割值跟随或考 虑由色彩对比度值定义的自然对象轮廓。空间平滑度项可以用任何合适的方式来确 定。具体而言,对比度模型可如在以下进一步讨论地接收输入图像的像素值并提供 对比度项。 图像处理器220可使用来自分割模块216的分割指示符218(例如,前景、背 景的标记)及其在输入图像210中相关联的像素,基于分割指示符218修改和/或处 理输入图像210以产生输出图像222。例如,图像处理器可提取前景像素中的至少 一部分,并把它们与替换背景图像合成起来,该背景图像可以是替换景像、单色、 来自诸如电子表格或演示应用等应用的被显示对象。在另一例中,背景像素的至少 一部分可被替换背景图像置换。背景图像可以是任何适宜的图像,诸如替换场所的 场景(例如海滩)、来自诸如幻灯片演示等应用的输入等。在另一例中,能以与前景 像素不同的保真度压缩与指示背景分割的分割状态值关联的像素的至少一部分。这 样,图像压缩对前景像素保持高保真度,而对背景像素部分保持较低保真度。在再 一例中,可将背景像素与前景像素分离并将其单独地传给接收者,诸如在电信会议 应用中就是如此。电信会议视频流的后续各帧可只将前景像素发送给接收者,这些 前景像素可与替换背景图像或存储的来自上次传输的背景像素相组合。在另一例 中,动态表情图标(emoticon)可与图像的前景对象交互。如在被援引包含于此的 2005年2月25日提交的美国专利申请S/N.11/066946中详述的那样,动态表情图 标可绕前景对象环行。在另一例中,可用图像中被标识的前景像素来定制围绕处理 图像的前景像素的框的大小和/或放置(例如,智能加框(smart-framing)),还可限 制背景像素的显示。在另一例中,可用输入图像中被标识的前景像素来定制围绕输 入图像的前景像素的框的大小和/或位置(例如,智能加框),还可限制背景像素的显 示。应当认识到,图像处理器可以用任何合适的方式利用经分割的像素来处理或修 改显示或存储的图像,而以上的图像处理描述仅作为示例,并非是限制。 通过能量最小化实现的分割 类似于Boykov等的“Interactive graph cuts for optimal boundary and region segmentation of objects in N-D images(用于在N-D图像中实现对象的最优边界和区 域分割的交互式图割)”Computer Vision(计算机视觉)国际会议学报,2001和 Rother等的“Interactive foreground extraction Using iterated graph cuts(使用迭代图 割的交互式前景提取)”ACM Graph(图形)会刊,第23卷第3期,2004年第309-314 页,一幅或多幅输入图像的分割问题可被投射成能量最小化任务。要由图2的分割 模块216最小化的能量函数E可由数据项与平滑度项之和给出。例如,能量函数E 可由运动似然性与色彩似然性之和给出,有时还加上空间相干性(或对比度平滑度) 似然性,并可被表示为 其中V()是基于对比度的空间平滑度项,UC是色彩似然性,UM为运动似然性,所 有这些将在下面进一步描述。 用式(1)定义了能量,就可诸如通过运用: 来估计该能量函数的全局最小值,从而可确定诸输入图像像素的最优化或充分优化 的分割指示符α。 能量的最小化可通过诸如在以引述的Boykov等的文献中进一步描述的二进 制标记上的图割等的任何合适的优化法高效率地完成。如下进一步描述的,色彩参 数和θ的最优值可通过诸如期望最大化来从视频系列中在该输入图像前面的已分割 图像学习;运动参数kM和θM可通过诸如期望最大化来从任何合适的已分割训练图 像学习。 Gibbs能量可被定义为图2的分割模块216中所使用的诸因素的概率模型。例 如,分割模块可以考虑运动似然性模型230和色彩似然性模型232。运动似然性模 型230可基于运动参数提供运动似然性函数的模型,色彩似然性模型232可基于色 彩参数提供色彩似然函数的模型。如上所述,分割模块还可包括对比度似然性模型 234。下面几节定义可由模型230、232、234向图2中的分割模块216提供的式(1) 中的各项。 色彩似然性(UC) 图2的色彩似然性模型232可以基于任何合适的色彩似然性模型。例如双层 分割可用高斯混合模型来建模前景与背景里的色彩似然性。为简明起见,这里对针 对色彩的示例性合适的高斯混合模型进行概述,详情可见被援引纳入于此的2004 年6月3日提交的题为Foreground Extraction Using Iterated Graph Cuts(使用迭代 图割的前景提取)的美国专利申请S/N.10/861,771和2005年8月2日提交的题为 Stereo-Based Image Segmentation(基于立体的图像分割)的美国专利No.11/195027。 为清楚起见,以上引述的Rother等的文献中详述的另一个合适的色彩模型在这里 概述。 前景与背景色彩可用两个高斯混合模型(GMM)来建模,一个用于背景,另一 个用于前景。每个GMM有K个具有全协方差的分量(一般K=20)。诸像素对相应 GMM分量的赋值可以用任何合适的方式存储,诸如作为矢量k=(k1,k2,…,kn,…, kN)存储在数据存储中,kn为整数1到K范围的集合的元素。每一GMM分量或属 于前景或属于背景GMM。 色彩似然性可以写为: UC(α,k,θ,z)=∑D(αn,kn,θ,zn) (3) 其中θ包括下面定义的GMM模型的参数,并且其中 D(αn,kn,θ,zn)=-log p(zn|αn,kn;θ)-logTT(TTn;kn),p()为高斯随机分布,π()包括混合加 权系数。因此,函数D可重写为: 其中μ和∑分别是前景和背景分布的2K个高斯分量的平均值与协方差,因而色彩模 型的参数是θ={TT(α,k),μ(α,k),∑(α,k),α={0,1},k=(1,...,K}}。 上述对应于色彩似然性的式(3)只包括全局色彩模型,而不包含逐像素模型。 然而,应当认识到,作为全局色彩模型的补充或替代,可实现逐像素模型。在2005 年8月2日提交的题为Stereo-Based Segmentation(基于立体的分割)的美国专利 申请No.11/195027中详述的色彩似然性将是合适的,这里为清楚起见作一简述。 例如,利用高斯混合模型,前景色彩模型p(z|x+F)是由前景像素初始化或从其学习 到的空间全局高斯混合。在背景中,存在类似初始化或学习到的高斯混合p(z|x+B)。 背景模型还可包括凡在稳定性标志指示已在足够数目的先前帧上存在静态平衡的 地方总是可用的每像素单一高斯密度pk(zk)。稳定性标志可以用任何特定方式,诸 如用二进制值、文本值、多个指示符等来指示稳定性或不稳定性。这样,组合的色 彩模型可用色彩能量UCk给出,UCk可以表示为: 式中sk是值为0或1的稳定性标志指示符。背景色彩模型示出了全局背景模 型与逐像素背景模型之间的混合,但应认识到,可使用任何合适的背景和/或前景 模型。在有些场合,在背景模型中应用逐像素方法可以允许提取有信息性的信息。 然而,逐像素方法对背景运动敏感,通过增添全局背景分布p(zk|xk+B)作为混合中 的污染分量,可以减小该效应。由于前景主题最可能运动而摄像机不动,所以背景 的大部分不随时间推移而变化。然而,应当认识到,为了简洁或出于其它/任何合 适理由,式(5)中背景部分的逐像素和/或全局部分可被移除。 高斯混合模型可以在色彩空间即红绿蓝(RGB)色彩空间内建模,并可以用任何 合适的方式初始化。色彩空间可以是任何合适的色彩空间,包括红绿蓝(RGB)、 YUV、HSB、CIE Lab、CIE Luv等。高斯混合模型可从视频序列中在要被分割的 输入图像之前的一幅或多幅已分割图像帧学习。注意,与单帧图像的分割不同,在 单目前景背景分割中,可通过期望最大化从在帧t-1的分割估算出对应于帧t的色 彩参数θ与k。再者,可对每个帧t应用单次迭代,尽管应当认识到也可用多次迭代。 在另一例中,高斯的参数可被初始化到一缺省值,诸如所有像素都可被初始 化成背景。不管哪种情况,随着参数估计的改善,色彩似然性在图像分割中的作用 或影响可被提升。例如,在参数值被初始化时,色彩似然性可能被基本上突然地接 通。替换地,诸如使用加权项等可拨入色彩项,以逐步提升其影响。拨入周期可以 是任何合适的周期,可约为几秒钟,或在另一例中可约为100帧。 通过为每个像素混入由逐像素背景维护学习到的概率密度,就可增强背景模 型。在被援引纳入于此Rowe等的“Statistical mosaics for tracking(用于跟踪的统 计镶嵌)”,Image and Vision Computing(图像与视觉计算)第14卷1996年第 549-564页,和Stauffer等的“Adaptive background mixture models for real-time tracking(用于实时跟踪的自适应背景混合模型)”,CVPR学报1999年第246-252 页中进一步讨论了逐像素背景维护。如同高斯参数一样,概率密度可以用任何合适 的方法初始化,诸如通过学习先前已被标记的图像,通过将像素标记设为缺省值来 引导初始化等。 运用高斯混合模型,前景色彩模型p(z|α=1)是初始化或从前景像素学习到的 空间全局高斯混合。在背景中,有类似的初始化或学习到的高斯混合p(z|α=0)。 背景模型还可包括凡在稳定性标志指示已在足够数目的先前帧上存在静态平衡的 地方都可用的每像素单一高斯密度pK(zK)。稳定性标志可以用任何特定方式,诸如 用二进制值、文本值、多个指示符等来指示稳定性或不稳定性。 对比度模型 对比度似然模型诸如图2的对比度似然模型234可以改善分割边界以对准高 图像对比度的轮廓。可使用任何合适的色彩对比度模型,诸如在被援引纳入于此并 为清楚起见在此概述的Boykov等的“Interactive graph cuts for optimal boundary and region segmentation of objects in N-D images(用于在N-D图像中实现对象的最优边 界和区域分割的交互式图割)”Computer Vision(计算机视觉)国际会议学报,2001 中进一步讨论的对比度似然性模型。 如在使用图割的交互前景提取中,对比度模型影响成对能量V,并且基于色 彩对比度的对比度能量V可表示为: 其中索引m与n是输入图像中水平、对角与垂直系的成对像素索引。参数β是对比 度调制常数,可计算为: β=(2<(zm-zn)2>)-1 (7) 其中<>指图像采样上的期望。函数I[αn≠αm]是起二进制开关作用的恒等函数,其 在过渡进入或离开前景状态时起作用。 可任选的强度参数γ可与对比度模型中各项相乘。该强度参数可指示相干先 验与对比度似然性,且可通过实验调整。在有些情形中,可将强度参数γ设为接近 等于10。 可为对比度包括一可任选的稀释常量参数ε。在有些情形中,可为纯色和对比 度分割将稀释常量ε设为零。但在分割不仅基于色彩对比度的许多情形中,可将稀 释常量设为任何合适的值,诸如1。这样,在从例如运动和/或色彩识别增多的各种 各样的分割线索时,对比度的影响可被稀释。 运动的似然性 诸如图2的运动模型230等的运动模型可在图像中运动对象更可能是前景而 不动的对象更可能是背景的假设下改善分割边界。可以任何合适的方式确定可靠运 动似然性的自动评估。例如,可从训练序列中经人工分割的帧自动学习运动相对于 非运动事件的似然比UM(),再将其应用到先前未看见的测试帧来辅助前景/背景分 离。图3示出用于训练运动似然性的训练数据序列的两个示例帧302、304以及相 应的分别交互获得的分割蒙片320、340。在图3的分割蒙片中,白色部分322、342 表示前景,黑色部分324、344表示背景。在有些情形中,灰色区域(指示分数或其 它合适的分割指示符)可表示不确定赋值或分割(可能出现在混合像素的复杂区内)。 可通过将高斯混合模型拟合到已标记的训练图像中像素的时间和空间梯度的 前景与背景分布来估计运动函数似然性UM。具体而言,每个图像帧It中的像素具 有如下表示的关联的时间微分: 空间梯度幅值g可表示为: g=(g1,g2,...,gn,...,gN) (9) 在时刻t各时间微分元可计算为: 其中G()是按σt像素规模的高斯内核。另外,可将空间梯度幅值gn定为: 其中指示空间梯度算子。可通过将图像与标准偏差为σs的高斯内核的一阶微分卷 积来计算空间微分。可应用标准的期望最大化算法将GMM与从训练序列的所有已 被分割的帧汇集起来的所有(gn,)对相拟合。 图4示出在基于图3的训练图像302、304和序列中其它类似训练图像的坐标 图中,示例性的训练前景二维微分点与训练背景微分点。图4的坐标图400具有指 示空间梯度的x轴402和指示时间微分的y轴404。最优化分离曲线(UM=0)被标绘 成黑线406。坐标图400中诸如区域410等的区域指示背景微分点,而诸如区域412 等的区域指示前景微分点。 KMF与KMB分别指前景和背景GMM中高斯分量的数目,因而运动似然性可 以写为: 其中 其中vn是由 定义的2元矢量,并且其中kM指示对运动GMM各高斯 分量的像素赋值,μ和∑是GMM运动模型的KFM+KBM个分量的均值与协方差。最 后,运动参数θM汇集了这些运动GMM的混合权重、均值与协方差参数,并可被 确定为: θM={π(α,kM),μ(α,kM),∑(α,kM),α={0,1}, 在训练标记的一个示例中,训练图像可包括一连串图像序列。例如像图3所 示,该示例性序列图像302、304示出在最静态(虽然有噪)的背景前面走动谈话的 前景人物。图5示出自动学习到的图3的训练图像302、304的对数似然比表面的 三维标绘图500。图5的标绘图500中的轴502指示时间微分,轴504指示空间梯 度,轴506指示学习到的基于运动的对数似然比。在标绘图500中,负值对应于背 景,正值对应于前景,UM=0的轨迹被示为曲线508。如图5所示,大的时间微分 与属于前景的像素的大似然性关联,反之亦然。但图5示例还示明,学习到的分离 曲线与常用的固定时间微分阀值极其不同。通过使训练数据上的分类错误最小化, 就可自动找到优化参数。对于图3的示例训练图像而言,这一过程得出以下值: KMF=1 (15) KMB=3 (16) σs=1.2pix (17) σt=1.2pix. (18) 可以测试学习到的运动似然性。图6分别示出对示例试验序列的三个帧602、 604、606应用似然比测试的示例结果以及运动帧620、640、660中所示的每个像 素相应的运动似然性。输入图像中经历运动的区域被经训练的运动模型检测到,并 被显示为淡灰色区域,诸如区域622、623、642、644、662、664。运动的区域不 同于被经训练的运动模型检测到并被显示在诸如区域626、646、666等的灰色区域 中的不动区域。另鉴于学习到的似然性的本质,诸如区域628、648、668等的无纹 理区域(如本质上模糊的区域)正确地倾向于被赋予中度灰色(对应于UM≈0)。应当 认识到,在图6的示例性基于运动的分割中,运动模型用图3的训练图像302、304 等训练,它们与图6的输入图像602、604、606不同。 图6还示明,单靠运动可能不足以实现准确分割。运动和色彩似然性与Markov 随机场空间先验的融合可以填充剩余的“空洞”,例如无纹理区,并可产生准确的 分割蒙片。例如,可使用图割算法来求解Markov随机场以产生准确的分割蒙片。 在确定了运动似然性、色彩似然性以及可任选地确定了对比度似然性之后, 可用任意合适的方式优化能量(式1中给出)。总能量可用图2的分割模块216优化。 该分割模块可适当地应用任何合适的优化方案。例如,在上例的总能量函数(1)中, 优化总能量函数可使用分层图割,分层图割确定分割状态变量值α为能量函数E的 最小值。 若状态限于前景与背景(即,硬分割),则可使用任何合适的图割算法来求解分 割状态变量α。例如,在硬分割中,可使用图割算法经能量最小化来确定分割。但 若允许分割状态有多个值(如0,1,2,3,…),则可使用α扩展图割来计算最优化的分割 标记。在被援引纳入于此的丹麦哥本哈根2002年的Eccv学报中Kolmogorov等的 “Muti-camera scene reconstraction via graph cuts(经由图割进行的多摄像机场景重 构)”一文中详细讨论了图割的α扩展形式。上述两例涉及分割变量的离散标记, 但若允许分割值反映真实的透明度值(例如,分数值),则可使用α抠图技术,诸如 边界抠图或SPS算法。如上所述,边界抠图在Rother等的“GrabCut:Interactive foreground extracti on Using iterated graph cuts(GrabCut:使用迭代图割的交互式前 景提取)”ACM Graph.(图形)会刊第23卷第3期2004年第309-314页中有详 述。 因人眼对闪烁伪影敏感,故在有些情形中,诸如在分割模块216中,在前景/ 背景分割优化之后可对经优化的分割状态变量值可作平滑。例如,可用任何合适的 方式来平滑分割状态变量值,诸如把SPS用作后处理的α抠图法、如在Rother等的 “GrabCut:Interactive foreground extraction Using iterated graph cuts(GrabCut:使 用迭代图割的交互式前景提取)”,ACM Graph(图形)会刊第23卷第3期2004 年第309-314页中进一步描述的边界抠图法等等。减轻混淆可提供较高程度的视觉 真实感,诸如在背景代换的应用中。可使用任何合适的抗混叠技术,诸如被援引纳 入于此的Rother等的“GrabCut:Interactive foreground extraction Using iterated graph cuts(GrabCut:使用迭代图割的交互式前景提取)”,ACM Graph.(图形)会 刊第23卷第3期2004年第309-314页中进一步描述的边界抠图技术等。 在优化和可任选的平滑后,可用任何合适的方式将每个确定的分割状态变量 值与其输入图像中相关联的像素关联起来。例如,可将分割状态变量值218存储成 阵列,其中该值在阵列中的位置指示相关联的输入图像中关联联的像素。在另一例 中,图像中的多个像素位置可与一分割状态变量值相关联,诸如具有单一标记的成 群毗邻像素。 在由诸如图2的图像处理器220进行的图像处理期间,图像中已被标记的像 素可允许图像前景与图像背景分开。例如,图7-9示出来自视频流表示背景置换 的一系列图像。图7示出一系列示例性输入图像702、704、706、708、710,这些 图像显示一女士在办公室环境里。图8在前景帧802、804、806、808、810中示出 图7输入图像经前景分割的像素。图9示出图7输入图像中被标识为背景像素的像 素的示例性背景置换,或图8图像中提取的前景像素在另一背景图像上的置换。更 具体地说,在图9中,图8的图像被提取的前景已分别与图像帧902、904、906、 908、910中的不同背景合成,新背景是户外场景。因提取的前景基本上无混叠, 故与代换的背景合成的结果具有高度视觉真实感。 图10示出背景代换的另一个示例。在该例中,上述分割处理已被集成在具有 图10显示框架1000的基于台式的视频聊天应用中。原始的办公室背景被户外背景 代换(即图像1002中的海滩与图像1004中的海港),这两个人仿似在其它地方。同 样,前景/背景分割中无残余效应,使得用背景代换可得到基本可信的图像。 通过运用上述的能量最小化处理,可获得前景/背景分离与背景代换。图11 示出分割图像的示例方法1100。在1102可接收一组一幅或多幅训练图像。训练图 像可以是任何合适的训练图像,诸如类似于在分割应用中预测的图像类似的图像 (例如电信会议应用中人的头和肩)、分割应用中前几秒钟的视频等。在1104,可通 过诸如把训练图像的一个或多个像素标记为前景或背景来人工分割来自一幅或多 幅训练图像的多个像素。与训练图像的诸像素关联的分割指示符可用任何合适的方 式确定,诸如通过人工标记像素,或用半人工处理,诸如以上引述的Boykov等和 Rother等讨论的方法。在1106,可以用任何合适的方法和任何合适的格式存储训 练图像像素的分割指示符,诸如以可存储在数据存储中的数据阵列的形式存储。 在1108,可基于训练图像与后续训练图像的比较来确定像素运动,并基于像 素确定的分割指示符来确定运动参数值。运动参数可以用任何合适的方法确定,诸 如通过使高斯混合模型拟合到已被标记的训练图像中的像素的时间和空间梯度的 前景分布,以及通过使另一高斯混合模型集合到已被标记的训练图像中的像素的时 间和空间梯度的背景分布。在1110,可以用任何合适的方式存储运动模型参数, 诸如存储在数据存储中。 在1112,可接收一系列输入图像中的第一图像。该图像序列可以用任何方式 接收,诸如从视频摄像机输入设备接收。不过应当认识到,可使用任意数目的摄像 机。可通过从数据存储检索存储的图像来接收图像、可从通信连接接收图像、可从 输入设备接收图像,等等。应当认识到,可以按不同的格式、在不同时间和/或通 过不同的通信模式来接收图像。在1114,诸如可用诸如图2的强度索引器212来 索引第一输入图像中的多个像素。在1116,可接受输入图像序列的第二图像。在 1118,可用诸如图2中的强度索引器212等来索引第二输入图像中的多个像素。 在1120,可由诸如分割模块216基于图2的对比度模型234确定对比度似然 性。在1122,可确定第二图像中的运动区域。例如,可将第二图像的经索引像素 与第一图像的经索引像素作比较。在1124,可由诸如分割模块216基于图2的运 动模型230基于时间历史确定运动似然性。在1126可运用该运动似然性以及可任 选地运用对比度似然性来大致地确定与第二输入图像中一个或多个像素关联的分 割指示符。更具体地说,分割模块可使用运动似然性以及可任选地使用对比度似然 性来形成合适的能量函数,该函数可被优化以对第二输入图像的一个或多个像素确 定合适的一组分割指示符。在1128,合适的分割指示符可被存储,并与第二图像 的恰当像素相关联。 可使用第二输入图像的经索引像素及其相关联的分割指示符来训练色彩模型 以确定色彩参数。例如,色彩初始化模块可以使用第二图像的分割指示符与像素值, 以运用期望最大化来使高斯混合模型拟合到大致被标识的前景像素,和/或可运用 期望最大化使另一高斯混合模型拟合到大致被标识的背景像素。在1130,根据初 始化的色彩参数来确定色彩似然性。 下一(当前)输入图像可在1132以任何合适的方式被接收,并可在1134被索引。 在1136,可确定下一(当前)输入图像的对比度似然性。在1138,可确定下一(当前) 图像中的运动区域。例如,可将下一(当前)图像的经索引的像素与前一图像的经索 引的像素作比较。在1140,根据前一帧的分割,可确定基于时间历史的下一(当前) 图像的运动似然性。在图像序列里例如5秒钟没有或很少有运动的一些情形中,运 动似然性值会丧失可靠性。因而在一些情形中,若有预定时间检测不出运动,就要 调整运动似然性的权重。为使用下一(当前)图像的运动似然性、前一图像的色彩似 然性以及可任选地使用下一(当前)图像的对比度似然性,可在1142确定与下一(当 前)输入图像中的一个或多个像素相关联的分割指示符。更具体地说,分割模块可 使用运动似然性、色彩似然性以及可任选地使用对比度似然性来形成一能量函数, 该函数可被优化以对下一(当前)输入图像的一个或多个像素确定一组分割指示符。 在1144这些分割指示符可被存储,并可与下一(当前)图像的适当像素相关联。 在1146,可使用下一(当前)输入图像的经索引的像素及其关联的分割指示符 来训练色彩模型,以确定下一(当前)图像的色彩似然性。过程可返回以在1132对 各后续的要被分割的输入图像接收下一输入图像。各后续输入图像可使用当前输入 图像的运动似然性、前一输入图像的色彩似然性、以及可任选地使用当前输入图像 的对比度似然性来分割。如上所述,诸如可通过应用其值随时间或响应于初始化的 色彩似然性的置信度的变化而改变的加权项来拨入色彩似然性。 在1148,可由诸如图2的图像处理器220处理输入图像及其相关联的分割指 示符以用某种方式来修改输入图像。例如,指示前景像素的分割指示符可用来从输 入图像中提取前景对象、以比其它像素更高的保真度存储或压缩相关联的前景像 素、使动态表情图标移到被标识的前景对象的前面与后面同时保持在背景对象的前 面、围绕被标识的前景对象放置或定位智能框架等。 虽已示例描述了本发明的优选实施例,但显然可在其中作出各种变化而不会 脱离本发明的精神与范围。例如,虽然以上诸示例描述了分割单目图像数据,但应 认识到,可用类似方式分割立体图像数据。另外,在有立体信息的一些情形中,可 将运动、色彩以及可任选地将对比度似然性与从该立体信息确定的不一致似然性和 匹配似然性融合。上述运动和色彩似然性以及可任选的对比度似然性的融合足以允 许在实时应用和视频流中基本无混叠地进行分割。为在图像数据中分割前景与背景 区域,可融合Markov随机场能量最小化构架内用于视频流双层分割的运动与色彩 /对比度线索。此外,可不作显式的速度运算就检测图像序列里的运动事件。运动 与色彩以及可任选地与对比度的结合得到具有实时性能的准确前景/背景分离。