图像数据的分割 发明领域 [0001] 本发明涉及用于处理图像数据的方法、系统和计算机程序产品。 [0002] 发明背景 [0003] 诸如3D电视那样的三维观看设备的供应正在增加。这样的设备往往总地属于两种类别之一。 第一类别是立体视觉(sterioscopic)设备类别,其允许用户通过戴上专门的眼镜而感知三维图像。 用户所戴的眼镜保证每个眼睛看到不同的图像,它们是视点间隔很短距离的情况下的相同场景的稍微不同的视图,该短距离模仿用户的眼睛间隔开的距离。用户的大脑处理这两个图像,以创建三维图像。 第二类别显示设备包括自动立体视觉显示设备,其在用户不必戴任何专门的眼镜的情况下产生三维效果。 这些设备通过从显示器投射多个视图而工作,这再次保证了用户的每个眼睛看见不同的图像。 可以达到这一点的一个方式是令透镜光学阵列覆盖在传统的显示设备上,以便产生图像的多个视图。 [0004] 供自动立体视觉显示设备使用的内容的可提供性,对于它的市场接受程度来说是重要的。 为了让自动立体视觉显示设备产生满意的视频输出,对于视频中的每一帧,需要能得到深度图(depth map)。 深度图和原始帧被使用来生成自动立体视觉显示器所需要的多个视图。 因为视频序列每秒包括许多帧,例如,PAL方案具有每秒25帧的帧速率,所以为图像序列产生所需要的深度图并不是微不足道的任务。 [0005] 高质量的3D视频的可提供性对于3D电视的成功是重要的。 现在,多个不同的公司正在研究三维视频捕获以及通过加上深度而把现有的或新获得的2D视频转换到 3D视频。熟知的转换方法是经由图形编辑器通过使用人工输入在关键帧上指定深度,然后,在视频镜头(典型地几秒)的持续时间内自动传播这个深度信息。 自动传播可快速地完成,但(使用编辑器)人工地在关键帧上指定深度仍旧较慢(用户典型地画出为其规定深度分布的多边形),并因而是费时的。 [0006] 在关键帧上指定深度,当前常常是使用普通的图形编辑器来完成的。 极常见的是只使用多边形画图工具来选择对其指定恒定深度或深度分布的区域。 由于用户必须使用鼠标来把光标放置在对象轮廓附近,所以这个过程是缓慢的。 典型地,需要许多次鼠标点击来使曲线精确地对齐对象。 [0007] 在图像处理的另一个领域中,提出了自动分割来辅助选择,“Understanding Synthetic Aperture Radar Images”,C.Oliver,S.Quegan,Artech-House,1998。 这种选择方法可被使用来把图像划分成方形区域,然后通过使用区域拟合来使区域边缘自动对齐对象边界。 这个技术非常类似于在“Pattern Classification”,Richard O.Duda,Peter E.Hart和David G.Stork,John Wiley和Sons,Inc.,New York,2001中所显示的数据的聚类,但不同之处在于,它在全局最佳化准则中并入了边界规则性。 这使得更容易避免由于噪声而造成的不规则边缘。 [0008] 用光标选择区域,然后给区域指定深度是一种明显的方式,其中自动生成的分割可以帮助产生深度图。然而,在分割时选择区域的数目是困难的。 为了避免漏掉重要的轮廓,需要许多小的区域。另一方面,大的区域允许更快速的深度指定。 由于选择最好的可能的分割依然是一个问题,所以仍旧广泛地使用选择的人工分界。 发明概要 [0009] 本发明的目的是对已知的技术加以改进,以及改进选择过程。 [0010] 按照本发明的第一方面,提供了一种处理图像数据的方法,包括:使用第一准则和第一参数而对图像数据进行分割,以创建图像数据的第一已分割视图;使用第一准则或第二准则和第二参数而对图像数据进行分割,以创建图像数据的第二已分割视图; 显示图像数据的第一已分割视图;接收一个或多个选择用户输入,用来选择如在第一已分割视图中显示的该图像数据的一个或多个分段(segment);显示图像数据的第二已分割视图;以及接收一个或多个另外的选择用户输入,用来选择如在第二已分割视图中显示的该图像数据的一个或多个分段。 [0011] 按照本发明的第二方面,提供了一种用于处理图像数据的系统,包括:处理器,被安排来使用第一准则和第一参数而对图像数据进行分割,以创建图像数据的第一已分割视图,和使用第一准则或第二准则和第二参数而对图像数据进行分割,以创建图像数据的第二已分割视图;显示设备,被安排来显示图像数据的第一和第二已分割视图;以及用户接口,被安排来接收一个或多个选择用户输入,用来选择如在第一已分割视图中显示的该图像数据的一个或多个分段,和接收一个或多个另外的选择用户输入,用来选择如在第二已分割视图中显示的该图像数据的一个或多个分段。 [0012] 按照本发明的第三方面,提供了一种在计算机可读介质上的、用于处理图像数据的计算机程序产品,该产品包括指令用于:通过使用第一准则和第一参数而对图像数据进行分割,以创建图像数据的第一已分割视图;通过使用第一准则或第二准则和第二参数而对图像数据进行分割,以创建图像数据的第二已分割视图;显示图像数据的第一已分割视图;接收一个或多个选择用户输入,用来选择如在第一已分割视图中显示的该图像数据的一个或多个分段;显示图像数据的第二已分割视图;以及接收一个或多个另外的选择用户输入,用来选择如在第二已分割视图中显示的该图像数据的一个或多个分段。 [0013] 由于本发明,有可能提供一种可被使用来(诸如从视频帧或静止图像中)选择图像数据的已分割区域的工具。 该方法和系统通过给出在不同的区域合并级别上的多个分割而对用户提供帮助。 虽然本发明可以基于两个预定的合并级别而结合两个已分割视图被使用,但优选地,用户可以交互地调节合并级别,以防止单个区域包含不同的对象。 本发明可用于的应用的类型包括使用单视场(monoscopic)的(2D)视频作为输入的、3D视频的半自动产生,以及使用2D静止图像的3D静止图像的生成。 另外,本发明也可以被使用来为用于交互(基于像素的)图像处理的普通图像编辑软件提供选择工具。 本发明有效地提供了一种从那里选择最适合特定选择的分割的方式,而不是试图以对于选择的最佳方式对图像进行分割。 [0014] 优选地,所述方法还包括组合来自第一已分割视图的一个或多个选择的分段与来自第二已分割视图的一个或多个选择的分段。 基本的思想是,允许用户首先基于第一已分割视图选择要被添加到所述选择中的、或要从所述选择中减去的分段。 例如,通过左点击分段而把它加到选择中,通过右点击而把它从选择中移除。 [0015] 随后,这个选择可以通过基于第二已分割视图把分段添加到所述选择中、或从所述选择中减去而被修改。 例如,通过左点击分段而把它加到选择中,通过右点击而把它从选择中移除。 最终得到的选择的选择边界可以与来自第一已分割视图的部分或全部分段边界以及第二已分割视图的部分或全部分段边界一致。 [0016] 优选地,所述过程还包括:接收一个或多个深度用户输入,所述的或每个深度用户输入与各自的选择用户输入有关;以及据此创建用于图像数据的深度图。 所述系统可以被进一步安排成把深度图显示在图像数据的已分割视图的旁边。 本发明所提供的系统和方法非常好地适合于用于创建深度图的开发工具。 [0017] 优选地,所述过程还包括在从第一已分割视图选择分段后接收定义的用户输入,该定义的用户输入触发显示第二已分割视图。这样,用户可以在不同的分割级别和/或分割准则之间切换,以及可以按照他们的要求选择在不同的视图中的分段。 由于还没有分割算法产生过用户希望看到的、用于创建深度图的精确的分割,所以本工具提供了通过允许用户选择适当的分割级别和/或分割准则而创建深度图的简单且有效的方法。 [0018] 有利地,当第一和第二已分割视图都是基于第一准则时,所述方法还包括:使用第二准则和第三参数而对图像数据进行分割,以创建图像数据的第三已分割视图;接收另外的定义的用户输入;显示图像数据的第三已分割视图;以及接收一个或多个另外的选择用户输入,用来选择如在第三已分割视图中显示的该图像数据的一个或多个分段。 这样,本发明有效地允许在数据的分割级别之间以及在数据的分割准则之间进行切换。 [0019] 这个概念通过考虑两个这样的分割准则——即颜色和运动——而被最好地举例说明。 如果图像数据按颜色被分割,则用户在完成诸如创建深度图那样的任务时能够调节分割的级别。 然而,用户也可以把分割视图切换到“运动”而不是“颜色”,这将按照这个准则对图像进行分割。 例如,图像中的运动的足球将按照颜色分割被高度地分割,但当切换到“运动”分割时,足球将不再被高度地分割,因为它是单个运动对象。 因为对象的像素典型地具有类似的深度值,所以这种选择方式使得用户能够通过使用小数目或最小数目的用户输入来选择对象的所有的像素。 这样,给对象注解深度值可被大大地简化。 可被使用来进行分割的准则的例子是颜色、分段尺寸(例如,把小于固定阈值的分段与在颜色上最相似的相邻的分段进行合并)、亮度、色度、运动和纹理,所有的这些可以容易地从图像中提取。 [0020] 附图简述 [0021] 现在参照附图,仅仅通过例子,来描述本发明的实施例,其中: [0022] 图1是用于处理图像数据的系统的示意图, [0023] 图2是图像数据的帧的示意图, [0024] 图3是显示图2的图像数据的帧的三个不同分割视图的示意图, [0025] 图4是显示另外的图像数据的三个不同分割视图的示意图, [0026] 图5是处理图像数据的方法的流程图, [0027] 图6是显示不同的分割视图之间的关系的图, [0028] 图7是显示在图6的视图之间导航的图, [0029] 图8是图像数据的两个测试帧的图, [0030] 图9是图8的图像数据的八个分割视图的图,以及 [0031] 图10是图8的图像数据的示意图和对应的深度图。 [0032] 实施例详细说明 [0033] 图1显示可被使用来处理图像数据的系统。该系统包括处理器10、显示设备12和用户接口,用户接口包括键盘14和标度盘(dial)16(其功能将在下面更详细地解释)。 用户接口还可包括显示设备12的触摸屏部件,它允许分段的高效的选择。图1的系统可以被配置在传统的台式PC、桌面PC、带有内建显示器的触摸书写板的周围,或者可以是专门被配置用于处理图像数据的任务的专业(图形)工作站。 该系统是对操控图像数据的用户提供帮助的工具。处理器10执行图像数据的分割,以便用户在他们当前的应用中利用。 在以下的描述中,将在用户正使用本工具来帮助创建深度图的基础上举例说明一个例子。 [0034] 为了解释分割的概念,图2显示了图像数据18的高度风格化(stylised)的帧。图像数据18显示蓝天、绿草地、白色门柱和多色的足球,足球是该图像的唯一处在运动中的部分。 显然,图像帧18代表静止的单个场景,但帧18将包括组成视频信号的一系列帧中的一个帧,足球将相对于它在前一个帧中的位置移动。记录图像帧18的摄像机是静止的。 [0035] 通过由处理器(诸如该处理系统的处理器10)运行的算法可以对图像进行分割。 有两个与分割有关的概念,它们是所采用的分割准则和所应用的分割参数(其可以是阈值)。包括颜色、分段尺寸、亮度、色度、运动和纹理在内的许多不同的准则是可能的。 所有的这些准则可以在形成图像帧18的数据中被检测到。例如,如果颜色被用作为数据 18的分割准则,使用阈值作为分割参数,则在图像数据18内的具有相同或相似的颜色的像素将被认为是处在相同区域中。 所应用的阀值确定两个邻近的像素是否被认为是相似的。 假设两个邻近的像素具有相同的蓝色和绿色值,但它们的红色值相差10,则阈值确定它们是否被判断为属于相同的区域。阈值设置为高或低确定了图像数据18是被分割成较少数目的区域还是较大数目的区域。 技术人员应清楚,像这样的分割并不被限于RGB色空间。 [0036] 设想了许多不同的分割参数,范围从对于所有亮度值的单个阈值、到亮度相关的阈值、到对于一个个颜色分量的有区分的阈值。 使用单个分割准则来获得一系列分割的简单方式是:使用特定的准则创建细粒化(fine grained)的分割,随后合并分段以获得更粗的分段。 随后的从已分割视图的范围内选择已分割视图可以是基于表明合并级别的参数。浏览这样的分段的用户将把所选择的视图感知为是对图像数据18的分割视图中存在的分段进行合并或分裂的结果。 [0037] 由图1的系统实行的处理图像数据18的方法包括:接收图像数据18,然后对图像数据18进行分割。 图3显示图2的图像数据18的三个不同的已分割视图20a、20b和 20c。 这些视图将在显示设备12上一次一个地显示给用户,用户能够按希望的那样在视图之间切换。替换地,视图20可以被同时显示给用户,用户能够通过适当的用户接口动作在当前的分割视图20之间进行切换。 [0038] 处理器10已经使用第一准则和第一阈值对图像数据18进行分割,以创建图像数据18的第一已分割视图20a;使用第一准则和第二阈值对图像数据18进行分割,以创建图像数据18的第二已分割视图20b;以及使用第二准则和第三阈值对图像数据18进行分割,以创建图像数据18的第三已分割视图20c。 在本例中,第一准则是颜色,第二准则是运动。 第二已分割视图20b可以通过按照参数级别把视图20a的分段合并在一起而被创建。 [0039] 正如从图3中将看到的,已分割视图20中没有一个能独自地提供图像数据18的理想的分割。向用户提供以无缝的方式组合来自多个已分割视图20的信息的能力,为用户提供了以正确的粒度访问(access)不同部分的有效方法。 基本上,在图像数据18内有四个对象,地面、天空、足球和门柱。用户希望创建用于这个图像数据18的深度图,他需要能够指定四个不同的深度值,每个对象一个。 在现有技术的解决方案中,或者用户通过使用软件在图像数据18中创建区域而人工地指定深度值,或者执行单个分割,然后再由用户修改它。 [0040] 然而,由处理器10产生的不同的视图20支持用户以比当前可以达到的更容易和更精确的方式创建深度图。 第一已分割视图20a是基于颜色准则的分割,具有低阈值。 在这个视图上,球被深度地(heavily)分割,绿草地也被过分割(over-segmented)(意味着阈值已检测草地内的不同的绿色阴影)。 实际上,在草地内由于分割而产生的区域不是规则的矩形;这是被使用来举例说明分割成区域的概念。 然而,需要第一视图20a来区分天空与门柱。 正如在第二分割视图20b中可以看到的,该第二分割视图使用颜色来分割,但具有较高的阈值,草地现在被合并成单个区域,但天空和门柱也被组合成单个区域。 球仍旧被深度地分割。在提供对基于多个分割准则的多个已分割视图的顺序访问的系统中,用户具有改变到第二分割准则(在这里是运动)的选项,这是图20c的视图。在这种情形下,唯一的运动对象——球,是单个区域。 [0041] 通过移动通过不同的视图20,用户可以创建深度图。 实际上,这是通过以下操作而达到的:显示图像数据18的第一已分割视图20a;接收一个或多个选择用户输入,用来选择如在第一已分割视图20中显示的该图像数据18的一个或多个分段(例如,首先选择天空,然后选择门柱);接收定义的用户输入以切换视图;显示图像数据18的第二已分割视图20b;以及接收一个或多个另外的选择用户输入,用来选择如在第二已分割视图20b中显示的该图像数据的一个或多个分段(地面)。使用第二准则(运动)和第三阈值而对图像数据18进行分割,以创建图像数据18的第三已分割视图20c;在接收用来切换视图的另外的定义的用户输入后,显示图像数据18的第三已分割视图20c;以及用户接口接收一个或多个另外的选择用户输入,用来选择如在第三已分割视图20c中显示的该图像数据18的一个或多个分段(球)。 [0042] 由于不能产生原始图像数据18的“最佳的”分割,所以该系统向深度编辑器的用户给出一种快速选择机制,用来在多个预先计算出的分割之间切换。 通过在相同位置显示多个可供选择的已分割视图,用户可以把焦点集中在对象或图像的一个特定的部分,并且切换分割,直至找到匹配的分段为止。 与其中多个分割被同时显示在不同位置的情景相比较,这代表了很大的改进。 [0043] 另一方面,并行地可视化多个已分割视图在评估哪个特定的分割对于这样的注解提供良好的起点方面是有用的。 因此,并行地显示基于不同的分割准则的多个分割提供了其它的好处。 [0044] 在图3上,仅仅有两个不同的分割视图20a和20b是用颜色的准则计算的,然而,这仅仅是示例性的,实际上,有更大数目的已分割视图来从中选择可能是有用的。 这被图示于图4,其中显示了图像数据18的分割视图22a、22b和22c。 在图4上,显示了所建议的、用于深度图创建的编辑器的示例性使用。 视图22a到22c是在不同的区域合并级别上的分割。 通过选择在不同的合并级别上的区域、并调节每个区域或区域组的深度值,恒定的深度被指定给画面上的人。 [0045] 中央的视图22b可被认为是图像数据18的缺省视图,用户可以使用键盘14上的左箭头键来观看左面的图像22a,以类似的方式,用户可以使用键盘14上的右箭头键来观看右面的图像22c。 这样,简单又直接的选择机制被呈现给深度编辑器的用户。 中间的画面22b将被使用来指定深度给圆形区,因为它是最有效的(仅仅三个区域需要被选择)。 通过按压右箭头键(→),具有类似颜色的区域被合并(圆形区与另一个对象合并)。 通过按压左箭头键(←),合并的区域被分成多个部分(选择该圆形区需要选择五个区域)。 用户因此可以使用适当的粒度来把深度指定给对象。 实际上,特别是对于被使用于分割的诸如颜色那样的准则,有可能使用数量较大的不同视图,用户可以循环通过它们。 为此,提供了图1的标度盘16,这允许用户“调谐”到对于他们当前正在执行的任务(或子任务)来说正确的粒度水平。 [0046] 为了提供视图20和22以供该工具使用,通过使用例如区域拟合(如在以上提到的Oliver的文章中描述的)而做出初始分割。 这个初始分割S1包含许多小的区域,以保证所有重要的深度不连续性与区域边缘相一致。 随后的分割S2,...S10是通过逐渐地合并S1的区域而被创建的。 第一个合并的分割S2是通过合并S1中所有这样的邻近区域(Ri,Rj)而被创建的,对于这些邻近区域: [0047] |ri-rj|+|gi-gj|+|bi-bj|<T1 [0048] 其中(ri,gi,bi)和(rj,gj,bj)分别是区域Ri和Rj的平均颜色矢量。 合并阈值的典型值是T1=10。 现在对于合并的区域计算新的平均颜色矢量。 第二个合并的分割S3是使用相同的过程、但使用合并的阈值T2而从S2计算出来的。 这个过程继续进行直至分割S10被创建为止。 在一个实施例中,对于每个新的合并级别,阈值增加10。 在这种情形下,T10=100。 这个分割过程可以先于用户的任何工作来实行,或者当用户正在通过按压左和右箭头键而选择新视图时,可以动态地(on the fly)实行(在图4的实施例中)。 事实上,如果没有视图适合于用户当前正在进行的工作,则用户可以请求实行中间的分割,例如用于在图4的22a与22b之间的新的视图。 这个新的视图22在那里被创建,然后通过使用相对于两个视图22a和22b被使用的那些阈值中间的新阈值而实行分割。 [0049] 图4显示如何使用三个不同的分割合并级别,来由用户例如利用屏幕上的光标选择分段而产生深度图。 在视图22c中,大的分段可以通过单个鼠标点击而被选择。 然而,部分背景可能被错误地放置在前景中。 这可以通过移动到在较低合并级别上的分割而在视图22b中被部分地校正。 然而,可能仍旧是这样的情形:小部分的背景仍旧被放置在前景中。 这个错误通过选择具有更低的合并级别的分割(视图22a)而被校正。 [0050] 图5显示对于具有交互式分段合并的深度编辑器的操作的流程图。 在虚线以上是对于用户不可见的离线处理。在虚线以下是系统的交互部分。 输入到编辑器的是将为其构建深度图d的图像数据I。 [0051] 在离线部分,计算区域颜色分割S1。 优选地,这是所谓的过分割 (over-segmentation),意思是在图像中有比场景中的对象更多的分段。这个最基本的颜色分割S1然后基于区域属性,诸如区域尺寸、区域平均颜色、区域纹理、区域运动等等,而被递归地合并。第一合并步骤的结果是合并的分割S2。基于S2,重新计算区域属性,诸如区域尺寸、区域平均颜色、区域纹理、区域运动等等,并且计算出新的合并的分割S2。 这个过程被重复进行,直至达到给定的数目K为止。 所有的分割S1到Sk被存储。 紧跟在这些分割后,还计算和存储K个边缘图,这些边缘图将在在线部分中被使用于实时边缘显示。 [0052] 在线部分通过选择初始合并级别分割和初始背景深度图来开始。 初始合并级别将默认为中间合并级别。 初始背景深度图是恒定的背景值,或是作为画面上高度的函数而线性地改变深度的梯度。 [0053] 然后显示图像数据,通过使用恒定的颜色、或加亮初始合并级别的其它方法而指示分割边缘,从而提供分割视图。 接着,用户通过在屏幕上指点并点击左鼠标按钮而选择区域。 然后通过在显示器上将蓝色画面通道设置为255而将所选择的区域变为可看见的。所述区域被自动加到当前的已选择区域组中。 如果用户希望的话,他们可以改变合并级别和/或选择新的区域。 通过按压左箭头键,用户选择更精细的分割;通过按压右箭头键,用户选择更粗略的分割。 用户可以通过用左鼠标按钮点击那个区域中已经选择的像素而取消选定一个区域。 [0054] 当用户已完成区域选择过程时,他们可以通过按压键盘上的跳格键(Tab key)而在相同的窗口中显示深度图而不是图像。 然后,把当前的深度图与以绿色画出的选择区域一起显示。 用户然后可以选择深度级别,这个深度级别可通过如下方式提供,即通过按压空格键(Spacebar)而从五个深度级别中选出一个深度级别。 初始深度值是255,每次用户按压空格键,深度级别减小50。当深度级别是5时,则下一个级别变为255。 用户可以通过按压回车键(Enter)而完成所述过程,这将清空当前的区域选择,并且还把深度图存储到例如盘。 切换回图像是通过按压跳格键而完成的,在那之后用户可以作出新的选择。 [0055] 正如上面提到的,可向用户提供通过使用基于运动的合并而创建的一个或多个视图20。 当两个接连的图像帧是可提供的时候,运动估计可以帮助聚合多半属于同一个对象的分段。 达到这一点的一个方式是:首先通过使用16x16像素的非重叠块和33x33像素的搜索窗口来估计运动。 对于每个块,选择导致最小的绝对差的和值(绝对差在红色、绿色和蓝色分量上求和)的运动矢量。 然后,产生运动矢量的、具有尺寸33x33的二维直方图。直方图中的每个仓(bin)包含发现对应的矢量是对于特定块的最佳匹配的次数的计数。 [0056] 从这个直方图,然后有可能选择在该直方图中具有Nmodels个最大计数的Nmodels个运动矢量。在一个实现中,希望使用Nmodels=3,但对于Nmodels的更大的值也给出有用的输出。 然后,这Nmodels个候选的运动矢量被使用来对必须基于运动而合并的输入分割的每个分段进行分类。 更具体地,对于输入分割中的每个分段,计算对于每个运动矢量的、在分段中的像素上的绝对颜色差的和值(绝对差在红色、绿色和蓝色分量上被求和)。导致绝对差的最小和值的运动模型将最好地匹配,因此它被指定给该分段。 最后,为了创建基于运动的合并的分割,具有相同的运动模型标识符的、空间上相邻的分段被合并成输出分割中的单个分段。 [0057] 使用有限数目的预定的候选运动模型的以上方法具有如下优点:解决方案被限于有限数目的可能的运动。 这在图像具有均匀的颜色区域或噪声的情况下,或者在分段较小的情况下,是特别有用的。 在那种情形下,不同的运动矢量可以给出类似的小的绝对差的和值,这导致有噪声的运动场(field),在此基础上难以用可靠的方式来合并在空间上邻近的分段。 使用运动和颜色作为分割准则(具有适当的参数组)允许将两个模态(modality)组合在单个合并图上。 本领域技术人员将清楚,可以使用与运动有关的信息来作出其它分割。 [0058] 图6图示可以如何使用两种合并模态来产生八个不同的分割。 在本实施例中,模态颜色和运动被使用来产生‘合并图’。 图7图示用户可以如何在‘合并图’中的不同分割之间进行切换。在图6上,图示了如何使用两个不同的合并模态(在本例中,是颜色和运动)来创建在不同的合并级别上的分割。 ‘合并图’中的每个圆代表分割视图,每个箭头指向合并的分割的方向。开始分割用闭合的圆表示。 这个分割被使用颜色合并一次(在x轴方向),第二次使用运动来合并(在y轴方向)。 最终得到的、基于颜色的合并的分割然后被使用颜色合并一次,第二次使用运动来合并,等等。 [0059] 在图7上,显示了用户可以如何通过使用键盘上的四个箭头键之一在‘合并图’中的两个不同的分割视图之间进行切换。 事实上,通过使用例如像数字小键盘那样安排的一组专用键,有可能实际上在更多的方向上导航,假若这样的分割是可提供的话。 替换地或附加地,可以呈现合并图的屏幕上显示,以利于导航通过各种已分割视图。 甚至更可替换地,鼠标敲击或鼠标手势可被用于导航。 [0060] 图8显示通过把前景对象(扬声器)合成到相同背景上而创建的两个测试图像 18。 运动是通过以下方式来模拟,即:把扬声器粘贴到背景上不同的空间位置(右面图像)而由此引入运动。 在前景中的扬声器相对于暗的背景被照相,被分割出来,并被粘贴到另一个画面上。在第二个画面上,扬声器相对于第一图像被向右移动。 应当指出,图8上的左面图像被呈现给用户并被分割,而图8上的右面图像仅仅被用作为用于运动模型计算和运动模型分类的参考。它并没有显示给用户。 在使用图像帧的视频序列的例子中,这两个图像18将是接连的帧。 [0061] 图9显示按照图7和图8的合并图配置的全部八个分割视图20。 这八个分割是按照合并图的颜色和运动轴进行安排的。 分段首先基于颜色在水平方向上被合并,然后基于运动在垂直方向上被合并。 向左、向右、向下和向上键被使用来在这八个分割之间导航。显然,分段沿正的颜色合并轴进行合并,以及分段沿正的运动轴进行合并。 当在这八个分割之间进行快速导航的时候,变得很明显的是:后面跟随有基于运动的合并步骤的两个基于颜色的合并步骤,导致选择扬声器的单个合并的分段。 在任何分段区中的一次鼠标点击会加亮该分段。 在通过按压键盘上的跳格键而改变到深度窗口之后,可以通过按压键盘上的空格键直至发现优选的深度,来选择深度值。图10显示所选择的分段视图20(左面)和最后的深度图24(右面)。 [0062] 图10图示从输入图像18得到深度图24的过程。图上显示了初始的合并级别20和用户选择的全局深度分布图,是深度图24。 显示设备12被安排成把深度图24显示在图像数据18的已分割视图20旁边。 已分割视图20可被看作是一系列边缘重叠的原始图像数据18。 这些边缘定义了作为分割算法的输出的区域(或分段)。 深度图24开始时在它内部没有用户定义的数据,至少是在该过程中的这一点。 工具被提供来使得用户能够容易构建深度图24。 [0063] 用户然后可以提供选择用户输入,其选择图像数据18的分段。系统然后把该区域26转移到深度图24,作为深度区域28。 系统接收与区域26的相应选择用户输入有关的深度用户输入,并据此创建用于图像数据18的深度图24。 用户为他们在视图20中已选择的区域选择深度值。如果用户希望的话,他们可以从视图20选择多个区域。所有的被选择的视图然后将被转移到深度图24,用户可以把深度值指定给那些区域。 事实上,可以为目前已被转移到深度图24中的不同的区域选择不同的深度值。 [0064] 在定义的用户输入(诸如通过标度盘16)之后,用户可以切换到不同的分割视图。用户可以改变到更粗略的合并级别(粒度),这使得用户能够通过多次鼠标点击而选择图像18的另外的部分,此后指定深度值。 由用户选择的区域被转化成深度图24内的部分。用户进行深度输入,把想要的深度指定给选择的区域。 这个过程将继续进行,用户在分割级别之间移动,在当前的视图内选择一个或多个分段,然后把深度值指定给选择的区域,以便构建深度图d。 当用户完成时,深度图d将是该图像数据处理的输出。 [0065] 参照图10描述的系统和方法描述了:通过基于颜色距离来递归地合并邻近的区域而创建合并的分割。然而,这个分割准则确实限制了区域属性的选择。 可以使用不同于颜色距离的其它准则。 例如,稍微更精巧一点的办法是选择10%最小的区域,并把这些区域的每个区域与它们的在颜色上最相似的相邻区域合并。 相对于第二图像的运动信息也可以被使用来创建合并的分割。 然后,可以按运动相似性合并分段。 [0066] 图像分割是已知的技术。 以上的文本给出了对Richard O.Duda、Peter E.Hart和David G.Stork的“Pattern Classification”,JohnWiley and Sons,Inc.,New York,2001和C.Oliver,S.Quegan的“Understanding Synthetic Aperture Radar Images”中描述的区域拟合分割算法的参考。 Duda参考文献在第548和549页推导了当一个样本在迭代拟合过程期间从一个分段移动到另一个分段时用于简单且有效地更新误差准则的方程式。 这个迭代拟合方法可以被应用来在以上的过程中生成第一(未合并的)分割。 应当指出,使用在Oliver参考文献中给出的措施,该区域拟合也迫使分段边界是光滑的。 具有边界光滑性的迭代区域拟合给出可接受的结果。 然而,有时沿模糊的对象边缘形成长度被拉长的区域。 所以,这种分割可以通过在两个区域拟合步骤之间使用“伪边缘去除”而被改进。 在两个区域拟合步骤之间使用伪边缘去除的思想是在标题为“Method and apparatus for removing false edges from asegmented image”的早先的专利申请公开WO 2004/051573中描述的。 [0067] 作为一般规则,可以使用任何适当的、把原始图像数据划分成更小的分段/区域的分割算法。 所需要的全部便是:分割的粒度可以通过参数调节而被调节成产生不同的分割视图。 这些不同的视图然后对于用户是可提供的,用户可以在它们之间进行切换,并选择在不同级别上的不同分段,以用于他们当前的任务,诸如创建深度图。 [0068] 如以上指明的,本发明也可以在诸如转描(rotoscoping)、图像恢复、电影着色那样的其它图形应用中,或在图形编辑器中被使用于选择对象、区域。 为了使得所述选择可视化,所选择的分段最好在选择过程中被加上颜色和/或用对比色画出轮廓。 [0069] 虽然以上内容主要是针对来自图像序列的图像进行解释的,但本发明也可以同样有利地被使用于对静止图像注解深度图。 假若静止图像是从图像序列得出的,就仍旧有可能将运动线索用于分割。 然而,应当指出,在只有单个静止图像可提供的情形下,没有运动线索,在这样的情况下,可以使用诸如亮度、色度和/或纹理那样的其它线索来对图像数据进行分割。 [0070] 应当指出,上述的实施例是举例说明而不是限制本发明,以及本领域技术人员将能够设计出许多替换实施例,而不背离所附权利要求的范围。 [0071] 在权利要求中,放置在括号之间的任何参考符号不应当被解释为限制权利要求。 [0072] 应清楚,在本发明的框架内,有可能存在许多变例。 本领域技术人员将会意识到,本发明并不受限于上文中具体地显示和描述的内容。 本发明在于每一个新颖的特有特征以及特有特征的每一个组合。 在权利要求中的参考数字不限制它们的保护范围。 [0073] 动词“包括”及其变化形式的使用不排除除了在权利要求中阐述的那些单元以外的其它单元的存在。 在单元之前的冠词“一”或“一个”( “a”或“an”)的使用不排除多个这样的单元的存在。