技术领域
[0001] 本发明涉及图像处理技术领域,尤其涉及一种用于大场景监控动态目标跟踪融合方法。
相关背景技术
[0002] 在现代复杂且大规模的监控系统中,确保监控画面的全面覆盖与细节精度并重,是提升监控效能与数据分析准确性的关键。传统监控系统受限于单一摄像机类型的应用,全景摄像机虽能广泛覆盖监控区域,却牺牲了图像细节的捕捉能力;而细节摄像机虽能提供高分辨率的精细画面,但其视野局限性显著,难以实现对大范围场景的实时监控。这种矛盾在追踪大场景中的动态目标时尤为突出,限制了监控系统的整体效能。
[0003] 为解决这一技术瓶颈,近年来,多摄像机协同监控技术应运而生,该技术旨在融合全景摄像机与细节摄像机的优势,通过智能协同工作与图像融合策略,实现监控区域的全局概览与局部细节的精准捕捉。其核心在于构建一个协同系统,该系统能够自动分配任务给不同类型的摄像机,确保监控任务既覆盖广泛又深入细致。
[0004] 然而,现有技术在实现这些摄像机之间的协同和图像融合时,仍面临诸多挑战,如多视角下图像的特征匹配、视角差异的消除、实时处理能力的不足等。
[0005] 因此,有必要提供一种用于大场景监控动态目标跟踪融合方法解决上述技术问题。
具体实施方式
[0045] 下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。此外,在不冲突的情况下,本发明中的实施例及实施例中的特征可以互相组合。
[0046] 另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。
[0047] 本发明提供了一种用于大场景监控动态目标跟踪融合方法,适用于需要在宽广区域内对移动物体进行精确跟踪的应用场景。
[0048] 在监控区域内安装全景摄像机,该摄像机采用短焦镜头,能够捕获监控区域的全局画面,全景摄像机负责捕获整个监控区域的全局监控图像,确保全方位覆盖。
[0049] 同时,在监控区域的关键位置安装多个细节摄像机,这些摄像机采用长焦镜头,用于捕捉特定区域的细节监控图像,细节摄像机分布排列在核心监控区域,增强对重要区域的动态监控与细节分析能力。
[0050] 融合方法包括以下步骤:
[0051] S1:在全局监控图像中确定动态目标,并对动态目标进行跟踪,确定动态目标在全局监控图像的当前帧中所处的细节监控图像以及全局目标图像。
[0052] 在本实施例中,在全景摄像机捕获的全局监控图像中,通过用户交互界面实时选择动态目标进行跟踪,具体的,用户可以点选或框选目标,或输入动态目标的mask作为分割追踪模型SAM2的输入,以此定义动态目标的初始位置并初始化分割该动态目标。
[0053] 同时,根据动态目标的位置,确定其所在的具体细节摄像机。
[0054] 其中,分割追踪模型SAM2包括编码器、提示编码器、掩码解码器和记忆单元,在全局监控图像中,利用分割追踪模型SAM2对动态目标的跟踪具体为:
[0055] 首先,通过编码器提取动态目标在全局监控图像的图像特征。
[0056] 在本实施例中,这一部分通常基于MAE预训练的Hiera图像编码器,它能够处理输入的图像数据并生成多尺度的特征表示,这些特征表示对于后续的动态目标检测和分割至关重要。具体实施时,输入的是全局监控图像帧,输出则是多尺度特征表示,预处理阶段会对全局监控图像进行归一化处理,确保输入数据符合模型的预期范围。特征提取阶段使用多层卷积神经网络(CNN)结构提取图像的多层次特征,每层提取的特征图尺寸逐渐减小,以捕获不同层次的细节信息。通过不同的层输出,获取不同尺度的特征图,这些特征图会被进一步用于后续处理。
[0057] 其次,通过提示编码器对确定的动态目标进行提示性处理,得到分割提示。
[0058] 在本实施例中,这部分处理用户提供的动态目标提示信息,例如通过用户交互界面确定动态目标的位置。提示编码器将这些提示转化为模型可以理解的形式,以便引导模型专注于特定的动态目标区域。
[0059] 具体实施时,输入的是用户提供的动态目标提示信息,输出则是提示向量。用户通过交互界面对动态目标进行标记,系统记录这些标记的位置信息。提示编码器将位置信息编码为向量形式,这些向量会指导模型关注特定的区域,并与图像特征图相结合,为分割掩码的生成提供指导信息。
[0060] 接着,通过掩码解码器对动态目标的图像特征和分割提示进行处理,以生成分割掩码。
[0061] 在本实施例中,掩码解码器负责生成动态目标分割掩码,这是通过将编码器提取的特征与提示编码器产生的提示向量相结合来完成的。
[0062] 具体实施时,输入的是多尺度特征表示加上提示向量,输出则是分割掩码。特征与提示融合通过多种方式实现,包括但不限于直接加法、乘法或者更复杂的注意力机制,掩码解码器通过上采样操作逐步恢复特征图的尺寸,直到生成与输入图像相同大小的分割掩码,最终输出一个二值或概率值的掩码,用于表示动态目标像素属于动态目标的概率。
[0063] 最后,基于分割掩码,通过记忆单元对动态目标进行跟踪处理。
[0064] 在本实施例中,记忆单元包括记忆编码器、记忆库和记忆注意力模块,它们共同作用以保持动态目标跟踪的连贯性,记忆编码器负责下采样分割掩码,并与图像特征融合,生成包含动态目标的当前状态及历史信息的记忆表示。
[0065] 具体实施时,输入的是分割掩码加上多尺度特征表示,输出则是记忆表示。通过下采样操作减小分割掩码的尺寸,并将下采样的分割掩码与图像特征图融合,生成包含动态目标状态和历史信息的记忆表示。记忆库维护动态目标在多个最近帧中的预测信息及对应的提示信息,当新的图像帧到来时,可以从记忆库中检索相关的历史信息。记忆注意力模块通过自注意力机制捕捉当前帧的内部信息,并通过交叉注意力机制将当前帧与记忆库中的历史信息进行关联,从而实现对动态目标的跟踪。具体实施时,输入的是当前帧的特征表示加上记忆表示,输出则是跟踪结果。
[0066] 记忆注意力模块利用堆叠的变换块,结合自注意力机制捕捉当前帧的内部信息,并通过交叉注意力机制将当前帧与记忆库中的历史信息进行关联,从而实现对动态目标的跟踪。具体实施时,输入的是当前帧的特征表示加上记忆表示,输出则是跟踪结果。通过自注意力机制捕捉当前帧的内部信息,以增强动态目标表示的一致性。通过交叉注意力机制将当前帧与记忆库中的历史信息进行关联,以实现跨帧的动态目标跟踪。
[0067] S2:在动态目标所处的细节监控图像中,对动态目标进行跟踪,得到细节目标图像。
[0068] 在本实施例中,在对应的细节监控图像中,使用分割追踪模型SAM2对动态目标进行跟踪,获取细节目标图像。
[0069] 在细节监控图像中,同样也是利用分割追踪模型SAM2对动态目标进行,具体的跟踪方法与全局监控图像一致,不同的是该步骤是针对细节监控图像。
[0070] 在步骤S2中,还通过分割追踪模型SAM2生成动态目标mask,并将目标mask传输至全局监控图像作为校正提示,使得在全局监控图像中,动态目标被遮挡时继续被跟踪。
[0071] 具体的,利用SAM2模型中的掩码解码器,基于编码器提取的图像特征和提示编码器生成的分割提示,生成针对动态目标的分割mask。这个分割mask是一个二值图像,其中动态目标区域被标记为前景,而背景区域则被标记为背景;生成的分割mask被传输到全局监控图像中,这一步骤的目的在于即使在动态目标被部分或完全遮挡的情况下,也能提供足够的信息以帮助跟踪算法继续跟踪动态目标;在全局监控图像中,将动态目标mask作为校正提示,这有助于模型了解动态目标的确切位置和形状,即便动态目标处于遮挡状态。通过这种方式,即使在遮挡发生时,模型也可以依据先前生成的mask信息来估计动态目标的位置和边界,从而保持跟踪的连续性;当动态目标被遮挡时,由于模型已经从先前的帧中获得了动态目标的mask,因此即使在遮挡期间无法直接看到动态目标,模型也能利用先前的信息来估计动态目标的移动轨迹。这样可以确保即使在短暂的遮挡后,也能迅速恢复动态目标的跟踪。
[0072] S3:计算得到全局目标图像和细节目标图像间的映射矩阵,并通过映射矩阵对细节目标图像进行变换,得到变换后的细节目标图像。
[0073] 具体的,步骤S3包括以下步骤:
[0074] S31:使用卷积神经网络分别提取全局目标图像中动态目标的全局图像特征和细节目标图像中动态目标的细节图像特征。
[0075] 对于全局图像特征提取:
[0076] 使用预先训练好的卷积神经网络(CNN)对全局目标图像中的动态目标进行全局图像特征提取,这些特征包含目标的形状和纹理,可以帮助理解全局场景中目标的外观特性。
[0077] 对于细节图像特征提取:
[0078] 同样地,使用相同的CNN来提取细节目标图像中的细节图像特征,这些细节图像特征更侧重于捕捉目标的局部细节。
[0079] S32:基于全局图像特征和细节图像特征进行特征匹配,并计算得到映射矩阵。
[0080] 在本实施例中,利用全局图像特征和细节图像特征之间的相似度进行匹配,匹配的方法包括但不限于SIFT(Scale‑Invariant Feature Transform)、SUR F(Speeded Up Robust Features)或者SuperPoint、D2‑Net来进行关键点检测和匹配。
[0081] 基于匹配的关键点对,采用包括但不限于RANSAC(RANdom SAmple Consensus)算法来估计一个几何变换(即映射矩阵),该变换将把细节目标图像转换到与全局目标图像一致的空间坐标系中。
[0082] S33:基于对应的细节摄像机的视角,通过映射矩阵将细节目标图像进行变换,得到变换后的细节目标图像。
[0083] 在本实施例中,应用在上一步中计算得到的映射矩阵,对细节目标图像进行空间变换,这种变换确保了细节目标图像中的动态目标与全局目标图像中的动态目标在位置和姿态上对齐。
[0084] 变换完成后,细节目标图像现在应该与全局目标图像中的动态目标在视觉上更加一致,这对于后续的分析处理非常有用,例如融合不同视图下的信息以获得更完整的动态目标理解。
[0085] S4:利用自动景深方法对变换后的细节目标图像和全局监控图像进行实时融合,得到融合后的全局监控图像。
[0086] 具体的,步骤S4包括以下步骤:
[0087] S41:使用Monodepth2深度估计方法生成变换后的细节目标图像和全局监控图像的深度图。
[0088] 在本实施例中,使用Monodepth2方法来估计变换后的细节目标图像和全局监控图像的深度图,Monodepth2是一种基于单目图像的深度估计模型,它能够从单一的彩色图像中预测出相对深度信息。
[0089] S42:根据变换后的细节目标图像和全局监控图像的深度图计算得到视差映射矩阵,并利用视差映射矩阵对将变换后的细节目标图像映射至全局监控图像得到的融合图像进行对齐处理。
[0090] 在本实施例中,利用深度图来计算视差映射矩阵。视差是指同一场景在不同视角下的位置差异,可以通过深度信息推算得到。视差映射矩阵用于描述两个图像之间像素对应关系的变化。
[0091] 使用视差映射矩阵来调整变换后的细节目标图像,使其与全局监控图像对齐。这一步骤确保了两幅图像中的相同场景元素在空间位置上保持一致,便于后续的图像融合。
[0092] S43:融合对齐后的细节目标图像和全局监控图像,并对融合后的全局监控图像进行颜色校正处理。
[0093] 在本实施例中,将对齐后的细节目标图像和全局监控图像进行融合,产生一幅包含更多细节信息的新图像,融合方法包括但不限于加权平均和拉普拉斯金字塔混合,对融合后的图像进行颜色校正,确保色彩的一致性和自然性,颜色校正可以包括亮度和对比度调整、色偏校正等操作,使得最终输出的图像质量更高。
[0094] 具体的,还包括可视化界面,可视化界面包括用户交互界面和显示界面,其中,[0095] 用户交互界面被配置为在全局监控图像中实时选择动态目标。
[0096] 在本实施例中,用户交互界面允许用户通过简单的操作(包括但不限于点击或框选)来实时选择全局监控图像中的动态目标。
[0097] 示例性的,用户可以点击一个移动的人或车辆,系统会自动识别并跟踪该目标[0098] 显示界面被配置为实时展示动态目标的监控画面以及运动轨迹。
[0099] 在本实施例中,显示界面上实时更新选定动态目标的画面,这通常是在视频流中突出显示所选动态目标,以便于监控人员观察,这可以通过在视频流中使用高亮边框或标记来实现,确保目标始终可见。
[0100] 显示界面同时呈现动态目标的运动轨迹,即动态目标过去一段时间内的移动路径,轨迹可以使用线条或点来表示,颜色或形状的变化可以用来区分不同的目标。
[0101] 本发明提供的一种用于大场景监控动态目标跟踪融合方法的工作原理如下:
[0102] 配置有短焦全景摄像机和多个长焦细节摄像机。全景摄像机负责采集监控区域的全局图像,确保无死角覆盖;而细节摄像机则针对全局图像中的选定区域进行精细监控,捕捉高清晰度的细节图像。系统启动时,各摄像机开始工作,并实时传输图像数据至处理单元。
[0103] 在全局监控图像中,系统首先利用分割追踪模型SAM2(Segmentation and Attention‑based Model version 2)对动态目标进行识别。SAM2模型通过编码器提取图像特征,利用提示编码器生成分割提示,再由掩码解码器生成分割掩码,最终由记忆单元实现对动态目标的持续跟踪。记忆单元中的记忆编码器和记忆库存储动态目标的历史信息,记忆注意力模块则结合自注意力和交叉注意力机制,确保即使在目标被遮挡或发生形变时也能准确跟踪。
[0104] 当动态目标在全局监控图像中被确定后,系统会根据其位置自动选取对应的细节摄像机进行进一步监控。在细节监控图像中,再次利用SAM2模型对动态目标进行精细跟踪,获取细节目标图像。同时,SAM2模型生成的目标mask被传输至全局监控图像,作为校正提示,确保在全局图像中动态目标被遮挡时仍能继续跟踪。
[0105] 为了将细节目标图像与全局监控图像进行融合,系统首先使用卷积神经网络分别提取全局目标图像和细节目标图像中的特征。随后,基于这些特征进行特征匹配,并计算得到映射矩阵。利用该映射矩阵,系统对细节目标图像进行变换,以匹配全局监控图像的视角和尺寸,得到变换后的细节目标图像。
[0106] 在融合阶段,系统采用Monodepth2深度估计方法生成变换后的细节目标图像和全局监控图像的深度图。根据深度图计算视差映射矩阵,利用该矩阵对变换后的细节目标图像进行对齐处理,确保其与全局监控图像在几何上的一致性。之后,系统对对齐后的细节目标图像和全局监控图像进行融合,并通过颜色校正处理优化融合效果。最终,融合后的全局监控图像通过可视化界面实时展示给用户,用户交互界面允许用户实时选择动态目标,而显示界面则实时展示动态目标的监控画面及运动轨迹。
[0107] 综上所述,本发明的大场景监控动态目标跟踪融合方法,通过整合全景摄像机与细节摄像机的优势,结合先进的图像处理、深度估计及智能跟踪技术,实现了对大场景中动态目标的精确跟踪与实时融合显示。该方法不仅提升了监控系统的全面性、精确性与实时性,还为用户提供了直观、清晰的监控信息。
[0108] 本申请是参照根据本申请实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框,以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0109] 本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一种计算机可读存储介质中,存储介质包括只读存储器(Read‑Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read‑only Memory,PROM)、可擦除可编程只读存储器(Erasable Pr ogrammable Read Only Memory,EPROM)、一次可编程只读存储器(One‑time Programmable Read‑Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically‑Erasable Programmable Read‑Only Memory,EEPROM)、只读光盘(CompactDisc Read‑Only Memory,CD‑ROM)或其他光盘存储器、磁盘存储器、磁带存储器,或者能够用于携带或存储数据的计算机可读的任何其他介质。
[0110] 还需要说明的是,术语“包括”“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。