首页 / 一种融合低秩表达与大语言模型的卫星视频解析方法及系统

一种融合低秩表达与大语言模型的卫星视频解析方法及系统实质审查 发明

技术领域

[0001] 本发明涉及视频解析技术领域,尤其涉及一种融合低秩表达与大语言模型的卫星视频解析方法及系统。

相关背景技术

[0002] 视频卫星就像太空中的飞行机器人,以高时空分辨率观测地球,为短视频直播带来各种新需求。视频卫星逐渐与经典静态图像一起成为遥感领域对地观测的坚实支柱。一般来说,与静态图像相比,移动目标是最独特和最吸引人的元素,因为它们只能从卫星视频中获得。因此,许多研究人员致力于运动目标跟踪,并提出了许多算法,从传统算法[1‑3]到学习算法[4‑6],近年来表现引人注目。然而,实际的卫星视频应用通常并不能取得预期的丰硕成果。认为造成这一困境的核心问题是对卫星视频中动态和静态信息的探索不够,导致缺乏全面的认识。更具体而言,现有方法存在两方面主要问题:首先,在遥感领域,现有卫星视频解译方法大都关注于对于单个或多个目标的运动信息提取,如轨迹等。缺乏对于更高层次信息的理解、缺乏对于场景背景的认知、缺乏对于运动目标和场景之间交互关系的挖掘。导致现有方法难以真正对实际应用产生重大作用,缺乏具有价值的理解。另一方面,在日常视频理解领域,尽管随着大模型的出现,各类基于大模型的视频理解方法在日常视频上展现了不错的表现,尤其是对于视频情节分析等。但由于卫星视频运动目标小、纹理少等特点,普通视频理解方法无法直接用于遥感领域。这种不适应性进一步阻碍了卫星视频的高层次理解。因此,现有方法都无法完成卫星视频高层次理解任务。
[0003] 因此,从遥感领域和人工智能领域进一步解决这个问题。具体来说,首先使用LRR(低阶表示)实现运动物体和静态背景的分离,因为它对数据的假设很少。然后,提出了一套分层卫星视频理解的范例,用于预训练的LLM大语言模型上下文学习。分离的背景和运动物体被馈送到LLM进行详细描述。最后,再次将这些描述带到LLM进行进一步分析并输出报告。大量的实验证明了方法的有效性,弥合了当前研究与实际应用中迫切需求之间的差距。

具体实施方式

[0054] 为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0055] 实施例1
[0056] 以下结合附图和具体实施例对本发明作进一步的详细说明:
[0057] 如图1所示,为本发明实施例提供的一种融合低秩表达与大语言模型的卫星视频解析方法,包括:
[0058] 步骤1:获取原始卫星视频,基于低秩表示LRR对所述卫星视频中的运动物体和静态背景进行分离并求解获取低秩背景L和稀疏运动S;
[0059] 步骤2:将步骤1中获取的低秩背景L和稀疏运动S分别输入LLM大语言模型生成格式化语言描述;
[0060] 步骤3:将低秩背景L和稀疏运动S生成的格式化语言描述分别输入LLM大语言模型联合分析,形成具有见解的最终报告。
[0061] 为了有效帮助LLM理解卫星视频并弥合卫星视频和自然视频之间的领域差距,本实施例步骤1中将视频分为背景和运动部分,如图1。具体来说,在该任务(第一阶段)中采用LRR,因为它在理论收敛的同时有效地提取运动并重建静态背景。对于n帧卫星视频中的某帧Fi(像素分辨率:w×h),首先对其进行维度变换,将所有列堆叠起来,生成一维向量vi的长度为w×h,将其表示为vec()。然后在所有n帧上广播vec()操作,并获得一个超维矩阵D。由于卫星视频的性质,背景通常是静态的,而移动物体则占据较小的区域。因此,卫星视频被视为低秩背景L和稀疏运动S的组合,如下式:
[0062] D=[vec(F1)|vec(F2)|…|vec(Fn)]
[0063] 为了进一步消除由不完善的视频稳定性或地面高差导致的伪运动,引入了逐帧变换来补偿这种不一致,如下式:
[0064]
[0065] 其中,τ={τ1,τ2,…,τn},其中,τ1,τ2,,τn分别为第1帧、第2帧、第n帧的帧间几何变换,表示相乘。
[0066] 编写一个优化目标函数,写成拉格朗日形式,如下式:
[0067]
[0068] 其中,γ为优化目标函数中稀疏运动S的L0范数对应权重,s.t为约束条件,║║0表示L0范数,min表示最小值。
[0069] 进一步地,将rank()操作和L0范数替换为核范数L*和L1范数分别用于简化,如下式:
[0070]
[0071] 其中,λ为优化目标函数稀疏运动S的L1范数对应权重,║║1表示L1范数。其中λ也是一个加权系数。一般来说,卫星视频中的逐帧差异很小,但在一段时间内可能会累积。因此将约束线性化,如下式:
[0072]
[0073] 其中Δ τi表示第i帧帧间几何变换改变量,Ji表示雅可比矩阵,
[0074] εi表示第i帧对应的帧间几何变换在Rn空间内变换的基,i∈[1,n];T表示转置,Δnτi表示第i帧帧间几何变换改变量,R 表示维度为n的几何变换空间,τi为第i帧帧间几何变换,Fi为为输入的视频中的第i帧,ζ为求导的迭代变量。
[0075] 上式是一个凸优化问题,可以通过迭代有效地求解。通过LRR,可以轻松实现运动分离和背景重建。
[0076] 步骤2中,为了充分发挥LLM的力量,提出了两分支和循环结构,使LLM分别关注运动和背景细节,然后联合分析并输出具有洞察力的报告。LLM接收来自LRR的分离背景或移动物体(第1阶段),并充当“分析器”来生成输出。由于LLM最初是在语言数据集上进行预训练的,不具备多模态输入的能力,因此通过转换视觉数据和文本数据,遵循Visual ChatGPT和LLaMa‑VID的类似想法分别使用视觉编码器和文本解码器进行视觉嵌入和文本查询。然后,使用线性投影仪处理视觉嵌入和文本查询,以生成LLM的基本标记。最后,LLM大语言模型接受这些标记并进行分析响应。或者,用户可以提供专业知识来帮助LLM更好地理解数据。具体来说,采用预训练的QFormer作为文本解码器,采用EVA‑G作为视觉编码器。对于LLM,使用预训练的Vicuna,权重为7B和13B。具体步骤为:
[0077] 步骤2.1.以提示词形式将遥感专业知识输入大语言模型LLM中;
[0078] 步骤2.2.将低秩分解得到的低秩背景L序列影像输入LLM大语言模型,LLM大语言模型根据遥感专业知识及低秩背景L序列影像进行分析,输出关于静态背景的内容分析;
[0079] 步骤2.3.将低秩分解得到的稀疏运动S序列影像输入LLM大语言模型,大模型根据遥感专业知识及稀疏运动S序列影像进行分析,输出关于动态目标的内容分析。
[0080] 步骤3中,为了更好地在卫星视频中进行LLM大语言模型的上下文学习,设计了分层理解的范式,并利用它们作为消除幻觉的提示,如图2。借助强大的LLM,可以同时实现多个任务(例如场景分类和目标检测),并且可以利用卫星视频知识进一步提高这些任务。
[0081] 对于卫星视频中的静态背景,LRR重建的场景背景是干净且静态的。为了准确和有价值的描述,设计了层级式描述框架,如图2。包含场景级、目标级和特征级。在场景级描述中,进一步分为人造场景和自然场景。在人造场景中,包含城区、郊区、住宅区和工业区四类;在自然场景中,包含植被、水体、雪和裸地四类。在目标级描述中,进一步分为交通目标、可移动目标和静态目标。交通目标包含机场、火车站和港口。可移动目标包含汽车、轮船、飞机和火车。静态目标包含停车场、建筑和树。在特征级描述中,进一步分为光照、纹理和传感器。
[0082] 移动对象与静态背景相比,运动物体本质上将卫星视频与其他遥感图像区分开来,并提供了运动下丰富的潜在信息。还以分层的方式实现运动分析,其中LRR强调的运动在顶层从空间方面和时间方面进行分析,如图2。在空间方面,设置了两个平行的方面,将所有运动物体视为总体趋势的群体,并关注单个物体的轨迹。在时间方面,以视频中的最后一帧作为时间参考,并用速度等选定的状态来描述过去、现在和未来。在动态目标中,进一步设计了时空描述框架。在空间方面,包含整体运动趋势和独立运动轨迹两个内容。在空间方面,包含过去运动状态、当前运动状态和未来运动估计三个内容。
[0083] 联合视频。再次用LLM全面理解了静态背景和运动物体分支的结果。最后,输出视频理解报告。
[0084] 使用Nvidia RTX 4090和Tesla V100 GPU测试本实施例的方法。LRR主要使用C++语言的OpenCV和Eigen库实现,而LLM主要使用PyTorch库构建。Python脚本是为LRR和LLM的集成而开发的。采集吉林一号和珞珈三号卫星的40个视频并进行人工标注。遥感领域的工作很少,因此选择通用的视频理解方法,包括Video‑LLaMA、VideoChat、Video‑ChatGPT和LLaMA‑VID。最后,通过测量正确关键字的百分比来关注准确性。
[0085] 获得了来自LRR模块的分离背景视频(V‑BKG)、分离运动视频(V‑MOV)、联合视频(V‑JNT)和原始视频(V‑ORI)的分析结果。计算出的精度总结在表1中。
[0086] 表1精度对比分析
[0087]
[0088] 一般来说,所提出的框架在卫星视频上实现了最佳性能,得分为85.52%(7B)和87.36%(13B)。首先,由于提出了带有LRR的两分支注意力,唯一背景和运动部分(V‑BKG和V‑MOV)的准确性通常优于原始视频(V‑ORI)。其次,由于背景和运动的协同作用,两部分的联合分析结果(V‑JNT)也优于原始视频(V‑ORI)。这些比较表明,所提出的机制不仅对的方法有益,而且还为其他方法带来了改进,证明了其有效性和泛化性。此外,的方法对卫星视频有更精细的描述,设计的理解范式进一步帮助模型进行更统一和专业的分析。一些描述如图3,其中绿色、蓝色和红色分别代表真实、正确和错误的关键词。
[0089] 还比较了具有不同权重的框架的性能,如表1。一般来说,13B权重的框架在准确率上与7B框架(85.52%)表现相同(87.36%)。这主要是由于设计的两分支结构。有意将复杂的理解任务拆分为两个更简单的任务,以便LLM大语言模型可以更专注于每个方面,然后共同分析结果。对于13B框架,发现它在一些非常复杂的视频中通常具有更高的精度,幻觉更少,但GPU消耗更多(13B大约30GB,7B大约24GB)。因此,应该在理解准确性和特定应用的硬件成本之间取得平衡。图4(a)中的一些可视化以对话方式进行可视化。此外,为了证明不同语言的一致性,还用中文和日文测试了的框架,如图4(b)。的方法为视频提供了一致的描述。事实上,由于其良好的泛化性,所提出的框架可以很容易地应用于无人机(UAV)视频。
[0090] 实施例2
[0091] 本实施例提供一种融合低秩表达与大语言模型的卫星视频解析系统,包括:
[0092] 模块一:其用于获取原始卫星视频,基于低秩表示LRR对所述卫星视频中的运动物体和静态背景进行分离并求解获取低秩背景L和稀疏运动S;
[0093] 模块二:其用于将模块一中获取的低秩背景L和稀疏运动S分别输入LLM大语言模型生成格式化语言描述;
[0094] 模块三:其用于将低秩背景L和稀疏运动S生成的格式化语言描述分别输入LLM大语言模型联合分析,形成具有见解的最终报告。
[0095] 尽管已描述了本发明的优选实例,但本领域的技术人员一旦得知了基本的创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围所有的变更和修改。
[0096] 显然,本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样,倘若本发明实施例的这些修改和变型属于本发明权利要求及其同等技术的范围之类,则本发明也意图包含这些改动和变型在内。
[0097] 其它未详细说明的部分均为现有技术。

当前第1页 第1页 第2页 第3页
相关技术
卫星视频相关技术
方法系统相关技术
高智发明人的其他相关专利技术