首页 / 一种基于目标聚类的雷达自适应频谱资源配置方法

一种基于目标聚类的雷达自适应频谱资源配置方法实质审查 发明

技术领域

[0001] 本发明涉及无线通信技术领域,具体涉及一种基于目标聚类的雷达自适应频谱资源配置方法,尤其适用复杂电磁环境下多目标探测任务场景。

相关背景技术

[0002] 随着雷达的广泛应用和雷达数量的快速增长,雷达所处的频谱被不断地挤占,其抗干扰能力也不断地受到考验。雷达系统在执行任务时往往面临着复杂且不确定的电磁频谱环境,这要求其雷达从收集到的大量信息中甄别出有效信息,从而有效决策出下一步动作。在我们的研究中,每部雷达都必须在拥挤的频谱中分配子频段、调频斜率和波束方向,以避免相互干扰并成功探测目标,这是一个顺序决策问题。通常情况下,采用马尔科夫决策过程对上述决策问题进行建模。然而,如果将问题建模为马尔可夫决策过程,就会导致优化问题难以找到全局最优解从而收敛到次优解,而且行动空间的数量也会变得非常复杂。甚至会导致算法无法收敛。此外,由于雷达之间存在干扰,在一个时隙内无法有效判断目标是否真实。因此,需要多个时隙来观察判断,这也导致该问题成为了一个具有不同时间尺度的复杂决策问题。

具体实施方式

[0081] 以下结合附图对本发明的实施例作进一步详细描述。
[0082] 在所研究的场景中,如图2所示,总共I个雷达和K个移动中的目标,雷达的目标是减少相互之间的干扰并准确探测目标信息。其中,每个雷达都为毫米波多输入多输出(multiple‑input multiple‑output,MIMO)雷达。
[0083] 假设将整个频谱等分成Y个不重叠的子频段。同时,雷达每个时隙选择一个子频段。为模拟实际频带拥挤的场景,满足Y略大于I即子频段数量略大于雷达数量。
[0084] 每个雷达i使用的MIMO雷达均为Mt个发射天线和Mr个接收天线的MIMO雷达,均采取均匀线阵排布,相邻的发射/接收天线的间隔d=λ/2,λ为波长。
[0085] 则第i个MIMO雷达的第mt个发射天线发射信号为:
[0086]
[0087] 其中B表示信号带宽, 表示第i个雷达的线性调频间隔, 表示第i个雷达的线性调频间隔, 表示第i个雷达使用的载波频率。
[0088] 为了雷达能够更精准的探测目标,本文采用波束成形技术使得MIMO雷达发射信号主瓣能量集中。因此,根据离散傅里叶变换(Discrete Fourier Transform,DFT)码本有为:
[0089]
[0090] 其中P表示DFT码本的总码字数,以及p=0,1,...,P‑1。Mt表示每个雷达发射天线的总数量。
[0091] 此时,经过波束成形后的第i个雷达上的MIMO雷达的第mt个发射天线发射信号为:
[0092]
[0093] 判断目标是否在雷达发射信号的主瓣范围内,若目标在主瓣范围内则认为雷达发射信号的波束范围内存在目标,然后发射信号在目标上镜面反射并形成回波信号;否则认为该雷达没有探测到目标。同时,由于雷达与目标之间的距离远大于雷达之间的距离,当雷达的波束命中目标后,在目标上近似镜面反射,从而对处于同一子频段的其他雷达产生干扰。
[0094] 因此,当第i个机载MIMO雷达探测到目标后,其第M个接收天线接收到的信号为:
[0095]
[0096] 其中x表示其他与第i个雷达采用同一个载频的第x个雷达,ni(t)表示高斯白噪声,γ表示天线接收系数,如天线增益、路径损耗和目标反射系数都反映在其中。 为第,个节点上的MIMO雷达的第mt个发射天线的信号反射到目标并被第mr个接收天线接收的时间xi延迟。而γ 为第,个雷达接收到第x(x≠i)个雷达的发射信号的接收系数, 为第x个雷达的第mt个发射天线的信号在目标上镜面反射并被为第i个雷达的第mr个接收天线接收的时间延迟。
[0097] 在上文的公式中, 部分为第i个雷达接收到自身的发射信号的目i i 4
标回波,满足γ =Gρ/(R) 以及 其中m=mtmr,c为光速,
i i
R为目标与第,个雷达的距离,ρ为目标反射系数,G表示雷达的天线增益,θ 为目标相对于第i
i个雷达的方位角,v 为目标与第,个雷达的相对速度。在时间延迟中可以看到前半部分的延迟由与目标之间的的相对距离和相对速度引起,而后半部分由天线之间的距离导致的波程差而引起的。
[0098] 而 部分为采用同一个子频段的其他雷达对第i个雷达的干扰xi xi 4 xi
信号,满足γ =Gρ/(R ) 以及 其中R 为第x个雷达
xi xi
与第i个雷达的相对距离,v 为第x个雷达相对第i个雷达的速度,θ 为第x个雷达相对第,个雷达的方位角。
[0099] 差频信号中的目标回波信号的能量聚集在几次特定的谐波上,而扫频干扰则呈现为一系列线性调频信号的叠加,因此,可对差频信号沿频率轴做一维恒虚警检测,通过计算背景噪声和干扰噪声自适应产生检测门限,进而减少干扰。
[0100] 在均值类CFAR中,以检测单元为中心,使用其两侧的参考窗口内的样本均值来估计检测阈值。若检测单元幅值超过阈值,则判定检测到目标,反之,则判定未检测到目标。检测阈值计算首先需要计算参考窗口的估计均值Z:
[0101]
[0102] 其中si为第,个参考窗口中待测信号的样本值,NCFAR为参考窗口内的样本点数。接着,需要根据虚警概率PFA计算门限因子B:
[0103]
[0104] 根据参考窗口的估计均值Z和门限因子B得到检测门限T=BZ,再将检测单元幅值与检测门限T进行对比,得到是否检测到目标的结果。同时,为了有效检测出目标数量,对每一个检测出目标的检测单元进行进一步检测,若该检测单元与另一个检测出目标的检测单元相邻则认为是同一目标,否则为另一个目标,最后得到目标个数Yi,t。
[0105] 将雷达系统的自适应频谱资源配置问题转化为自上而下的共两层的分层决策。两种决策任务分别是波束方向决策和频谱配置决策,其中波束方向决策为跨多个时间步长的半马尔可夫决策过程的上层决策,频谱决策为执行基本动作的半马尔可夫决策过程下层决策。下面给出具体的半马尔科夫决策过程的具体建模方法,在波束方向决策中,给定状态空间 智能体i在时隙t中观测到的状态定义为 其中 表示智能体i观测到目标的相对距离,Yi,t表示通过CFAR检测出的目标个数;在时隙t中智能体i决定的波束方向动作定义为 得到的决策立即在时隙t中执行,雷达发射信号采用一个新的波束方向wi,t+1,波束方向保持不变,直到 在时隙t+1中被执行;即时回报定义为:
[0106]
[0107] 在频谱决策马尔可夫决策过程中,状态空间和动作空间分别为 和 智能体j在时隙t内观测到的状态定义为 其中 为上层的波束方向决策所执行的动作,fj,t表示雷达通过信号接收装置观测到的当前时隙t下频谱占用状态, 表示相对噪声水平估计值;智能体j决定的频谱决策动作为 其中 和αj,t分别表示智能体j在时隙t选择的子频段和调频斜率;每个智能体j根据选择的动作 和 去发射信号,得到接收信号。对接收信号进行快速傅里叶变化得到其在当前时隙t下的频谱Rj,t(f),使用采样间隔Δf对Rj,t(f)进行采样,采样间隔Δf由采样率和FFT点数决定,得到序列其中Mf是FFT点数的数量。接着对该序列进行升序排序,得到一个新的
序列
[0108]
[0109] 由于目标回波的功率主要集中在频谱Rj,t(f)的峰值上。因此,通过丢弃最大的Nt个样本,可以消除目标回波,得到噪声水平的估计值:
[0110]
[0111] 其中Nt是丢弃的数量。Nt的值可以近似选择为:
[0112]
[0113] 其中lmax为最大目标的长度尺寸,nmax为最大目标数。除目标回波信号外的丢弃值对与 的估计几乎没有影响,因为对于噪声水平的估计是所有值的平均值,而且Mf>>Nt。因此,Nt的值可以设置为大于上式,以确保丢弃与目标回波对应的所有峰值。则相对噪声水平的估计值可以由噪声水平的估计值 与没有干扰的相对噪声水平 的除得到,可以表示为:
[0114]
[0115] 因此,利用接收信号的频谱可以得到相对噪声水平的估计值,从而判断雷达受干扰程度。则即时回报可以表示为:
[0116]
[0117] 其中η0为设定的阈值。将分层结构应用于该问题不仅大大降低了每个子问题的复杂性,而且通过较低层次的策略提高了整体学习效率。
[0118] 因此,对于上述半马尔可夫决策过程的优化问题可以表示为:
[0119] 和 其中NΔt为波束方向决策与频谱配置决策之间时隙长度的倍数。
[0120] 为了求解基于目标聚类的雷达自适应资源配置问题,提出了基于卷积神经网络的目标聚类和基于行动器‑评判器算法的雷达自适应频谱资源配置方法,并嵌入分层决策框架中,形成基于目标聚类的雷达自适应频谱资源配置方法。
[0121] 基于目标聚类的雷达自适应频谱资源配置方法:
[0122] 目标聚类,作为上层的雷达波束方向决策的观测之一,对雷达探测目标有着重要意义,是因此首先需要对图卷积神经网络进行预训练,然后将训练好的图卷积神经网络嵌入分层强化学习中,为波束方向决策做好目标聚类。使用图卷积神经网络实现目标聚类,首先需要构建邻接矩阵A和特征矩阵x,其中邻接矩阵A由雷达i与目标k的之间的通联关系组成,若探测到该目标则对应的位置A(k,i)置1,反之置0。而特征矩阵X由雷达自身可以探测到的关键信息组成,包括雷达的位置、波束方向和探测到的目标距离。在得到上述矩阵后在卷积神经网络中进行图卷积,具体如下:
[0123]
[0124] 其中 IN为单位矩阵。 是 的度矩阵。Hl为每一层的特征矩阵,对于输l入层则为特征矩阵。σ(·)是softmax函数。W表示卷积神经网络第l层权重矩阵;在输出层得到目标聚类结果Rei之后,需要计算交叉熵损失函数:
[0125]
[0126] 其中Ti为采用独热编码的标签矩阵。在完成预训练之后的Wl将被直接应用于波束方向决策的目标聚类,将聚类结果作为观测之一以帮助搜寻目标。
[0127] 分层强化学习通过优化系统结构,即各层智能体的行为策略,实现对复杂问题的求解。因此,我们提出基于分层强化学习的结合目标聚类的分层行动器‑评判器算法解决以上问题。
[0128] 行动器‑评判器方法通常具有良好的收敛性,其仅使用较小的步长在策略梯度方向上更新策略,这意味着价值函数的变化只会导致策略的微小变化,从而保证策略中较少或没有振荡行为,并且分别采用两个全连接神经网络来近似策略函数π(s;θ)和状态价值函数V(s;ω)。首先对于波束方向决策,两个网络的输入均为智能体,的状态观测 波束方向价值网络的输出为状态 对应的价值 波束方向策略网络的输出为状态 下每个动作对应的概率;定义策略网络参数 和价值网络参数 为智能体i需要迭代优化的参数;在时隙t中,波束方向决策选择动作 的策略表示为:
[0129]
[0130] 表示在状态si,t下依据策略网络参数 在输出的各方案中以一定的概率选中动作波束方向策略网络的输出层采用softmax激活函数,满足:
[0131]
[0132] 该方案在持续NΔt个小时隙结束,对于大时隙而言仅过去一个时隙,根据获得的累积奖励 及价值网络的输出,计算第一时间差误差:
[0133]
[0134] 而价值网络以时间差均方误差最小化为目标更新价值网络参数,将损失函数定义为:
[0135]
[0136] 其中β为损失系数。则价值网络参数的更新公式为:
[0137]
[0138] 策略函数网络在时间差误差的指导下,沿损失函数J(θi)的梯度方向更新网络参数。其中损失函数定义为:
[0139]
[0140] 策略网络参数的更新公式为:
[0141]
[0142] 同样的,在频谱配置决策方案中,定义策略网络参数 和价值网络参数 在时隙t中智能体j观察到上层决策在执行动作 之后按照策略选择动作 具体为:
[0143]
[0144] 不同于多时隙的波束方向决策,频谱配置决策动作需要在每个小时隙Δt内进行决策,并在执行完发射信号动作结束时在当前时隙内就获取奖励 接着计算第二时间差误差:
[0145]
[0146] 价值网络同样以时间差均方误差最小化为目标更新价值网络参数 每个小时隙内损失函数为:
[0147]
[0148] 频谱配置价值网络参数 根据损失函数进行更新, 在根据价值网络的损失函数得到策略网络损失函数 后,策略网络参数 按照公式更新,[0149]
[0150] 本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产品的形式。本申请实施例中的方案可以采用各种计算机语言实现,例如,面向对象的程序设计语言Java和直译式脚本语言JavaScript等。
[0151] 本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器运行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0152] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0153] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上运行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上运行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0154] 尽管已描述了本申请的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请范围的所有变更和修改。
[0155] 显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。

当前第1页 第1页 第2页 第3页
相关技术
聚雷达相关技术
资源配置相关技术
黄洋发明人的其他相关专利技术