首页 / 一种面向微分博弈策略的智能控制律反演方法

一种面向微分博弈策略的智能控制律反演方法实质审查 发明

技术领域

[0001] 本发明属于航天器博弈技术领域,涉及一种面向微分博弈策略的智能控制律反演方法。

相关背景技术

[0002] 在实际的博弈场景中,因为无法直接获得对方的真实目的,不知道其机动能力,也难以获得对方的准确相对状态信息,对非合作目标做出决策时往往面临信息不完整的困境。研究高效智能的策略反演方法用以解决非合作目标博弈策略识别等问题至关重要。其中,对非合作目标进行机动检测是进行控制策略反演的前提和重要保障,为后续策略反演进一步提供数据支撑。Li等人在文章《An escape strategy in orbital pursuit‑evasion games with incomplete information》(不全信息轨道追逃博弈下的逃逸策略)中利用无迹卡尔曼在线信息估计方法和最佳响应最优控制,设计了一种有效的逃逸策略以应对不完全信息下的轨道追逃博弈。Wang等在文章《Incomplete Information Pursuit‑Evasion Game Control for a Space Non‑Cooperative Target》(面向非合作目标的不完全信息追逃博弈控制)中针对不完全信息条件下空间非合作目标追逃对策的最优控制问题,提出了一种将未知目标机动作为有色噪声处理的方法,将对策退化为强跟踪问题。祝海等人在文章《基于微分对策的航天器轨道追逃最优控制策略》中将无迹卡尔曼滤波的方法引入到航天器追逃中,估计支付函数中的权值参数,实时计算出最优的追踪控制律。然而上述方法均受限于传统算法而耗时长,在实际运用中不够高效。

具体实施方式

[0049] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
[0050] 因此,以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围,而是仅仅表示本发明的选定实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0051] 应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0052] 下面结合附图对本发明做进一步详细描述:
[0053] 参见图1,本发明实施例公开了一种面向微分博弈策略的智能控制律反演方法,包括以下步骤:
[0054] S1,基于微分博弈策略模型和无限时间微分对策建立无限时域微分博弈策略模型;
[0055] S2,基于所述无限时域微分博弈策略模型求解纳什均衡策略,得到航天器在博弈中的最优策略模型;
[0056] S3,确定所述最优策略模型的输入和输出,构造用于神经网络的数据集并选取合适的神经网络模型;
[0057] S4,使用所述数据集对所述神经网络模型进行训练,得到初始神经网络模型;
[0058] S5,调整所述初始神经网络模型的参数和超参数,得到最优的智能控制律反演模型。
[0059] 本发明公开了一种面向微分博弈策略的智能控制律反演方法,提出了一种基于神经网络模型的智能学习结构的线性定常控制矩阵反演方法。通过构建适用于序列数据处理的神经网络深度学习结构,旨在更灵活地处理线性定常反馈控制的复杂性,以微分对策下的线性反馈控制律为对象,通过反演未知权重矩阵和控制律参数,揭示了对手的控制策略,为有效应对连续推力追逃提供了理论支持。
[0060] 参见图2和图3,本发明实施例公开了一种面向微分博弈策略的智能控制律反演方法,以下结合具体实施例对本发明的内容进行详细说明:
[0061] 步骤一,基于微分博弈策略模型和无限时间微分对策建立无限时域微分博弈策略模型;
[0062] 在固定时间微分对策中,若追逃双方的博弈时间较长,该种对策就变成了无限时间微分对策;在所述无限时间微分对策中,追逃双方均决心将博弈对抗进行到底,并且有足够的燃料消耗下去;此时,支付函数发生变化:
[0063] 假设追击航天器(目标)采用此种方法,其代价函数为:
[0064]
[0065] 式中,Q为半正定矩阵,是衡量博弈过程中两航天器相对状态之差的权重矩阵;Rp和Re是正定矩阵,分别表征了追击航天器和逃逸航天器能量消耗在支付函数中所占权重;x(t)表示t时刻的两航天器相对状态之差,up(t)是t时刻追击者的控制量,ue(t)是t时刻逃逸者的控制量。
[0066] 为了得到所述无限时间微分对策的鞍点解,构造代数黎卡提方程:
[0067] ATP+PA+Q‑P(BpRp‑1BpT‑BeRe‑1BeT)P=0   (2)
[0068] 式中,黎卡提矩阵P为定常矩阵,A是基于CW线性方程的系统状态空间方程的状态矩阵,Bp和Be分别是追击航天器和逃逸航天器基于CW线性方程的系统状态空间方程的输入矩阵。
[0069] 步骤二,基于所述无限时域微分博弈策略模型求解纳什均衡策略,得到航天器在博弈中的最优策略模型;
[0070] 通过求解所述黎卡提方程,进一步得到追逃双方的最优策略模型:
[0071]
[0072] 上述最优策略模型中的反馈增益 为定常矩阵,当追逃双方在较长时间进行博弈时,采用本最优策略模型。
[0073] 现假设逃逸航天器(我方)的控制矩阵Re在整个博弈过程中都是固定的,追击航天器在整个博弈过程中拥有完整的信息,即知道逃逸航天器的控制矩阵Re。
[0074] 如果追击航天器采用上述无限时域微分博弈策略模型控制,则其控制增益矩阵K(t)实际上是通过求解代数黎卡提方程得到,且取决于权值矩阵Q和Rp。而控制增益矩阵不同,追击航天器所机动过的轨迹则不同,因此面向微分博弈策略的智能控制律反演方法旨在通过轨道信息识别追击航天器所采取的控制矩阵。
[0075] 步骤三,确定所述最优策略模型的输入和输出,构造用于神经网络的数据集并选取合适的神经网络模型;
[0076] 选取追击航天器(目标)在进行连续控制机动下的轨道信息作为最优策略模型的输入,追击航天器(目标)所选取的博弈控制矩阵作为最优策略模型的输出。
[0077] 固定权值矩阵Q,选取不同的控制矩阵Re,生成追击航天器的若干个控制策略;
[0078] 针对不同的所述控制策略进行追击航天器的轨迹推演,并选取追击航天器的固定时间间隔上的轨道位置速度状态向量组成的状态序列;
[0079] 随机设置追击航天器的初始位置,得到若干组状态序列并进行数据标定,同时对状态序列进行预处理,完成不同的控制策略的神经网络的数据集构造。
[0080] 选取适用于所述状态序列处理的长短时记忆网络(LSTM)的深度学习结构,且考虑整个长短时记忆网络包括输入层、LSTM层、全连接层和输出层组成,这样的结构能够有效地处理序列数据,并在分类任务中取得较好的性能。
[0081] 步骤四,使用所述数据集对所述神经网络模型进行训练,得到初始神经网络模型;
[0082] 将所述数据集分为训练集和测试集,使用训练集对神经网络模型进行训练,通过反向传播和梯度下降来调整网络权重,以最小化损失函数,得到初始神经网络模型。
[0083] 控制律反演方法研究,其特征在于,调整网络权重过程如下:
[0084] 给定N个训练样本 其中上标(n)表示第n个样本,X为非合作目标的位置速度信息,P为实际类型概率分布, 为类型的预测概率分布,交叉熵的值越小,说明预测概率分布越接近实际类型概率分布;SoftMax分类使用交叉熵作为损失函数学习最优的参数矩阵ω,则损失函数为:
[0085]
[0086] 损失函数R(ω)关于参数矩阵ω的梯度为:
[0087]
[0088] 步骤五,调整所述初始神经网络模型的参数和超参数,得到最优的智能控制律反演模型。
[0089] 通常情况下,深度网络的训练过程可以大致分为两个阶段:第一个阶段想过前向传播算法得到预测值;在第二阶段,通过反向传播算法计算损失函数对每一个参数的梯度,再根据梯度和学习率,使用梯度下降算法更新每一个参数。
[0090] 梯度下降算法会更迭参数ω,不断沿着梯度的反方向让参数向着损失更小的方向更新。对于函数R(ω),其在参数ω处的梯度为 有了梯度,还需要一个学习率σ(Learning Rate)来定义每次更新的幅度,通过计算ωn处的梯度以及设定学习率就能得到更新公式:
[0091]
[0092] 例如,控制策略选取为:固定权值矩阵Q=1×10‑12I6×6,选取不同的Rp分别为10I3×3和100I3×3。对不同的控制策略随机初始化目标位置,选取30000组轨道数据并进行标定,最终形成90000组训练集。其中随机选取5%的数据作为验证集进行后续训练。最终得到最优的网络结构及神经元个数为:2层LSTM,选取神经元个数为64,使用tanh激活函数;2层前馈层,神经元为128,使用线性激活函数;输出层神经元个数为3,使用softmax激活函数,适用于多类别分类问题。
[0093] 权重初始化方法:lecun_normal
[0094] 损失函数:mean_squared_error
[0095] 优化器:Nadam
[0096] 学习率:0.00001
[0097] 训练结果如图3所示为序列长度为10的观测状态序列的输入情况下,基于LSTM前馈神经网络的对三组线性控制矩阵进行识别的结果,其中训练结果表明训练集上,该模型下的控制矩阵识别准确率可以达到99.2%左右,验证集上,该模型下的控制矩阵识别准确率可以达到97.5%左右。下面列举一个具体实施例,说明本发明的具体计算过程。
[0098] 参见图4,本发明实施例提出一种面向微分博弈策略的智能控制律反演系统,包括:
[0099] 无限时域微分博弈策略模型建立模块,基于微分博弈策略模型和无限时间微分对策建立无限时域微分博弈策略模型;
[0100] 最优策略模型建立模块,基于所述无限时域微分博弈策略模型求解纳什均衡策略,得到航天器在博弈中的最优策略模型;
[0101] 神经网络模型选取模块,确定所述最优策略模型的输入和输出,构造用于神经网络的数据集并选取合适的神经网络模型;
[0102] 神经网络模型训练模块,使用所述数据集对所述神经网络模型进行训练,得到初始神经网络模型;
[0103] 智能控制律反演模型建立模块,调整所述初始神经网络模型的参数和超参数,得到最优的智能控制律反演模型。
[0104] 本发明第二个目的是提供一种面向微分博弈策略的智能控制律反演系统,提出了一种基于神经网络模型的智能学习结构的线性定常控制矩阵反演方法。通过构建适用于序列数据处理的神经网络深度学习结构,旨在更灵活地处理线性定常反馈控制的复杂性,以微分对策下的线性反馈控制律为对象,通过反演未知权重矩阵和控制律参数,揭示了对手的控制策略,为有效应对连续推力追逃提供了理论支持。
[0105] 参见图5,本发明第三个目的是提供一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述面向微分博弈策略的智能控制律反演方法的步骤。
[0106] 基于微分博弈策略模型和无限时间微分对策建立无限时域微分博弈策略模型;
[0107] 基于所述无限时域微分博弈策略模型求解纳什均衡策略,得到航天器在博弈中的最优策略模型;
[0108] 确定所述最优策略模型的输入和输出,构造用于神经网络的数据集并选取合适的神经网络模型;
[0109] 使用所述数据集对所述神经网络模型进行训练,得到初始神经网络模型;
[0110] 调整所述初始神经网络模型的参数和超参数,得到最优的智能控制律反演模型。
[0111] 本发明第四个目的是提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述面向微分博弈策略的智能控制律反演方法的步骤。
[0112] 基于微分博弈策略模型和无限时间微分对策建立无限时域微分博弈策略模型;
[0113] 基于所述无限时域微分博弈策略模型求解纳什均衡策略,得到航天器在博弈中的最优策略模型;
[0114] 确定所述最优策略模型的输入和输出,构造用于神经网络的数据集并选取合适的神经网络模型;
[0115] 使用所述数据集对所述神经网络模型进行训练,得到初始神经网络模型;
[0116] 调整所述初始神经网络模型的参数和超参数,得到最优的智能控制律反演模型。
[0117] 本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产品的形式。
[0118] 本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0119] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0120] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤,如图5所示。
[0121] 以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

当前第1页 第1页 第2页 第3页