首页 / 一种基于DQN与微分博弈的轨道追逃博弈策略方法

一种基于DQN与微分博弈的轨道追逃博弈策略方法实质审查 发明

技术领域

[0001] 本发明涉及航空航天技术领域,具体涉及一种基于DQN与微分博弈的轨道追逃博弈策略方法。

相关背景技术

[0002] 随着航天技术的不断发展,航天器数量持续增加,任务能力迅速提升,空间环境也日趋复杂。由于航天技术提升飞速,空间作战体系初步构建,我国空间安全面临巨大威胁。因此,我方航天器需要具备相应的空间博弈对抗能力,以确保更好地完成任务。
[0003] 在空间轨道博弈问题中,追逃问题是一个经典且应用广泛的问题,涉及的博弈模型也颇具代表性。对于这一问题的解决,目前主要有两类方法,一是以微分博弈理论为代表的传统方法,二是以深度强化学习为代表的人工智能方法。这两类方法各有其优缺点。传统方法,如微分博弈等,具有解决过程清晰、理论性强的优势,但其解决结果的适用范围有限,导致追击者的运行范围有限。而基于深度强化学习(DQN)等算法的方法,则具有较好的泛化能力,但在训练过程中奖励函数难以收敛,导致追击者的无法快速、准确的逮捕逃逸者。

具体实施方式

[0048] 下面将参考附图并结合实施例来详细说明本发明。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0049] 以下详细说明均是示例性的说明,旨在对本发明提供进一步的详细说明。除非另有指明,本发明所采用的所有技术术语与本申请所属领域的一般技术人员的通常理解的含义相同。本发明所使用的术语仅是为了描述具体实施方式,而并非意图限制根据本发明的示例性实施方式。
[0050] 针对现有技术中存在的追击者的运行范围有限及导致追击者的无法快速、准确的逮捕逃逸者的问题,本发明提供了一种基于DQN与微分博弈的轨道追逃博弈策略方法,如图1所示,该方法为:
[0051] 根据微分博弈理论,设计追击航天器与逃逸航天器控制律样式库,构建博弈对抗动作集;
[0052] 追击者通过DQN模型在博弈对抗动作集挑选得到,逃逸者在博弈对抗动作集随机选择;
[0053] 通过航天器轨道动力学模型对所获取的追击者及逃逸者进行轨道推演;
[0054] 根据轨道推演结果对DQN模型进行调整,直至DQN模型训练损失收敛至平稳,生成轨道追逃博弈策略。
[0055] 以下结合附图对本发明作进一步解释。
[0056] 一种基于DQN与微分博弈的轨道追逃博弈策略方法,主要用于航天器非完备信息轨道追逃博弈中追击航天器的博弈策略求解,所针对的逃逸航天器的控制律是基于微分博弈策略设计的。其特征在于包括以下步骤:
[0057] S1:建立航天器轨道动力学模型,
[0058] 在近圆轨道下,将控制量引入C‑W方程,得到相对运动控制方程为
[0059]
[0060] 其中,i取p或者e,分别代表博弈中的追击者(p)与逃逸者(e),ui=[uix,uiy,uiz]T为航天器i的控制输出,航天器i的相对位置为xi、yi、zi,航天器i的相对速度为 以及航天器i的相对加速度为
[0061] S2,利用微分博弈理论,设计追击航天器与逃逸航天器控制律样式库,构建博弈对抗动作集:
[0062] 确定控制律样式库中控制律的数量为N,取微分博弈代价函数为
[0063]
[0064] 其中,j=1,2,3…N。Qj,Rjp,Rje为权值矩阵,x(t)为t时刻的状态差值向量,即[0065]
[0066] 且
[0067] 其中,
[0068]
[0069]
[0070] 构建黎卡提微分方程组:
[0071]
[0072] 求解该方程组得Pj,得到控制律:
[0073] Kjp=‑Rjp‑1·BT·Pj,Kje=Rje‑1·BT·Pj             (6)
[0074] 得到控制输出为
[0075] ujp(t)=Kjp·x(t),uje(t)=Kje·x(t)                 (7)
[0076] 取j=1,2,3…N,可得追击者控制律样式库:KSp={K1p,K2p,K3p…KNp}[0077] 逃逸者控制律样式库:KSe={K1e,K2e,K3e…KNe}
[0078] 追击者与逃逸者的动作集分别为KSp与KSe。
[0079] S3,设计轨道追逃博弈奖励函数:
[0080] 奖励函数的设计与博弈结束结束条件、相对距离以及相对距离的变化率相关,可将奖励reward分为距离奖励reward_of_dis与距离速率奖励reward_of_rate。取相对距离[0081]
[0082] 定义博弈结束结束标志位done,当done=True时,表明博弈结束;当done=False时,表明博弈进行中。设计博弈结束条件
[0083]
[0084] 设置距离奖励
[0085]
[0086] 设置距离速率奖励
[0087]
[0088] S4,采用DQN构架训练轨道追逃博策略,并验证策略的有效性:
[0089] 每次次追逃博弈开始进行之前,逃逸者在其动作集KSe随机选择一个控制律,用于计算本次追逃博弈中逃逸者的控制输出ue。追击者的控制律由DQN模型进行挑选,并计算追击者的控制输出up。利用式(1)进行轨道推演,利用式(8)实时计算相对距离,并利用式(9)判断本次博弈是否结束,利用式(10)与式(11)计算奖励。整合整个博弈过程中的样本数据,用于调整DQN模型内部参数,直到奖励曲线收敛至最大值。完成训练之后,对策略进行“遍历测试”,以用于检测策略有效性。
[0090] 以下结合具体的实施例对本发明作进一步结束:
[0091] 实施例
[0092] 一种基于DQN与微分博弈的轨道追逃博弈策略方法,主要用于航天器非完备信息轨道追逃博弈中追击航天器的博弈策略求解,所针对的逃逸航天器的控制律是基于微分博弈策略设计的。具体包括以下步骤:
[0093] S1,建立航天器轨道动力学模型;
[0094] 在近圆轨道下,将控制量引入C‑W方程,得到相对运动控制方程为
[0095]
[0096] 其中,i取p或者e,分别代表博弈中的追击者(p)与逃逸者(e),ui=[uix,uiy,uiz]T为航天器i的控制输出,航天器i的相对位置为xi、yi、zi,航天器i的相对速度为 以及航天器i的相对加速度为
[0097] S2,利用微分博弈理论,设计追击航天器与逃逸航天器控制律样式库,构建博弈对抗动作集;
[0098] 确定控制律样式库中控制律的数量为N=3,取微分博弈代价函数为
[0099]
[0100] 其中,j=1,2,3…N。Qj,Rjp,Rje为权值矩阵,x(t)为t时刻的状态差值向量,即[0101]
[0102] 且
[0103]
[0104] 其中,
[0105]
[0106]
[0107] 取权值矩阵Rjp与Rje参数如下表:
[0108]
[0109] 构建黎卡提微分方程组:
[0110]
[0111] 求解该方程组得Pj,得到控制律
[0112] Kjp=‑Rjp‑1·BT·Pj,Kje=Rje‑1·BT·Pj (6)
[0113] 得到控制输出为
[0114] ujp(t)=Kjp·x(t),uje(t)=Kje·x(t)                   (7)
[0115] 取j=1,2,3…N,可得追击者控制律样式库
[0116] KSp={K1p,K2p,K3p}
[0117]
[0118]
[0119]
[0120] 逃逸者控制律样式库
[0121] KSe={K1e,K2e,K3e}
[0122]
[0123]
[0124]
[0125] 追击者与逃逸者的动作集分别为KSp与KSe。
[0126] S3,设计轨道追逃博弈奖励函数;
[0127] 奖励函数的设计与博弈结束结束条件、相对距离以及相对距离的变化率相关,可将奖励reward分为距离奖励reward_of_dis与距离速率奖励reward_of_rate。取相对距离[0128]
[0129] 定义博弈结束结束标志位done,当done=True时,表明博弈结束;当done=False时,表明博弈进行中。设计博弈结束条件
[0130]
[0131] 设置距离奖励
[0132]
[0133] 设置距离速率奖励
[0134]
[0135] S4,采用DQN构架训练轨道追逃博策略,并验证策略的有效性。
[0136] 每次次追逃博弈开始进行之前,逃逸者在其动作集KSe随机选择一个控制律,用于计算本次追逃博弈中逃逸者的控制输出ue。
[0137] 追击者的控制律由DQN模型进行挑选,并计算追击者的控制输出up。利用公式(1)进行轨道推演,利用公式(8)实时计算相对距离,并利用公式(9)判断本次博弈是否结束,利用公式(10)与公式(11)计算奖励。整合整个博弈过程中的样本数据,用于调整DQN模型内部参数,直到奖励曲线收敛至最大值,奖励曲线收敛至最大值如图3所示。完成训练之后,对策略进行“遍历测试”,以用于检测策略有效性。逃逸者分别取“动作”为K1e,K2e以及K3e,追击者“动作”由DQN模型输出,轨迹曲线图如图5、图6与图7所示。
[0138] 本发明的第二个目的在于提出一种基于DQN与微分博弈的轨道追逃博弈策略系统,包括:
[0139] 构建动作集模块:用于根据微分博弈理论,设计追击航天器与逃逸航天器控制律样式库,构建博弈对抗动作集;
[0140] 博弈者选取模块:用于追击者通过DQN模型在博弈对抗动作集挑选得到,逃逸者在博弈对抗动作集随机选择;
[0141] 轨道推演模块:通过航天器轨道动力学模型对所获取的追击者及逃逸者进行轨道推演;
[0142] 生成策略模块:用于根据轨道推演结果对DQN模型进行调整,直至DQN模型训练损失收敛至平稳,生成轨道追逃博弈策略。
[0143] 如图5所示,本发明第三个目的是提供一种电子设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述一种基于DQN与微分博弈的轨道追逃博弈策略方法的步骤。
[0144] 所述一种基于DQN与微分博弈的轨道追逃博弈策略方法包括以下步骤:
[0145] 根据微分博弈理论,设计追击航天器与逃逸航天器控制律样式库,构建博弈对抗动作集;
[0146] 追击者通过DQN模型在博弈对抗动作集挑选得到,逃逸者在博弈对抗动作集随机选择;
[0147] 通过航天器轨道动力学模型对所获取的追击者及逃逸者进行轨道推演;
[0148] 根据轨道推演结果对DQN模型进行调整,直至DQN模型训练损失收敛至平稳,生成轨道追逃博弈策略。
[0149] 本发明第四个目的是提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述一种基于DQN与微分博弈的轨道追逃博弈策略方法的步骤。
[0150] 所述一种基于DQN与微分博弈的轨道追逃博弈策略方法包括以下步骤:
[0151] 根据微分博弈理论,设计追击航天器与逃逸航天器控制律样式库,构建博弈对抗动作集;
[0152] 追击者通过DQN模型在博弈对抗动作集挑选得到,逃逸者在博弈对抗动作集随机选择;
[0153] 通过航天器轨道动力学模型对所获取的追击者及逃逸者进行轨道推演;
[0154] 根据轨道推演结果对DQN模型进行调整,直至DQN模型训练损失收敛至平稳,生成轨道追逃博弈策略。
[0155] 本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产品的形式。
[0156] 本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0157] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0158] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0159] 最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

当前第1页 第1页 第2页 第3页