首页 / 不完全信息下的航天器微分博弈拦截控制方法

不完全信息下的航天器微分博弈拦截控制方法实质审查 发明

技术领域

[0001] 本发明涉及不完全信息下的航天器微分博弈拦截控制方法,属于航天器博弈控制领域。

相关背景技术

[0002] 对于卫星拦截问题,当拦截星接近目标星时,目标星将采取机动策略以躲避。此时传统的单边优化的拦截策略将不再适用,需要对考虑目标机动的双边策略进行研究。但由于战场环境的约束,或传感器的限制,拦截器将不能完全获悉目标信息,使得拦截呈现不完全信息态势。因此,研究不完全信息下航天器博弈拦截控制方法是空间追逃问题发展的重要举措。
[0003] 所谓微分博弈(ISAACS R.Differential Games[M].New York:John Wiley and Sons,1965:1‑5.),即在参与者的对抗过程中,至少一个参与者能够利用先前过程中的状态信息来决定当前时刻的具体动作,如果参与者之间的目标不完全一致,那么就是非合作的。由于博弈论的思想可以同时考虑多个航天器的控制量,所以研究其在追逃问题中的应用受到了众多学者的关注。
[0004] Hafer W T,Reed H L.Orbital pursuit‑evasion hybrid spacecraft controllers[C]考虑了航天器追逃的双边博弈,并各自任务的策略,通过博弈值函数与轨迹界栅判断是否进行策略切换,实现了追逃任务与各自任务的平衡。Potani M,Conway B A.Optimal Interception of Evasive Missile Warhead Numerical Solution of the Differential Game[J].Journal of Guidance,Control and Dynamics,2008,31(4):1111‑1122.研究了航天器远程拦截博弈,针对协态变量初值难以确定的问题,通过遗传算法优化求解近似初值,再将运动轨迹离散化,并配置各离散点状态,通过非线性规划优化求解协态变量初值的精确值。
[0005] 由于目标的非合作性,其信息通常不能完全获得,针对该拦截问题,Prokopov O,Shima T.Linear quadratic optimal cooperative strategies for active aircraft protection[C]研究了目标的逃逸防御问题,给定拦截器策略,分别在目标与防御器之间存在单向通讯和双向通讯的态势下,建立了目标与防御器的最优博弈策略。Cavalieri K A.Incomplete information pursuit‑evasion games with application to spacecraft rendezvous and missiledefense[D]以双积分动力学为动力学模型,分别研究了目标信息不完全和动力学信息不完美的情况。将不完全信息和不完美信息均视为扩展的状态变量,对原动力学进行增广,通过设计观测器实现对扩展状态的估计,进而实现对不完全信息和不完美信息的估计。
[0006] 目前,虽然对于博弈拦截问题已存在较多的研究,但现有研究航天器追逃的模型还不完善,大多需假设拦截器可完全获得目标信息,或在简化动力学基础上研究不完全信息博弈。由此获得的控制策略可能偏离实际态势,无法满足快速拦截的需求。

具体实施方式

[0071] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本发明保护的范围。
[0072] 需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
[0073] 下面结合附图和具体实施例对本发明作进一步说明,但不作为本发明的限定。
[0074] 具体实施方式一、结合图1和图2所示,本发明提供了一种不完全信息下的航天器微分博弈拦截控制方法,包括,
[0075] 步骤一:建立参考卫星,在以参考卫星为原点的轨道坐标系下,建立拦截星相对参考卫星的动力学方程,并简化为CW方程;再将CW方程转化为状态空间方程,并展开得到拦截星与目标星的相对动力学方程展开式;
[0076] 步骤二:基于拦截星与目标星的相对动力学方程展开式确定拦截星与目标星在最优控制策略下的博弈指标函数;
[0077] 步骤三:设定对称正定矩阵P,结合博弈指标函数的最优控制策略建立拦截星与目标星满足纳什均衡的鞍点策略对;并确定对称正定矩阵P的约束条件;
[0078] 步骤四:采用Epsilon纳什均衡对描述鞍点策略对,再通过行为学习算法估计得到目标星控制矩阵估计值;
[0079] 步骤五:基于目标星控制矩阵估计值,由对称正定矩阵P的约束条件确定对称正定矩阵P,再基于对称正定矩阵P得到拦截星的推力博弈策略,采用所述推力博弈策略对目标星进行拦截控制。
[0080] 在航天器末端拦截过程中,拦截星与目标星距离较近,因此在拦截星附近建立参考卫星,在忽略一切摄动力的前提下建立航天器动力学方程。此方向包括目标航天器和拦截航天器两个局中人。
[0081] 进一步,结合图2所示,步骤一中,设参考卫星运行在圆轨道,以参考卫星为原点O1,地心矢径方向为x轴,轨道角动量方向为z轴,y轴满足右手定则,定义轨道坐标系O1xyz。在轨道坐标系O1xyz下,拦截星相对参考卫星的动力学方程可简化为CW方程:
[0082]
[0083]
[0084]
[0085] 式中x1为拦截星相对参考卫星的x轴坐标,y1为拦截星相对参考卫星的y轴坐标,z1为拦截星相对参考卫星的z轴坐标;ω为参考卫星的轨道角速度; 为拦截星的x轴推力,为拦截星的y轴推力, 为拦截星的z轴推力。
[0086] 步骤一中,将CW方程转化为状态空间方程:
[0087]
[0088] 式中X为拦截星状态变量 : U为控制推力:
[0089] A、B为中间变量:
[0090]
[0091] 将状态空间方程展开得到拦截星与目标星的相对动力学方程展开式;
[0092]
[0093] 式中XPE为拦截星与目标星的相对状态,UP为拦截星的推力博弈策略,UE为目标星的推力拦截策略,C为中间变量,C=B。
[0094] XPE=XP‑XE,式中XP等于同拦截星状态变量X,XE为目标星状态变量。 为XPE的一阶导数。
[0095] 再进一步,步骤二中,最优控制策略为:
[0096] 确定局中人的指标函数。指标函数即各个航天器期望达到的目标。
[0097] 在博弈过程中,使拦截星趋于以最小代价快速实现对目标星的拦截,使目标星趋于以最小代价尽量增大与拦截星间的距离;
[0098] 定义博弈指标函数J为:
[0099]
[0100] 式中tf为终端时刻,S为中间变量,为对称正定矩阵;t0为起始时刻,Q为对称半正定矩阵,RP为拦截星控制矩阵,RE为目标星控制矩阵,t为时间。
[0101] 再进一步,步骤三中,拦截星与目标星满足纳什均衡的鞍点策略对为:
[0102]
[0103] 其中对称正定矩阵P满足终值条件P(tf)=S,
[0104] 推力幅值限制为:||UP||≤ρP,||UE||≤ρE,
[0105] 其中ρP为拦截星推力幅值最大值,ρE为目标星推力幅值最大值;
[0106] 同时对称正定矩阵P满足黎卡提微分方程:
[0107]
[0108] 结合图3所示,步骤四中,目标星控制矩阵估计值的获得方法为:
[0109] 本实施方式中考虑到拦截星无法获得目标星控制矩阵RE的态势,采用Epsilon纳什均衡对其进行描述,通过行为学习算法实现对目标信息的估计,具体步骤如下:
[0110] 拦截星采用估计器对RE进行估计,而目标星可以获得完全信息,控制策略由UE完全确定。本实施方式假设目标星控制矩阵RE在当前采样周期的拦截中保持不变;
[0111] 定义扩展状态变量Y=[XPE rE]T,式中rE为目标星控制矩阵信息值,[0112] 将目标控制策略代入相对状态方程,得到:
[0113]
[0114] 式中 为Y的一阶导数,f(Y)为中间函数,Z为量测状态变量,I6为6阶单位矩阵;
[0115] 对上式离散化得到k时刻扩展状态变量偏差值ΔYk和k时刻量测状态变量偏差值ΔZk:
[0116]
[0117] 式中Φ(k,k‑1)为k时刻状态转移矩阵,且Φ(k,k‑1)≈I+FnT,式中Fn为雅克比矩阵,T为采样时间;
[0118] Wk‑1为k‑1时刻过程噪声,Hk为k时刻量测矩阵,Vk为k时刻量测噪声;
[0119] 同时满足以下条件:
[0120]
[0121] 式中Wk为k时刻过程噪声,带有下角标j的变量表示j时刻对应变量,Qk为k时刻系统噪声序列的方差阵,为半正定阵;Rk为k时刻量测噪声序列的方差阵,δkj为Kronecker符号;
[0122] 确定初始时刻的扩展状态变量偏差估计值 及初始时刻的扩展状态变量误差协方差矩阵估计值Pk‑1,采用广义卡尔曼滤波(类EKF)进行状态估计,得到k时刻扩展状态变量偏差预测值 及k时刻扩展状态变量误差协方差矩阵预测值Pk,k‑1:
[0123] 滤波方程为:
[0124]
[0125] 式中 为k时刻扩展状态变量偏差估计值,Kk为k时刻的滤波增益矩阵,[0126] Pk为k时刻扩展状态变量误差协方差矩阵估计值,I为单位矩阵;
[0127] 再基于 和Pk,k‑1确定拦截星与目标星的相对状态估计值,并计算得到目标星控制矩阵信息值rE的估计值 进而得到目标星控制矩阵估计值 再计算获得拦截星的推力博弈策略Up。
[0128] 最后,步骤五中,当完成对目标状态信息的估计后,采用微分博弈控制方法设计相应的拦截策略可实现对目标的自适应拦截。
[0129] 将目标星控制矩阵估计值 作为目标星控制矩阵RE,采用所述黎卡提微分方程计算对称正定矩阵P:
[0130]
[0131] 再结合图3所示,在得到目标状态估计信息后设计相应的控制策略,即基于对称正定矩阵P计算得到拦截星的推力博弈策略:
[0132]
[0133] 具体实施例:
[0134] 为了验证本发明方法建立的博弈模型以及采用的求解策略的有效性,对不完全信息下的追逃模型进行了仿真计算。初始条件设定如下:假设拦截航天器与目标均运行在近地轨道(LEO)附近,选取近地轨道上与其相近的卫星作为参考卫星,其轨道角速度ω=‑1 T T0.001rad·s 。拦截器与目标的初始位置分别为[1.5 0.5 0]km,[0 0 0]km,初始速度分T ‑1 T ‑1
别为[0 0 0]km·s ,[‑0.05 0 0.05]km·s 。博弈终端时间为2000s。设拦截器与目标的
2
单位质量最大推力加速度均为10m/s。指标函数中控制参数真值设置如下:
6 6
[0135] RP=1×10I,RE=1.5×10I;
[0136] 得到目标状态估计信息后设计相应的控制策略,各滤波器的参数设置如下:过程‑6 ‑6 ‑6 ‑6 ‑6 ‑6 10噪声方差阵为diag{[10  10  10  0.25×10  0.25×10  0.25×10  10 ]};量测噪声‑8 ‑8 ‑8 ‑8 ‑8 ‑8 T
方差阵为[10  10  10  0.25×10  0.25×10  0.25×10 ]。
[0137] 本实施例的仿真结果如图4‑6所示:拦截器采取得到目标状态估计信息后设计相应的控制策略方法,对目标控制矩阵进行估计,进而建立博弈策略。拦截器与目标的相对距离变化如图5所示,通过得到目标状态估计信息后设计相应的控制策略可以实现对目标信息的有效估计。
[0138] 综上,本发明方法通过对不完全信息下可机动航天器追逃问题的分析,构建了末端拦截博弈模型,利用微分对策理论分析求解了一种控制方法,为拦截航天器提供了符合自身利益的最优控制策略及最优拦截轨迹,模型应用贴合实际,具备快速拦截的能力,适应性强。
[0139] 虽然在本文中参照了特定的实施方式来描述本发明,但是应该理解的是,这些实施例仅仅是本发明的原理和应用的示例。因此应该理解的是,可以对示例性的实施例进行许多修改,并且可以设计出其他的布置,只要不偏离所附权利要求所限定的本发明的精神和范围。应该理解的是,可以通过不同于原始权利要求所描述的方式来结合不同的从属权利要求和本文中所述的特征。还可以理解的是,结合单独实施例所描述的特征可以使用在其它所述实施例中。

当前第1页 第1页 第2页 第3页