技术领域
[0001] 本发明涉及多智能体协调控制技术领域,特别涉及一种基于鲁棒微分博弈的多智能体系统避碰策略方法。
相关背景技术
[0002] 在过去的十年中,多智能体系统由于其松散耦合的网络结构而备受关注,智能体可以通过相互作用来解决单个智能体无法解决的问题。在多智能体系统中,智能体避碰是智能体能够安全协同执行任务的前提条件。
[0003] 博弈论是解决多智能体决策的有效工具,其中微分博弈被广泛的应用到多智能体协调控制领域。微分博弈是博弈论与最优控制的结合,将微分博弈方法引入到多智能体协调控制中,可以充分体现智能体之间的动态交互性。对比分布式优化算法,微分博弈方法不需要中央协调机制,只需要智能体自私的优化自己的成本函数,最终仍能收敛到纳什均衡,具有严格的数学保证。当前基于微分博弈的方法已经在解决考虑有线通信能力的追逃问题和考虑外部干扰的情况下的编队问题等应用领域取得成功,包括文献(Lin W,Qu Z,Simaan M A.Nash strategies for pursuit‑evasion differential games involving limited observations[J].IEEE Transactions on Aerospace and Electronic Systems,2015,51(2):1347‑1356.)提出了一种构建反馈追逃策略的方法,该方法不依赖于智能体的全局状态信息,文献(de la Cruz N,Jimenez‑Lizarraga M.Finite time robust feedback Nash equilibrium for linear quadratic games[J].IFAC‑PapersOnLine,2017,50(1):11794‑11799.)建立了一种带有外部干扰的集中式微分博弈模型,将外部干扰看作最大化成本函数的虚拟玩家,但没有考虑智能体的有限通信能力,文献(Fu Y,Chai T.Online solution of two‑player zero‑sum games for continuous‑time nonlinear systems with completely unknown dynamics[J].IEEE transactions on neural networks and learning systems,2015,27(12):2577‑2587.)构建了一种分布式的不确定零和微分博弈,得出了局部鲁棒纳什均衡,但没有严格的理论保证。为了实现多智能体全局任务的协调性,需要局部鲁棒纳什均衡的全局收敛性保证。考虑到传统微分博弈方法在解决多智能体避碰问题中,没有考虑智能体的通信能力限制以及外部干扰问题,所以避碰策略缺乏鲁棒性,且无法保证任务高效顺利完成。因此,为了更好实现多智能体安全高效的顺利完成任务,需要针对智能体的有限通信能力以及存在的外部干扰问题,建立相应的微分博弈模型,以提升避碰策略的鲁棒性,尽可能减少智能体完成任务的时间。
[0004] 因此,为了解决这一将微分博弈方法引入到避碰问题中产生的完成任务效率低以及控制性能差的难题,可以考虑引入人工势场法设计避碰规则,以及考虑将干扰看作一种最大化成本函数的虚拟玩家方法。设计一种基于鲁棒微分博弈的多智能体系统避碰策略方法。当前现有的技术提出的基于鲁棒的微分博弈的解决方案主要聚焦于智能体全局信息已知的情况下,对于分布式鲁棒微分博弈方法仍很少应用在多智能体避碰问题中,无法提供合适的解决方案。
具体实施方式
[0111] 应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
[0112] 需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0113] 如图1所示,本实施例提供一种基于鲁棒微分博弈的多智能体系统避碰策略方法,包括以下步骤:
[0114] 通过图论方法建立智能体之间的通信关系,智能体之间可获取其邻居智能体的位置信息,建立一阶线性模型作为博弈参与者,对智能体的工作环境进行建模,将障碍物视为椭圆形;
[0115] 设计基于人工势场法的避碰规则,如图2所示,并建立分布式鲁棒微分博弈模型;
[0116] 引入最优鲁棒控制策略,通过计算所得的位置误差求取成本函数和局部鲁棒值函数,分析最优控制与局部鲁棒纳什均衡解的关系以及纳什均衡解的存在性和全局收敛性;
[0117] 引入基于最佳性能指标的逆优化方法以及非支配占优的蚁群优化算法求解最优控制策略。
[0118] 在本实施例中,智能体执行的任务为:在多智能体受外界干扰以及通信有约束的的情况下,使多智能体从初始位置无碰的到达目标点,且减少智能体完成任务的时间。
[0119] 在本实施例中,所述多智能体动态方程具体形式为:
[0120]
[0121] 式中,t为时间刻度; 为第i个智能体t时刻的位置信息的变化率;xi(t)为第i个多智能体t时刻的位置信息;ui(t)和uj(t)分别为第i个智能体和第j个智能体t时刻的控制策略;ωi(t)和ωj(t)分别为第i个智能体和第j个智能体t时刻的干扰策略;Bii,Bij,Eii,Eij分别为相应策略对应的常数矩阵;
[0122] 建立N个智能体的有向交互拓扑图G(v,ε),其中,v={v1,...,vN}表示智能体集合;表示边的集合;eij智能体i与智能体j的通信关系;eij∈ε表示智能体i可以接收智能体j的信息;智能体i的邻居集合为
[0123] 定义智能体i的局部动态方程为:
[0124]
[0125] 式中, 为第i个智能体t时刻的局部状态信息的变化率; 为第i个多智能体t时刻的局部状态信息;uij(t)为智能体i对邻居智能体j在t时刻的推断策略;ωij为第i个智能体对邻居智能体j在t时刻推断的干扰策略; 分别为相应策略对应的常数矩阵;
[0126] 建立障碍物环境模型:
[0127] 考虑障碍物为椭圆形,定义避碰区域Sik为:
[0128]
[0129] 式中,R2为智能体所处的二位平面;ri为智能体i的安全距离;ci(t)为t时刻障碍物k的位置, 是障碍物k的半径;I2为单位权重矩阵;
[0130] 定义感应区域Dik为:
[0131]
[0132] 式中,Ri是智能体i的感应范围;
[0133] 定义自由区域Mik为:
[0134]
[0135] 给出如下的假设条件:
[0136] 假设一:ωi(t)是平方可积的,对于 存在常数 满足如下条件:
[0137]
[0138] 式中,tf是智能体i末端运行时刻; 为某一个正常数; 为正实数;
[0139] 假设二:有向交互拓扑图G(v,ε)是固定且强连通的;
[0140] 设计基于人工势场法的避碰规则:
[0141]
[0142] 式中, 为t时刻智能体i的惩罚函数; 为t时刻多智能体系统的当前位置与目标点位置的偏差;χi(0<χi<1)和 分别为常数; 为t时刻智能体
i的障碍物惩罚函数; 为t时刻智能体i的距离惩罚函数;
[0143] 距离惩罚函数的表示如下所示:
[0144]
[0145] 式中, 为智能体i的目标点位置; 为智能体i在t时刻的当前位置与目标点位置的偏差;
[0146] 为了优化智能体的轨迹,引入距离惩罚函数,以惩罚智能体对目标点的偏离程度,表示如下:
[0147]
[0148] 式中,γi(t)为t时刻智能体i运行的偏差角度,该偏差角度是智能体当前位置与预定义的参考轨迹之间的角度;
[0149] 建立分布式鲁棒微分博弈成本函数,表达形式如下所示:
[0150]
[0151] 式中, 可以简写为Ji;tf为智能体i的末端运行时刻; 为多智能体系统的初始状态信息;u‑i(t)和ω‑i(t)分别为t时刻除智能体i外的邻居智能体的控制策略和干扰策略; 分别为t时刻除智能体i外的邻居智能体的最优控制策略和最优干扰策略; 为t时刻智能体i的最优控制策略;
为末端成本, 为t时刻智能体i的运行成本,
为t时刻智能体i的控制成本,
为t时刻智能体i的干扰成本,Fii,Rii,Rij,Wii,Wij分别为可调整的正定权重矩阵;
[0152] 分布式多智能体系统避碰问题的目标是为每个智能体设计反馈的控制策略,并且在有限时域内安全的到达目标点;同时,智能体i与邻居智能体可以收敛到全局纳什均衡,即策略集 满足:
[0153]
[0154] 式中, 为t时刻智能体i的最优成本; 为t时刻智能体i的最优策略;
[0155] 所述的智能体i的局部鲁棒值函数表达形式如下:
[0156]
[0157] 式中,Ji为步骤S3中所述的分布式鲁棒微分博弈成本函数;
[0158] 所述最优控制策略为:设最优控制器u*能够使得值函数最小,即最优控制器u*能够使 达到最优值函数,表达形式如下:
[0159]
[0160] 给出局部鲁棒纳什均衡解存在的充分条件为:假设对于所有的 和存在且连续,则局部鲁棒值函数Vi满足以下分布式鲁棒哈密顿‑雅可比‑艾萨克斯(HJI)方程:
[0161]
[0162] 式中, 为第i个智能体t时刻的状态信息变化率;分别为智能体i的局部鲁棒值函数对多智能体系统状态偏差的偏导以
及对时间t的偏导;
[0163] 则所述的t时刻智能体i的最优鲁棒控制策略和最坏干扰策略可以写为:
[0164]
[0165]
[0166] 将该微分博弈问题看作线性二次型问题,令:
[0167]
[0168] 式中,Di为智能体i的邻居信息矩阵;Pi(t)=PiT(t)>0为t时刻正定矩阵;
[0169] 则t时刻智能体i的最优鲁棒控制策略和最坏的干扰策略为:
[0170]
[0171]
[0172] 式中,Pi(t)满足以下耦合的黎卡提方程:
[0173]
[0174] 式中, 为t时刻矩阵Pi(t)的变化率;Pi(tf)=Fii;
[0175] 假设局部鲁棒纳什均衡解存在的充分条件成立,且邻居智能体已达到最优策略,令智能体i的最优鲁棒控制策略以及最坏的干扰策略形式满足(17a)、(17b)中的形式,则智能体i及邻居智能体的策略会收敛到局部鲁棒纳什均衡解;
[0176] 令 分别是t时刻智能体i相对于邻居智能体的最优控制策略和最坏干扰策略,当且仅当图G(v,ε)为强连通时,局部鲁棒纳什均衡可以收敛到全局纳什均衡,即[0177] 在步骤S5中,
[0178] 所述的基于近似最佳性能指标的逆优化方法构建智能体的局部鲁棒纳什均衡解,利用基于非支配占优的蚁群优化算法求解最优的反馈增益;
[0179] 构建t时刻智能体i的局部鲁棒反馈控制策略为:
[0180]
[0181]
[0182] 式中, 分别为t时刻智能体i的构建控制策略对应的反馈增益矩阵以及构建干扰策略对应的反馈增益矩阵; 分别为t时刻智能体i的构建控制策
略以及干扰策略;
[0183] 求解构建的局部最优鲁棒最优策略集 等价于求解最优反馈增益矩阵 其中, 分别为t时刻智能体i的
局部最优构建鲁棒策略以及局部最优构建干扰策略, 分别为t时刻除智能体i
外的邻居智能体的局部最优构建鲁棒策略以及局部最优构建干扰策略; 分别
为t时刻智能体i的局部最优构建鲁棒策略对应的最优反馈增益矩阵以及局部最优构建干扰策略对应的最优反馈增益矩阵; 分别为t时刻除智能体i外的邻居智能体的
局部最优构建鲁棒策略对应的最优反馈增益矩阵以及局部最优构建干扰策略对应的最优反馈增益矩阵;
[0184] 构建近似最佳性能指标为:
[0185]
[0186] 式中, 为构建的相关系数,定义如下:
[0187]
[0188]
[0189]
[0190]
[0191] 根据步骤S3中所述的局部成本函数,所构建的近似最佳性能指标可以变形为如下形式:
[0192]
[0193] 式中,
[0194]
[0195] 根据步骤S3中所述的局部成本函数,可以得出构建的反馈增益矩阵的约束条件,并将求解最优反馈增益矩阵问题转变为多目标优化问题;
[0196] 利用基于非支配占优的蚁群优化算法求解构建的最优反馈增益矩阵,并得出相应的局部鲁棒纳什均衡解。
[0197] 对于t时刻智能体i,定义多目标优化函数为:
[0198]
[0199] 式中, υc>0为常数;该多目标优化问题的目标是求最优反馈增益集合,使函数 函数
值最小。
[0200] 在本实施例中,给出一个具体实例以体现所提出的分布式鲁棒微分博弈方法在解决多智能体避碰问题中的有效性及优越性。
[0201] 根据图3可知,为证明所得到的最优控制器能够减少智能体完成任务的时间,本实例进行仿真实验,与现有仅考虑障碍物惩罚目标的集中式微分博弈方法比较。给出多智能体系统的具体模型表达形式如下所示:
[0202]
[0203]
[0204] 式中。 分别为第1个智能体和第2个智能体t时刻的局部状态信息的变化率; 分别为第1个智能体和第2个智能体t时刻的局部状态信息;u1(t),u2(t)分别为第1个智能体和第2个智能体t时刻的控制策略;
[0205] 各个智能体的初始位置与目标点位置为:x1(0)=[30,30]T,x2(0)=[370,370]T,感应半径为R1=R2=48。
[0206] 各个智能体的效益函数具体形式如下:
[0207]
[0208]
[0209] 多目标的模型形式如下:
[0210]
[0211] 式中, υ1=0.5,υ2=0.3,υ3=0.2。
[0212] 根据图3可知,该仿真案例中,将仅考虑障碍物惩罚的集中式微分博弈方法与引入轨迹优化目标的集中式微分博弈方法比较,即对比方法与所提方法比较,两种方法虽然都能够使智能体的位置偏差趋于0,但是引入轨迹优化目标的集中式微分博弈方法收敛时间为49s,仅考虑障碍物惩罚的集中式微分博弈方法收敛时间为59s,所以,引入轨迹优化目标的集中式微分博弈方法能够减少智能体完成任务的时间。
[0213] 根据图4可知,本实例提供了3个智能体的有向通讯拓扑图。为证明所得到的最优控制器具有鲁棒性,本实例进行仿真实验,与现有成本函数中不考虑干扰的分布式微分博弈方法比较。给出多智能体系统的具体模型表达形式如下所示:
[0214]
[0215]
[0216]
[0217] 式中。 分别为第1个智能体,第2个智能体,第3个智能体t时刻的局部状态信息的变化率; 分别为第1个智能体,第2个智能体,第3个
智能体t时刻的局部状态信息;u1(t),u2(t),u3(t)分别为第1个智能体,第2个智能体,第3个智能体t时刻的控制策略;u13(t),u21(t),u32(t),ω13(t),ω21(t),ω32(t)分别为第1个智能体,第2个智能体,第3个智能体t时刻对邻居智能体的推断控制策略以及推断干扰策略;
[0218] 各个智能体的效益函数具体形式如下:
[0219]
[0220]
[0221]
[0222] 多目标的模型形式如下:
[0223]
[0224] 式中, υ1=0.5,υ2=0.2,υ3=0.1,υ4=0.1,υ5=0.1。
[0225] 各个智能体的初始位置与目标点位置为:x1(0)=[30,30]T,x2(0)=[370,370]T,x3T T(0)=[370,30] , x3(0)=[30,370] ,R1=R2=48,外部干扰为ωi=sin
(t)。
[0226] 根据图5可知,所提的分布式鲁棒微分博弈方法能够使各个智能体的位置偏差趋于0,表示任务完成。而根据图6可知,对比的分布式微分博弈方法中,智能体2与障碍物产生碰撞,最终位置偏差不为0,表示任务未完成。本实例说明所提方法的避碰策略具有鲁棒性。
[0227] 应当指出的是,本发明并不局限于上述示范性示例所展示的内容,且在不违背本发明的基本特征的前提下,能够以另外的形式实现本发明。因此,应当将实例看作为一个示范性实例,而非限制性的,本发明的涵盖范围由所附权利要求而非上述说明决定,旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内,在不违背本发明原理前提下,对本发明做出的若干修饰与改进都应视为本发明的保护范围之内。