一种基于鲁棒微分博弈的多智能体系统避碰策略方法

一种基于鲁棒微分博弈的多智能体系统避碰策略方法实质审查发明

技术领域

[0001] 本发明涉及多智能体协调控制技术领域，特别涉及一种基于鲁棒微分博弈的多智能体系统避碰策略方法。

具体实施方式

[0111] 应该指出，以下详细说明都是例示性的，旨在对本申请提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。

[0112] 需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本申请的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

[0113] 如图1所示，本实施例提供一种基于鲁棒微分博弈的多智能体系统避碰策略方法，包括以下步骤：

[0114] 通过图论方法建立智能体之间的通信关系，智能体之间可获取其邻居智能体的位置信息，建立一阶线性模型作为博弈参与者，对智能体的工作环境进行建模，将障碍物视为椭圆形；

[0115] 设计基于人工势场法的避碰规则，如图2所示，并建立分布式鲁棒微分博弈模型；

[0116] 引入最优鲁棒控制策略，通过计算所得的位置误差求取成本函数和局部鲁棒值函数，分析最优控制与局部鲁棒纳什均衡解的关系以及纳什均衡解的存在性和全局收敛性；

[0117] 引入基于最佳性能指标的逆优化方法以及非支配占优的蚁群优化算法求解最优控制策略。

[0118] 在本实施例中，智能体执行的任务为：在多智能体受外界干扰以及通信有约束的的情况下，使多智能体从初始位置无碰的到达目标点，且减少智能体完成任务的时间。

[0119] 在本实施例中，所述多智能体动态方程具体形式为：

[0120]

[0121] 式中，t为时间刻度；为第i个智能体t时刻的位置信息的变化率；xi(t)为第i个多智能体t时刻的位置信息；ui(t)和uj(t)分别为第i个智能体和第j个智能体t时刻的控制策略；ωi(t)和ωj(t)分别为第i个智能体和第j个智能体t时刻的干扰策略；Bii，Bij，Eii，Eij分别为相应策略对应的常数矩阵；

[0122] 建立N个智能体的有向交互拓扑图G(v，ε)，其中，v＝{v1，...，vN}表示智能体集合；表示边的集合；eij智能体i与智能体j的通信关系；eij∈ε表示智能体i可以接收智能体j的信息；智能体i的邻居集合为

[0123] 定义智能体i的局部动态方程为：

[0124]

[0125] 式中，为第i个智能体t时刻的局部状态信息的变化率；为第i个多智能体t时刻的局部状态信息；uij(t)为智能体i对邻居智能体j在t时刻的推断策略；ωij为第i个智能体对邻居智能体j在t时刻推断的干扰策略；分别为相应策略对应的常数矩阵；

[0126] 建立障碍物环境模型：

[0127] 考虑障碍物为椭圆形，定义避碰区域Sik为：

[0128]

[0129] 式中，R2为智能体所处的二位平面；ri为智能体i的安全距离；ci(t)为t时刻障碍物k的位置，是障碍物k的半径；I2为单位权重矩阵；

[0130] 定义感应区域Dik为：

[0131]

[0132] 式中，Ri是智能体i的感应范围；

[0133] 定义自由区域Mik为：

[0134]

[0135] 给出如下的假设条件：

[0136] 假设一：ωi(t)是平方可积的，对于存在常数满足如下条件：

[0137]

[0138] 式中，tf是智能体i末端运行时刻；为某一个正常数；为正实数；

[0139] 假设二：有向交互拓扑图G(v，ε)是固定且强连通的；

[0140] 设计基于人工势场法的避碰规则：

[0141]

[0142] 式中，为t时刻智能体i的惩罚函数；为t时刻多智能体系统的当前位置与目标点位置的偏差；χi(0＜χi＜1)和分别为常数；为t时刻智能体
i的障碍物惩罚函数；为t时刻智能体i的距离惩罚函数；

[0143] 距离惩罚函数的表示如下所示：

[0144]

[0145] 式中，为智能体i的目标点位置；为智能体i在t时刻的当前位置与目标点位置的偏差；

[0146] 为了优化智能体的轨迹，引入距离惩罚函数，以惩罚智能体对目标点的偏离程度，表示如下：

[0147]

[0148] 式中，γi(t)为t时刻智能体i运行的偏差角度，该偏差角度是智能体当前位置与预定义的参考轨迹之间的角度；

[0149] 建立分布式鲁棒微分博弈成本函数，表达形式如下所示：

[0150]

[0151] 式中，可以简写为Ji；tf为智能体i的末端运行时刻；为多智能体系统的初始状态信息；u‑i(t)和ω‑i(t)分别为t时刻除智能体i外的邻居智能体的控制策略和干扰策略；分别为t时刻除智能体i外的邻居智能体的最优控制策略和最优干扰策略；为t时刻智能体i的最优控制策略；
为末端成本，为t时刻智能体i的运行成本，
为t时刻智能体i的控制成本，
为t时刻智能体i的干扰成本，Fii，Rii，Rij，Wii，Wij分别为可调整的正定权重矩阵；

[0152] 分布式多智能体系统避碰问题的目标是为每个智能体设计反馈的控制策略，并且在有限时域内安全的到达目标点；同时，智能体i与邻居智能体可以收敛到全局纳什均衡，即策略集满足：

[0153]

[0154] 式中，为t时刻智能体i的最优成本；为t时刻智能体i的最优策略；

[0155] 所述的智能体i的局部鲁棒值函数表达形式如下：

[0156]

[0157] 式中，Ji为步骤S3中所述的分布式鲁棒微分博弈成本函数；

[0158] 所述最优控制策略为：设最优控制器u*能够使得值函数最小，即最优控制器u*能够使达到最优值函数，表达形式如下：

[0159]

[0160] 给出局部鲁棒纳什均衡解存在的充分条件为：假设对于所有的和存在且连续，则局部鲁棒值函数Vi满足以下分布式鲁棒哈密顿‑雅可比‑艾萨克斯(HJI)方程：

[0161]

[0162] 式中，为第i个智能体t时刻的状态信息变化率；分别为智能体i的局部鲁棒值函数对多智能体系统状态偏差的偏导以
及对时间t的偏导；

[0163] 则所述的t时刻智能体i的最优鲁棒控制策略和最坏干扰策略可以写为：

[0164]

[0165]

[0166] 将该微分博弈问题看作线性二次型问题，令：

[0167]

[0168] 式中，Di为智能体i的邻居信息矩阵；Pi(t)＝PiT(t)＞0为t时刻正定矩阵；

[0169] 则t时刻智能体i的最优鲁棒控制策略和最坏的干扰策略为：

[0170]

[0171]

[0172] 式中，Pi(t)满足以下耦合的黎卡提方程：

[0173]

[0174] 式中，为t时刻矩阵Pi(t)的变化率；Pi(tf)＝Fii；

[0175] 假设局部鲁棒纳什均衡解存在的充分条件成立，且邻居智能体已达到最优策略，令智能体i的最优鲁棒控制策略以及最坏的干扰策略形式满足(17a)、(17b)中的形式，则智能体i及邻居智能体的策略会收敛到局部鲁棒纳什均衡解；

[0176] 令分别是t时刻智能体i相对于邻居智能体的最优控制策略和最坏干扰策略，当且仅当图G(v，ε)为强连通时，局部鲁棒纳什均衡可以收敛到全局纳什均衡，即[0177] 在步骤S5中，

[0178] 所述的基于近似最佳性能指标的逆优化方法构建智能体的局部鲁棒纳什均衡解，利用基于非支配占优的蚁群优化算法求解最优的反馈增益；

[0179] 构建t时刻智能体i的局部鲁棒反馈控制策略为：

[0180]

[0181]

[0182] 式中，分别为t时刻智能体i的构建控制策略对应的反馈增益矩阵以及构建干扰策略对应的反馈增益矩阵；分别为t时刻智能体i的构建控制策
略以及干扰策略；

[0183] 求解构建的局部最优鲁棒最优策略集等价于求解最优反馈增益矩阵其中，分别为t时刻智能体i的
局部最优构建鲁棒策略以及局部最优构建干扰策略，分别为t时刻除智能体i
外的邻居智能体的局部最优构建鲁棒策略以及局部最优构建干扰策略；分别
为t时刻智能体i的局部最优构建鲁棒策略对应的最优反馈增益矩阵以及局部最优构建干扰策略对应的最优反馈增益矩阵；分别为t时刻除智能体i外的邻居智能体的
局部最优构建鲁棒策略对应的最优反馈增益矩阵以及局部最优构建干扰策略对应的最优反馈增益矩阵；

[0184] 构建近似最佳性能指标为：

[0185]

[0186] 式中，为构建的相关系数，定义如下：

[0187]

[0188]

[0189]

[0190]

[0191] 根据步骤S3中所述的局部成本函数，所构建的近似最佳性能指标可以变形为如下形式：

[0192]

[0193] 式中，

[0194]

[0195] 根据步骤S3中所述的局部成本函数，可以得出构建的反馈增益矩阵的约束条件，并将求解最优反馈增益矩阵问题转变为多目标优化问题；

[0196] 利用基于非支配占优的蚁群优化算法求解构建的最优反馈增益矩阵，并得出相应的局部鲁棒纳什均衡解。

[0197] 对于t时刻智能体i，定义多目标优化函数为：

[0198]

[0199] 式中， υc＞0为常数；该多目标优化问题的目标是求最优反馈增益集合，使函数函数
值最小。

[0200] 在本实施例中，给出一个具体实例以体现所提出的分布式鲁棒微分博弈方法在解决多智能体避碰问题中的有效性及优越性。

[0201] 根据图3可知，为证明所得到的最优控制器能够减少智能体完成任务的时间，本实例进行仿真实验，与现有仅考虑障碍物惩罚目标的集中式微分博弈方法比较。给出多智能体系统的具体模型表达形式如下所示：

[0202]

[0203]

[0204] 式中。分别为第1个智能体和第2个智能体t时刻的局部状态信息的变化率；分别为第1个智能体和第2个智能体t时刻的局部状态信息；u1(t)，u2(t)分别为第1个智能体和第2个智能体t时刻的控制策略；

[0205] 各个智能体的初始位置与目标点位置为：x1(0)＝[30，30]T，x2(0)＝[370，370]T，感应半径为R1＝R2＝48。

[0206] 各个智能体的效益函数具体形式如下：

[0207]

[0208]

[0209] 多目标的模型形式如下：

[0210]

[0211] 式中， υ1＝0.5，υ2＝0.3，υ3＝0.2。

[0212] 根据图3可知，该仿真案例中，将仅考虑障碍物惩罚的集中式微分博弈方法与引入轨迹优化目标的集中式微分博弈方法比较，即对比方法与所提方法比较，两种方法虽然都能够使智能体的位置偏差趋于0，但是引入轨迹优化目标的集中式微分博弈方法收敛时间为49s，仅考虑障碍物惩罚的集中式微分博弈方法收敛时间为59s，所以，引入轨迹优化目标的集中式微分博弈方法能够减少智能体完成任务的时间。

[0213] 根据图4可知，本实例提供了3个智能体的有向通讯拓扑图。为证明所得到的最优控制器具有鲁棒性，本实例进行仿真实验，与现有成本函数中不考虑干扰的分布式微分博弈方法比较。给出多智能体系统的具体模型表达形式如下所示：

[0214]

[0215]

[0216]

[0217] 式中。分别为第1个智能体，第2个智能体，第3个智能体t时刻的局部状态信息的变化率；分别为第1个智能体，第2个智能体，第3个
智能体t时刻的局部状态信息；u1(t)，u2(t)，u3(t)分别为第1个智能体，第2个智能体，第3个智能体t时刻的控制策略；u13(t)，u21(t)，u32(t)，ω13(t)，ω21(t)，ω32(t)分别为第1个智能体，第2个智能体，第3个智能体t时刻对邻居智能体的推断控制策略以及推断干扰策略；

[0218] 各个智能体的效益函数具体形式如下：

[0219]

[0220]

[0221]

[0222] 多目标的模型形式如下：

[0223]

[0224] 式中， υ1＝0.5，υ2＝0.2，υ3＝0.1，υ4＝0.1，υ5＝0.1。

[0225] 各个智能体的初始位置与目标点位置为：x1(0)＝[30，30]T，x2(0)＝[370，370]T，x3T T(0)＝[370，30] ， x3(0)＝[30，370] ，R1＝R2＝48，外部干扰为ωi＝sin
(t)。

[0226] 根据图5可知，所提的分布式鲁棒微分博弈方法能够使各个智能体的位置偏差趋于0，表示任务完成。而根据图6可知，对比的分布式微分博弈方法中，智能体2与障碍物产生碰撞，最终位置偏差不为0，表示任务未完成。本实例说明所提方法的避碰策略具有鲁棒性。

[0227] 应当指出的是，本发明并不局限于上述示范性示例所展示的内容，且在不违背本发明的基本特征的前提下，能够以另外的形式实现本发明。因此，应当将实例看作为一个示范性实例，而非限制性的，本发明的涵盖范围由所附权利要求而非上述说明决定，旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内，在不违背本发明原理前提下，对本发明做出的若干修饰与改进都应视为本发明的保护范围之内。

查看完整全部详细技术资料

当前第1页第1页第2页第3页