首页 / 基于分层微分博弈的多智能体系统编队策略

基于分层微分博弈的多智能体系统编队策略实质审查 发明

技术领域

[0001] 本发明涉及多智能体协调控制技术领域,具体涉及一种基于分层微分博弈的多智能体系统编队策略。

相关背景技术

[0002] 多智能体协调控制是多智能体系统领域的热门话题,需要每个智能体通过通信,协作和竞争来完成指定的系统任务。特别地,多智能体系统的编队控制在协调控制中起着重要的角色,例如,集群灯光表演,协作搬运货物以及围捕追踪等。在上述场景中,多智能体系统通常会受到通信和任务约束,因此,有必要研究该分布式编队问题,即设计某种分布式机制来处理多智能体系统的有限通信能力以解决带有障碍物约束额编队问题。
[0003] 在分布式编队控制问题中,有很多解决方法,例如基于行为结构的方法,模型预测控制,强化学习等。然而这些方法都没有充分发挥智能体之间的动态交互特性。博弈论量化智能体之间的决策过程,以此保证智能体总是可以选择最佳行为来实现个体或集体目标。尤其是,微分博弈量化智能体之间的动态冲突过程,其经常被用于求解协调控制问题,例如,追逃问题以及编队问题等。
[0004] 微分博弈在编队控制问题中的应用探索如下:文献(Mylvaganam  T,AstolfiA.Adifferential game approach to formation control for a team ofagents with one leader[C]//2015American Control Conference(ACC).IEEE,2015:1469‑
1474.)研究了非合作微分博弈模型以解决编队问题,然而,该方法假设智能体之间的通信是完美的,实际上,每个智能体会受到通信约束。为了解决通信约束问题,文献(Mylvaganam T,AstolfiA.Towards asystematic solution for differential games with limited communication[C]//2016American Control Conference(ACC).IEEE,2016:3814‑3819.)结合分布式控制,最优控制以及博弈理论形成了一种多参与人分布式微分博弈,并证明参与人形成的局部纳什均衡解的存在性。然而,在上述文献中,存在两个主要的问题在编队控制中没有得到解决。首先,编队策略没有考虑障碍物约束,即环境中假设没有障碍物。其次,所获得的编队控制策略是离线的,这会使受动态环境约束的智能体的控制策略性能下降。
[0005] 为了解决所述两个问题,文献(Lin W,Li C,Qu Z,et al.Distributed formation control with open‑loop Nash strategy[J].Automatica,2019,106:266‑273.)提出滚动微分博弈方法,用于解决编队控制中环境动态变化问题,即,在每一时间步长,开环纳什均衡中的第一个控制输入用于控制智能体,在下一个时间步长,重复上述过程。滚动编队策略可以补偿离线纳什均衡的时间不一致性。基于该原因,滚动微分博弈成为处理动态环境下编队控制问题的流行手段。然而,该方法由于在每个时间步长都需要重新博弈,所以不仅具有教高的计算代价以及较差的实时性,而且在理论上难以保证均衡解的存在性,导致系统性能下降。

具体实施方式

[0073] 为让本专利的特征和优点能更明显易懂,下文特举实施例,作详细说明如下:
[0074] 应该指出,以下详细说明都是例示性的,旨在对本申请提供进一步的说明。除非另有指明,本说明书使用的所有技术和科学术语具有与本申请所属技术领域的普通技术人员通常理解的相同含义。
[0075] 需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0076] 如图1所示,本实施例提供一种基于分层微分博弈的多智能体系统编队策略,其具体设计和验证过程如下所示:
[0077] 利用图论,建立多智能体系统中智能体之间的通信关系;建立一阶线性积分器作为智能体的模型;此外,设定其中一个智能体为领导者,其余智能体为跟随者;只有领导者知道期望终点位置,其余跟随着与领导者保持期望的编队距离;定义智能体的工作环境区域,并将环境中存在的障碍物视作椭球体。
[0078] 在策略层,针对环境中存在的已知障碍物,将参与任务的所有智能体看作博弈参与人,由于智能体具有有限的通信能力,所以将带有障碍物约束的多智能体系统的编队问题建模为分布式微分博弈;博弈模型中包括运行成本函数以及控制成本;
[0079] 本实施例利用庞特里亚金最小值原理,分析局部纳什均衡解的存在性以及唯一性,并列写局部纳什均衡解的表达形式,在通信拓扑图强连通的情况下,保证了局部纳什均衡解的全局收敛性;
[0080] 在规划层,针对环境中的未知障碍物,利用基于滚动优化的二次规划模型实时修改来自策略层的局部纳什均衡解,最后形成混合编队策略;
[0081] 经过本实施例的理论和仿真论证,当智能体成功的避开未知障碍物后,在理论上保证了混合编队策略能够收敛到局部纳什均衡解,此外,该混合策略能够收敛到期望的编队队形。
[0082] 在本实施例中,智能体执行的任务为:使受通信约束的多智能体系统,在有未知障碍物存在的环境中,实现期望的编队队形,减少计算代价,提升系统性能。
[0083] 在本实施例中,多智能体动态方程具体形式为:
[0084]
[0085] 式中,t为时间刻度; 为第i个智能体t时刻的位置信息的变化率;xi(t)为第i个智能体t时刻的位置信息;ui(t)为第i个智能体t时刻的控制策略;
[0086] 定义t时刻多智能体系统的状态为 其中,x1(t)和xN(t)分别为t时刻第1个智能体的位置信息以及第N个智能体的位置信息;
[0087] 建立N个智能体的有向交互拓扑图G(v,ε),其中,v={1,...,N}表示智能体集合;
[0088] 表示边的集合;eij智能体i与智能体j的通信关系;eij∈ε表示智能体i可以接收智能体j的信息;智能体i的邻居集合为
[0089] 在编队控制问题中,考虑仅领导者知道期望的目标位置,跟随着之间保持相对距离以实现期望的编队,则定义智能体i的状态误差为:
[0090]
[0091] 式中, 为第i个智能体t时刻的状态误差信息的变化率; 为第i个智能体t时刻的状态误差信息;αi和βi分别定义第i个智能体是领导者(αi=1,βi=0)还是跟随者(αi=0,βi=1);xj(t)为第i个智能体的邻居智能体j在t时刻的位置信息;xd为期望目标位置;
为第i个智能体与邻居智能体j的期望编队距离;
[0092] 建立智能体工作环境区域:
[0093] 考虑智能体的工作环境中存在的障碍物为椭球形,定义避碰区域 为:
[0094]
[0095] 式中,R3为智能体所处的三维平面;ai为智能体i的安全距离; 为t时刻障碍物的位置, 是障碍物 的半径;I2为单位权重矩阵;
[0096] 定义感应区域 为:
[0097]
[0098] 式中,Ai是智能体i的感应范围;
[0099] 定义自由区域 为:
[0100]
[0101] 给出如下假设条件:
[0102] 假设一:智能体所处的工作环境中的障碍物是稀疏的。
[0103] 假设二:每个智能体的初始位置不重合,即:
[0104] xi(t0)≠xj(t0)                (6)
[0105] 式中,t0为智能体的工作初始时刻,xi(t0)和xj(t0)分别为第i个智能体和第j个智能体在初始时刻t0的位置;
[0106] 假设三:每个智能体的初始位置和目标点位置分别满足以下条件:
[0107]
[0108] 式中,tf为智能体的工作末端时刻,xi(tf)为第i个智能体在末端时刻tf的位置;
[0109] 假设四:期望的编队距离满足以下条件:
[0110]
[0111] 为实现多智能体系统中领导者能够到达期望的目标点,同时跟随者之间保持期望距离的目标,需要确定每个智能体的最优控制策略,其中每个智能体受动态方程式(1),网络拓扑G(v,ε)以及碰撞区域 约束。
[0112] 为了实现多智能体系统编队问题的控制目标,将带有已知障碍物约束的编队问题建模为分布式博弈问题,此外,定义参与完成任务的智能体为博弈参与人。
[0113] 设计每个参与人的博弈成本如下所示:
[0114]
[0115] 式中,ui和u‑i分别为t时刻智能体的控制策略和除智能体i外的邻居自智能体的控制策略集合,x(t0)为t0时刻多智能体系统的初始位置信息,χi(x(t))为t时刻第i个智能体的运行成本,Ri为第i个智能体的可调整的正定权重矩阵;
[0116] 定义第i个智能体的运行成本函数如下:
[0117]
[0118] 式中, 和 为常数,pi(x)和 分别为t时刻领导者i的障碍物惩罚函数以及第i个跟随者的障碍物惩罚函数,分别定义如下:
[0119]
[0120] 式中,为智能体工作环境中障碍物存在的总个数。
[0121]
[0122] 式中,aj为智能体j的安全距离。
[0123] 因此,多智能体系统的编队控制问题的控制目标为为每个受动态方程式(1),网络拓扑G(v,ε)以及已知碰撞区域 约束的博弈参与人设计最优协调策略,并且需要使领导人安全的到达期望的目标点,同时跟随者之间保持相对的编队位置。此外,参与人i与邻居参与人可以收敛到局部纳什均衡,即t时刻策略集 满足:
[0124]
[0125] 式中, 和 分别为t时刻参与人i的最优策略与邻居参与人的最优策略集合, 与 分别为参与人i相对于邻居参与人的最优
成本与次优成本。
[0126] 给出局部纳什均衡存在的定理:给出可允许的控制策略集合 并假设其为紧集。此外,假设除参与人i以外的邻居参与人的最优位置信息集合为x‑i(t),且满足假设一到假设三,则存在满足博弈模型(9)的最优控制策略
[0127] 给出局部纳什均衡唯一性法则:针对微分博弈模型(9),令带有两点边界值的联合系统为:
[0128]
[0129] 式中, 为多智能体系统t时刻的位置信息的变化率; 为多智能体系统t时刻的联合状态变化率;I3N为3N维的单位矩阵; 为给定的某个矩阵;x(t)为多智能体系统t时刻的位置信息;λ(t)为多智能体系统t时刻的联合状态;x(t0)为多智能体系统初始时刻的位置信息;x0为某个常数;λ(t0)为多智能体系统初始时刻的联合状态。
[0130] 则如果 为正定矩阵,则对于任意的多智能体系统初始时刻的位置信息x0,所示式(14)中存在唯一的解。
[0131] 基于庞特里亚金最小值原理求解局部纳什均衡解。首先定义哈密顿函数为:
[0132]
[0133] 式中,λi(t)为智能体i在t时刻的联合状态;x*(t)为多智能体系统t时刻的最优位置信息;ui(t)为智能体i在t时刻的控制策略;u‑i(t)为智能体i的邻居智能体在t时刻的控制策略集合;x(t0)为多智能体系统初始时刻的位置信息;
[0134] 为智能体i在t时刻的联合状态的转置信息; 为第i个智能体t时刻的位置信息的变化率。
[0135] 其次,局部纳什均衡解满足以下微分方程组:
[0136]
[0137] 边界条件为:
[0138]
[0139] 式中, 为t时刻参与人i的最优策略;x(t0)为多智能体系统初始时刻的位置信息;x0为某个常数;λi(tf)为智能体i在末端时刻的联合状态;
[0140] 为智能体i的邻居参与人达到最优策略时的哈密顿函数形式。
[0141] 分析局部纳什均衡解的全局收敛性。首先,给出全局纳什均衡解的定义:对于N个参与人的微分博弈,如果博弈成本函数满足以下不等式,则N个控制策略集合收敛到全局纳什均衡解。
[0142]
[0143] 式中, 为除智能体i以外的其他所有智能体的最优控制策略集合;
[0144] 为智能体i相对于其他所有智能体的最优成本;为智能体i相对于其他所有智能体的次优成本。
[0145] 此外,存在某个策略 使得以下不等式成立,
[0146]
[0147] 式中, 为智能体i在t时刻的某个策略; 为智能体i达到某个策略 时相对于其他所有智能体的成本。
[0148] 其次,给出局部纳什均衡解的全局收敛性命题:令 为智能体i在t时刻的最优控制策略,假设智能体之间的通信连通图G(v,ε)为强连通的,则1)包含智能体i的所有子连通图对应的局部纳什均衡解是相等的;2)所有智能体对应的局部纳什均衡解都能够收敛到全局纳什均衡解。
[0149] 在规划层,利用滚动优化思想,考虑有未知障碍物存在的多智能体工作环境,并在策略层基础上,将编队控制问题转化为二次规划问题。定义智能体i在规划层的成本函数为:
[0150]
[0151] 式中, 为滚动窗口末端时刻,其中 为滚动窗口初始时刻;tNP为滚动时域; 为多智能体系统在滚动窗口初始时刻的位置误差,位置误差为来自策略层的最优位置与实际位置的差值,其中 和 分别为多智能体系统
在滚动窗口初始时刻的实际位置和最优位置信息; 为智能体i在滚动窗口t的位置误差,其中 为智能体i在滚动窗口t的最优位置;Fi和Qi为第i个智能
体的可调整的正定权重矩阵; 为智能体i在滚动窗口末端时刻的位置误差。
[0152] 在规划层,智能体i利用基于滚动优化的线性二次型模型,实时在线调整来自策略层的最优位置信息。当智能体i遇到未知障碍物时,不再与原来邻居智能体博弈,而是通过线性二次型模型(20),寻找一条接近策略层中最优位置的无碰轨迹;如果智能体i未遇到未知障碍物,则继续采用策略层的均衡解,最后形成混合编队策略。
[0153] 给出编队收敛性的定理:考虑由N个智能体(1)构成的多智能体系统,智能体受网络通信拓扑图G(v,ε)以及碰撞区域 约束。假设智能体i遇到未知障碍物 如果对于每一个智能体在t时刻存在至少一个可行的控制策略,则存在矩阵 使得下式成立:
[0154]
[0155] 式中, Qi>0;Fi>0; 为滚动窗口的采样次数;Δt为滚动窗口的采样总次数。
[0156] 令 为以下最优问题的最优解,则所有智能体渐进收敛到期望编队队形。
[0157]
[0158] 式中, 为第i个智能体在滚动窗口t时刻的最优策略;为滚动窗口初始时刻;为第i个智能体在滚动窗口t时刻的位置误差变化率; 为多智能体系统在滚动窗
口初始时刻的位置误差。
[0159] 基于以上编队收敛性的定理,给出推论:对于由N个智能体(1)构成的多智能体系统,智能体受网络通信拓扑图G(v,ε)以及碰撞区域 约束。假设有g个智能体遇到未知障碍物,且如果该g个智能体基于二次规划模型(20)成功的避开了所有未知障碍物,则该g个智能体由于其余智能体仍然跟随来自策略层的局部纳什均衡解,将会继续收敛到策略层的局部纳什均衡解。
[0160] 以下给出一个具体实例以体现所提出的分层微分博弈的多智能体系统编队策略在解决多智能体带有障碍物约束的编队问题中的有效性及优越性。
[0161] 为证明所得到的最优控制器能够减少计算代价且提升系统性能,本实例采用所提方法与现有滚动微分博弈方法比较,并进行仿真实验。以六个智能体为例,给出智能体i的具体模型表达形式如下所示:
[0162]
[0163] 六个智能体的通信拓扑图如图2所示,定义智能体1为领导者,其余5个智能体为跟T随者。智能体1的初始位置与期望目标点位置分别为:x1(t0)=[‑30,‑30,‑30] ,x1(tf)=T T
[300,300,100] ,跟随者2到6的初始位置分别为:x2(t0)=[‑50,‑20,‑30] ,x2(t0)=[‑40,‑T T T T
70,‑30] ,x2(t0)=[‑20,‑50,‑30] ,x2(t0)=[‑60,‑40,‑30] ,x2(t0)=[‑20,‑60,‑30] ,跟T
随者2与领导者1的期望编队距离为:d12(t0)=[100,0,0] ,跟随者3与跟随者2的期望编队T
距离为:d23(t0)=[‑100,‑100,0],跟随者4与跟随者3的期望编队距离为:
[0164] d34(t0)=[100,‑100,0]T,跟随者5与跟随者4的期望编队距离为:d45(t0)=[100,T T0,0],跟随者6与跟随者5的期望编队距离为:d56(t0)=[100,100,0] ,感应半径为Ai=25。
[0165] 图3中给出了滚动分布式微分博弈方法(对比方法)的智能体位置偏差图,图4中给出了分层微分博弈编队策略(所提方法)的智能体位置偏差图,根据图3和图4可知,对比方法与所提方法都能够使智能体收敛到期望的编队队形,但是根据图5两中方法的计算时间展示图比较可知,由于所提方法不影响博弈参与者的均衡解,无需重复博弈,所提方法的计算代价明显优于对比方法的计算代价,所以,所提的基于分层微分博弈的编队控制策略能够降低计算代价,具有时效性。
[0166] 图6给出了对比方法的智能体策略展示图,图7中给出了所提方法的智能体策略展示图,根据图6和图7可知,由于对比方法在每个滚动时域内都需要重新博弈,博弈过程中纳什均衡解的存在性难以保证,且难以保证个体实现最优,所以对比方法完成任务的时间相较于所提方法,明显增加。由此看来,所提方法可以有效的减少智能体系统完成编队任务的时间,提升系统性能。
[0167] 本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产品的形式。
[0168] 本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0169] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0170] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0171] 以上所述,仅是本发明的较佳实施例而已,并非是对本发明作其它形式的限制,任何熟悉本专业的技术人员可能利用上述揭示的技术内容加以变更或改型为等同变化的等效实施例。但是凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与改型,仍属于本发明技术方案的保护范围。
[0172] 本专利不局限于上述最佳实施方式,任何人在本专利的启示下都可以得出其它各种形式的基于分层微分博弈的多智能体系统编队策略,凡依本发明申请专利范围所做的均等变化与修饰,皆应属本专利的涵盖范围。

当前第1页 第1页 第2页 第3页