利用特征嵌入及课程学习思想进行无人艇集群围捕的方法

利用特征嵌入及课程学习思想进行无人艇集群围捕的方法实质审查发明

技术领域

[0001] 本发明涉及人工智能技术领域，具体为一种利用特征嵌入及课程学习思想进行无人艇集群围捕的方法。

具体实施方式

[0050] 下面将结合附图和实例，对本发明实施例中的技术方案进行完整、清楚的描述。

[0051] 如图1所示，本发明的一种利用特征嵌入及课程学习思想进行无人艇集群围捕的方法，包括

[0052] S1)仿真环境构建：采用PettingZoo开源框架建立仿真环境，通过该框架确定系统中无人艇的数量，用于进行追逃围捕任务；

[0053] S2)深度强化学习训练：利用深度强化学习对无人艇集群进行训练，编写逃逸无人艇的行为规则，使其能够在不同情境下适应围捕任务；

[0054] S3)特征嵌入思想：直接将多无人艇观察信息串联为一维向量，无法灵活处理输入维度动态变化的场景，为提高模型鲁棒性，对无人艇执行任务时可能会遇到的个别无人艇失效的情况，对状态空间使用特征嵌入技术实现伸缩不变性；

[0055] S4)课程学习思想：在训练阶段应用课程学习思想，初始设定逃逸无人艇静止，逃逸速度为零，围捕半径条件设置较大，随后逐步提高逃逸速度、缩小围捕半径，使得无人艇集群更好地适应真实任务场景。

[0056] 其中，步骤S1)中在PettingZoo开源框架下构建仿真环境，该环境包含障碍物，靠近障碍物的无人艇将受到负奖励，每轮训练开始时，无人艇的初始位置在仿真环境中设置，而在执行每个动作后，设置相应的奖励函数以引导无人艇学习。

[0057] 其中，步骤S2)中利用深度强化学习训练无人艇集群包括，使用MAPPO算法对无人艇集群进行深度强化学习训练，逃逸无人艇根据其他无人艇的距离和方向进行加权求和，并以一定速度反向逃离，以模拟真实情境。

[0058] 其中，步骤S3)中利用特征嵌入思想实现与无人艇数量无关的状态输入特征。具体而言，无人艇的观察输入为o1，o2，...，on，前馈网络f为：

[0059] f＝h(woi+b)

[0060] 其中，w和b为权重和偏置，h为激活函数。

[0061] 然后对所有无人艇的特征向量f求均值，得到与无人艇数量有关的特征维度向量fmean

[0062]

[0063] 最后，再拼接上无人艇所处的本地特征，即得到最终网络需要的状态输入fstate：

[0064] fstate＝fmean+oenv

[0065] 其中，oenv为无人艇所处的本地特征。

[0066] 其中，步骤S4)中利用课程学习思想训练无人艇集群模型包括，引入线性难度的参数修改器，并根据当前训练步数动态调整围捕半径和逃逸无人艇速度，参数修改器输出的实际围捕半径和逃逸无人艇速度在训练比例阈值内根据指数衰减进行调整，以提高训练的鲁棒性；

[0067] 具体而言，动态调整围捕半径以及逃逸无人艇速度，设当前训练步数为St，参数修改器输出的实际围捕半径darr表达式为：

[0068]

[0069] 逃逸无人艇的速度表达式为：

[0070]

[0071] 其中，αi为比例系数，Stotal为定义的一个episode中的最大时间步数，Cp为训练比例，d为逃逸无人艇与追击无人艇的距离平均值。

[0072] 其中，奖励函数，设置为追踪无人艇无人艇与逃逸无人艇的距离所确定的奖励，追踪无人艇与追踪无人艇的距离及方向的奖励，追踪无人艇与障碍物记录的奖励，花费时间步的奖励，其中，奖励为r，

[0073]

[0074] rst＝rdisForEsc+rdisangForPur+rdisForObs+rstep

[0075] rdisForEsc＝‑k0d0

[0076]

[0077]

[0078] rstep＝‑k4

[0079] 其中，ki为比例系数，di为相应无人艇的距离，δ为距离的标准差。

[0080] 其中，采用MAPPO算法训练无人艇集群，训练阶段，环境输出全局状态st，奖励函数R和环境Env给出各无人艇获取的奖励rt和观测ot，各无人艇根据策略网络给出动作at，得到更新后的全局状态st+1，据此，完成一次时间步的迭代循环，并将中间状态信息[st，ot，at，rt，st+1]存入至经验回放池中，待该epiosde达到终止条件时，进行策略网络和价值网络的参数更新。

[0081] 图2所示，该方法考虑无人艇在海洋中的实际环境，如障碍物，通过深度强化学习的奖励函数的引导，使无人艇在试错过程中做出适当的决策，可以规避障碍物，完成围捕任务。

[0082] 具体的，整个模型包括以下步骤：逃逸无人艇按照固定规则逃逸，其逃逸速度与距离追击无人艇的速度成反比，围捕半径也在动态调整，如图3所示，前期为了加快无人艇集群围捕任务的成功率，设定的无人艇围捕成功的半径值更大，达到一定条件时，即St/Stotal≥Cp时，设定的围捕半径为固定值。而追击无人艇使用MAPPO算法进行训练。初始化无人艇网络的参数。具体来说，采用集中式训练，分布式执行的思想，对无人艇集群所处的环境进行训练。图4为策略网络的示意图，图5为价值网络的示意图。图4中，策略网络接受的参数为单无人艇观察的信息，包括本无人艇自己的位置信息，环境的信息，经过两层全连接层，激活函数使用ReLu函数，最后，输出该无人艇下一时间步动作值加速度和角加速度。而图5价值网络接受的输入是全局中每个无人艇的观察信息拼接动作信息之后的值，然后通过两层全连接层，激活函数使用ReLu函数，最后，通过linear连接层之后，输出这个时间步的整体价值。然后，将此次的训练数据加入到缓冲区中，在此epoisode结束之后，将开始更新整个网络的参数。重复上述操作，直至达到目标点，停止迭代，获得网络参数。

[0083] 以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

查看完整全部详细技术资料

当前第1页第1页第2页第3页