首页 / 利用特征嵌入及课程学习思想进行无人艇集群围捕的方法

利用特征嵌入及课程学习思想进行无人艇集群围捕的方法实质审查 发明

技术领域

[0001] 本发明涉及人工智能技术领域,具体为一种利用特征嵌入及课程学习思想进行无人艇集群围捕的方法。

相关背景技术

[0002] 无人艇作为一种以遥控或自主航行的智能化,多用途的无人运载平台,是国家海洋科技实力的重要体现。无人艇具备在恶劣的环境中代替人类执行危险、耗时费力的工作任务的能力,在军事或者民事领域具备广泛的应用场景。但单无人艇自身的能力有限,面对复杂的环境,多样的任务,无人艇集群成为了发展趋势之一,也是信息化,智能化的必然结果。多无人艇不仅是数量的扩充和功能的简单相加,而是有机地集成到系统之中,高度融合,整体联动。目前,无人艇集群围捕受到越来越多的关注,如何实现无人艇集群围捕具备现实价值。
[0003] 目前关于多智能体强化学习的研究多聚焦于陆地环境或空中环境,而无人艇自身的特性与陆地机器人和空中无人机相差去远。对于传统的多智能体深度强化模型,通常是利用MPE(multiagent particle environment)进行训练,但这种模型的不足之处在于:1)不能根据自身需求自定义动作值的大小2)奖励函数也是由MPE给出的,不能调整奖励函数,实现自身需求。
[0004] MAPPO算法是一种深度强化学习算法,是PPO算法应用在多智能体强化学习的一种变体算法。PPO算法是基于Actor‑Critic框架的策略梯度优化算法,通过梯度截断的方法解决更新差异过大的问题。MAPPO算法作为PPO算法在多智能体的变体,其也是Actor‑Critic算法,其不同之处在于集中化训练,分布式执行(centralized  training with decentralized execution,CTDE)。即Critic网络学习的是一个中心价值函数。所有智能体共享该网络,在训练结束之后,各智能体基于自身的观察状态,输入至自身的Actor网络生成的动作函数采取最优动作。

具体实施方式

[0050] 下面将结合附图和实例,对本发明实施例中的技术方案进行完整、清楚的描述。
[0051] 如图1所示,本发明的一种利用特征嵌入及课程学习思想进行无人艇集群围捕的方法,包括
[0052] S1)仿真环境构建:采用PettingZoo开源框架建立仿真环境,通过该框架确定系统中无人艇的数量,用于进行追逃围捕任务;
[0053] S2)深度强化学习训练:利用深度强化学习对无人艇集群进行训练,编写逃逸无人艇的行为规则,使其能够在不同情境下适应围捕任务;
[0054] S3)特征嵌入思想:直接将多无人艇观察信息串联为一维向量,无法灵活处理输入维度动态变化的场景,为提高模型鲁棒性,对无人艇执行任务时可能会遇到的个别无人艇失效的情况,对状态空间使用特征嵌入技术实现伸缩不变性;
[0055] S4)课程学习思想:在训练阶段应用课程学习思想,初始设定逃逸无人艇静止,逃逸速度为零,围捕半径条件设置较大,随后逐步提高逃逸速度、缩小围捕半径,使得无人艇集群更好地适应真实任务场景。
[0056] 其中,步骤S1)中在PettingZoo开源框架下构建仿真环境,该环境包含障碍物,靠近障碍物的无人艇将受到负奖励,每轮训练开始时,无人艇的初始位置在仿真环境中设置,而在执行每个动作后,设置相应的奖励函数以引导无人艇学习。
[0057] 其中,步骤S2)中利用深度强化学习训练无人艇集群包括,使用MAPPO算法对无人艇集群进行深度强化学习训练,逃逸无人艇根据其他无人艇的距离和方向进行加权求和,并以一定速度反向逃离,以模拟真实情境。
[0058] 其中,步骤S3)中利用特征嵌入思想实现与无人艇数量无关的状态输入特征。具体而言,无人艇的观察输入为o1,o2,...,on,前馈网络f为:
[0059] f=h(woi+b)
[0060] 其中,w和b为权重和偏置,h为激活函数。
[0061] 然后对所有无人艇的特征向量f求均值,得到与无人艇数量有关的特征维度向量fmean
[0062]
[0063] 最后,再拼接上无人艇所处的本地特征,即得到最终网络需要的状态输入fstate:
[0064] fstate=fmean+oenv
[0065] 其中,oenv为无人艇所处的本地特征。
[0066] 其中,步骤S4)中利用课程学习思想训练无人艇集群模型包括,引入线性难度的参数修改器,并根据当前训练步数动态调整围捕半径和逃逸无人艇速度,参数修改器输出的实际围捕半径和逃逸无人艇速度在训练比例阈值内根据指数衰减进行调整,以提高训练的鲁棒性;
[0067] 具体而言,动态调整围捕半径以及逃逸无人艇速度,设当前训练步数为St,参数修改器输出的实际围捕半径darr表达式为:
[0068]
[0069] 逃逸无人艇的速度 表达式为:
[0070]
[0071] 其中,αi为比例系数,Stotal为定义的一个episode中的最大时间步数,Cp为训练比例,d为逃逸无人艇与追击无人艇的距离平均值。
[0072] 其中,奖励函数,设置为追踪无人艇无人艇与逃逸无人艇的距离所确定的奖励,追踪无人艇与追踪无人艇的距离及方向的奖励,追踪无人艇与障碍物记录的奖励,花费时间步的奖励,其中,奖励为r,
[0073]
[0074] rst=rdisForEsc+rdisangForPur+rdisForObs+rstep
[0075] rdisForEsc=‑k0d0
[0076]
[0077]
[0078] rstep=‑k4
[0079] 其中,ki为比例系数,di为相应无人艇的距离,δ为距离的标准差。
[0080] 其中,采用MAPPO算法训练无人艇集群,训练阶段,环境输出全局状态st,奖励函数R和环境Env给出各无人艇获取的奖励rt和观测ot,各无人艇根据策略网络给出动作at,得到更新后的全局状态st+1,据此,完成一次时间步的迭代循环,并将中间状态信息[st,ot,at,rt,st+1]存入至经验回放池中,待该epiosde达到终止条件时,进行策略网络和价值网络的参数更新。
[0081] 图2所示,该方法考虑无人艇在海洋中的实际环境,如障碍物,通过深度强化学习的奖励函数的引导,使无人艇在试错过程中做出适当的决策,可以规避障碍物,完成围捕任务。
[0082] 具体的,整个模型包括以下步骤:逃逸无人艇按照固定规则逃逸,其逃逸速度与距离追击无人艇的速度成反比,围捕半径也在动态调整,如图3所示,前期为了加快无人艇集群围捕任务的成功率,设定的无人艇围捕成功的半径值更大,达到一定条件时,即St/Stotal≥Cp时,设定的围捕半径为固定值。而追击无人艇使用MAPPO算法进行训练。初始化无人艇网络的参数。具体来说,采用集中式训练,分布式执行的思想,对无人艇集群所处的环境进行训练。图4为策略网络的示意图,图5为价值网络的示意图。图4中,策略网络接受的参数为单无人艇观察的信息,包括本无人艇自己的位置信息,环境的信息,经过两层全连接层,激活函数使用ReLu函数,最后,输出该无人艇下一时间步动作值加速度和角加速度。而图5价值网络接受的输入是全局中每个无人艇的观察信息拼接动作信息之后的值,然后通过两层全连接层,激活函数使用ReLu函数,最后,通过linear连接层之后,输出这个时间步的整体价值。然后,将此次的训练数据加入到缓冲区中,在此epoisode结束之后,将开始更新整个网络的参数。重复上述操作,直至达到目标点,停止迭代,获得网络参数。
[0083] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

当前第1页 第1页 第2页 第3页
相关技术
围捕方法相关技术
学习思想相关技术
郑建勇发明人的其他相关专利技术