首页 / 基于深度强化学习的无人艇目标追踪决策控制方法

基于深度强化学习的无人艇目标追踪决策控制方法公开 发明

技术总结

本发明提供一种基于深度强化学习的无人艇目标追踪决策控制方法,建立无人艇运动模型以获得无人艇当前运动状态;建立目标追踪任务奖励函数;基于软演员‑评论家算法构建深度强化学习网络模型,初始化;获取目标船舶的当前位置和预测位置;利用深度强化学习网络模型得到无人艇最优控制策略和更新后的无人艇运动状态;随机选取控制策略以得到更新后的目标船舶运动状态,将所述更新后的无人艇运动状态和更新后的目标船舶运动状态作为训练样本存储在经验池,当未追上目标船舶时重复以上过程;当追上目标船舶时从经验池中随机采样以更新所述深度强化学习网络模型参数。本发明提升无人艇的智能决策能力和跟踪性能,推动其在民用和军用领域的应用发展。

技术研发人员:

王子豪; 胡淇元; 王瑞宇; 谢文博; 宋锐; 李政霖; 周洋; 彭艳; 谢少荣

受保护的技术研发主体:

上海大学

技术申请主体:

上海大学

技术研发申请日期:

2024-11-30

技术被公开/公告日期:

2025-03-07