首页 / 一种基于深度强化学习的路径规划奖励函数的设计方法

一种基于深度强化学习的路径规划奖励函数的设计方法公开 发明

技术总结

本发明提供一种基于深度强化学习的路径规划奖励函数的设计方法,涉及路径规划技术领域。首先,计算智能体当前行驶速度与期望速度的欧氏距离,定义奖励公式,将奖励公式得到的计算结果作为奖励值赋予智能体;将障碍物分成动态障碍物和静态障碍物两类,计算两类碰撞障碍物时对智能体产生的速度障碍;计算智能体面对两种类型碰撞障碍物时最低逃脱速度障碍的成本值,并将成本值取负数作为奖励值来影响智能体的避碰行为;使用重要性因子对智能体面对动态障碍物时的最低逃脱速度障碍的成本值进行加权,得到加权后的成本;根据最安全的速度调整方向与智能体当前行驶速度的叉积、碰撞惩罚以及到达目标点奖励引导智能体学习避碰策略。

技术研发人员:

翟明圆; 宋志航; 肖冬; 姜楠; 王景杨; 闫泽林

受保护的技术研发主体:

东北大学

技术申请主体:

东北大学

技术研发申请日期:

2024-11-20

技术被公开/公告日期:

2025-03-07