基于状态熵激励的强化学习无人机密集障碍环境下导航策略优化方法

基于状态熵激励的强化学习无人机密集障碍环境下导航策略优化方法实质审查发明

技术领域

[0001] 本发明属于无人机自主导航算法领域，具体涉及一种基于状态熵激励的强化学习无人机密集障碍环境下导航策略优化方法。

具体实施方式

[0061] 为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。借此对本申请如何应用技术手段来解决技术问题并达成技术功效的实现过程能充分理解并据以实施。

[0062] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，因此，本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产品的形式。

[0063] 请参照图1‑3，示出了本实施例的一种具体实施方式，本实施例通过引入了状态熵作为内在奖励，使得无人机能够优先探索那些具有高复杂性的区域，显著提升了无人机在密集障碍环境中的探索效率，减少了不必要的探索时间和资源消耗；同时，利用状态熵激励衡量状态空间中的不确定性，帮助无人机在复杂和多变的环境中保持较高的导航性能。允许无人机在面对动态变化的障碍物和复杂地形时，能够灵活地调整其导航策略，从而增强了对环境复杂性的适应能力，使得无人机在探索过程中追求全局最优解；此外，本实施了所涉及的方法还具备较强的泛化能力，利用状态熵激励通过在训练过程中促使无人机探索不同的区域和状态，提高了所学习策略的普适性，使其在多样化的实际应用场景中也能适应不同的环境条件。

[0064] 请参照图1，本实施例提出了一种基于状态熵激励的强化学习无人机密集障碍环境下导航策略优化方法，具体包括如下步骤：

[0065] 步骤1、初始化环境，包括初始化无人机的物理和动力学参数、设置密集障碍环境的地图信息和配置用于强化学习算法的神经网络模型，所述神经网络模型包括策略网络和价值网络；

[0066] 作为步骤1的优选实施方式，具体包括以下步骤：

[0067] 步骤11、设置无人机的初始位置和姿态，包括(x,y,z)位置坐标和沿各个轴的方向角度(θx,θy,θz)；配置无人机的初始速度和加速度参数(vx,vy,vz)以及(ax,ay,az)，以反映无人机在空间中的动态特性；定义无人机的动力学模型，包括力矩、推力和空气阻力等参数，用于精确模拟无人机的飞行行为和响应；

[0068] 步骤12、设置密集障碍环境的地图信息，如障碍物的位置、大小和形状，这些障碍物密集分布在地图上，形成复杂的导航环境；

[0069] 步骤13、配置用于强化学习算法的神经网络模型，定义策略网络的结构，包括输入层、隐藏层和输出层的神经元数量和连接方式，用于生成无人机在给定状态下应执行的动作；配置价值网络的架构，评估在特定状态和动作组合下的价值，以指导策略网络的优化；初始化神经网络的权重和偏置并设置网络的训练参数，包括学习率、批量大小和折扣因子等，以便于后续的训练和优化过程。

[0070] 步骤2、在时间步j下，从初始化环境中获取无人机的当前状态sj，将其输入到策略网络得到动作向量aj′，并添加随机噪声以确定执行动作aj；

[0071] 作为步骤2的优选实施方式，具体包括以下步骤：

[0072] 步骤21、在时间步j下，从环境中获取无人机的当前状态sj＝[x,y,z,vx,vy,vz,d1,Td2,…,d20] ，其中[x,y,z]表示无人机的位置坐标，[vx,vy,vz]表示无人机沿X轴、Y轴和Z轴的速度，[d1,d2,…,d20]表示无人机所搭载的激光雷达射线所检测到的点与无人机之间的距离；

[0073] 步骤22、将该向量输入到策略网络中，得到当前时间步j下的动作向量aj′＝[vx,Tvy,vz]，vx,vy,vz分别表示无人机沿X轴、Y轴和Z轴的速度；

[0074] 步骤23、为了增加探索能力，在上述步骤22中所述的动作向量aj′的基础上添加随机噪声，确定最终的执行动作aj，这样可以促使算法在不同状态下探索更多可能的动作，进而提升导航策略的效果。

[0075] 步骤3、根据执行动作，更新无人机的下一状态，计算外部奖励，并判断是否达到环境的终止条件，记录相应的结束标识；

[0076] 作为步骤3的优选实施方式，具体包括以下步骤：

[0077] 步骤31、将执行动作aj输入到无人机的动力学模型中，更新和计算无人机的下一状态sj+1。这一步骤根据当前动作调整无人机的速度、位置和姿态等动态特性，模拟无人机在空间中的飞行行为；

[0078] 步骤32、计算外部奖励rext＝r1+r2+r3，r1为距离奖励：

[0079]

[0080] 其中d0表示当前无人机距离目标点的距离；

[0081] r2为到达奖励，当无人机到达目标点位置时，给予一个较大的奖励项：

[0082]

[0083] r3为碰撞惩罚，当无人机与障碍物发生碰撞时，给予一个较大的惩罚项：

[0084]

[0085] 步骤33、判断是否达到终止条件，如无人机是否到达目标点或与障碍物发生碰撞，并记录相应的结束标识。如果无人机到达目标点或发生碰撞，当前回合结束。

[0086] 步骤4、在时间步j下，将当前向量sj、执行动作aj、外部奖励rext、下一状态sj+1及结束标识存入经验回放池；根据结束标识进行回合结束的判断：当前回合结束，则回到步骤1；当前回合不结束，则从经验回放池中抽取样本，并计算状态熵得到内在奖励，与外部奖励合并为总奖励；

[0087] 作为步骤4的优选实施方式，具体包括以下步骤：

[0088] 步骤41、在每个时间步j，将当前状态sj、执行的动作aj、从环境获得的外部奖励下一状态sj+1以及是否结束的标识符组合成一个元组，并将该元组存储到经验回放池B中。这些数据用于后续的网络训练，以提高模型的学习效率和稳定性；

[0089] 步骤42、在经验回放池中的数据量达到一定数量或累积的回合次数达到预设值时，从池中随机抽取一批元组样本。抽取的这些样本用于训练过程中的批量更新。这个步骤的目的是打破数据的时间相关性，使得模型能够更好地泛化和适应不同的环境；

[0090] 步骤43、抽取的这批元组样本记作对于每一个元组里面的当前状态sj，计算它与集合中所有状态s之间的距离。这个过程衡量了当前状态与其他状态的相似度；在计算出的所有距离中，选择与当前状态sj距离最近的k个状态作为邻居，这个步骤主要是筛选出与当前状态最接近的k个状态，反应了当前状态在状态空间中的密度和分布情况；使用距离2
当前状态第k近的状态sk‑nn计算距离||sj‑sk‑nn||，同时，内在奖励记作：

[0091]

[0092] 这个内在奖励激励无人机探索状态空间中的高不确定性区域，从而增强其探索能力；

[0093] 步骤44、在计算内在奖励后，将其与外部奖励结合，以获得最终的总奖励具体地，总奖励的计算公式为：

[0094]

[0095] 其中，λ是一个权重参数，用来平衡外部奖励和内在奖励的影响。通过这种方式，导航算法能够综合利用环境的外部反馈和内在探索的激励，学习到更为有效的导航策略，特别是在密集障碍环境中，实现对高效路径的全局优化。

[0096] 步骤5、用步骤4中得到的总奖励更新价值网络的参数，并通过策略梯度优化策略网络；

[0097] 作为步骤5的优选实施方式，具体包括以下步骤：

[0098] 步骤51、利用得到的总奖励，通过最小化TD误差δj来更新价值网络的参数，公式表达为：

[0099]

[0100] 其中，δj是TD误差，Q是价值网络,θQ是其参数，μ是策略网络，θμ是策略网络的参数，Q′ μ′γ是折扣因子，Q′和μ′分别对应着目标价值网络和目标策略网络，θ 和θ 分别为目标价值网络参数和目标策略网络参数；

[0101] 步骤52、使用策略梯度方法来更新策略网络的参数，以最大化长期累计奖励，公式表达为：

[0102]

[0103] 其中，表示相对于策略网络参数θμ的目标函数J的梯度，目标函数J代表长期累计奖励的期望值，s是状态，a是动作，此策略梯度公式考虑了通过总奖励更新后的价值网络。

[0104] 步骤6、更新目标策略网络和目标价值网络的参数，并定期评估策略在密集障碍环境中的表现；根据评估结果调整参数并回代到步骤2中，重复执行步骤2‑6进行迭代训练；

[0105] 作为步骤6的优选实施方式，具体百科以下步骤：

[0106] 步骤61、定期更新目标策略网络和目标价值网络的参数，通常采用软更新策略，以确保目标网络能够平滑地跟随主网络的变化：

[0107] θQ′←τθQ+(1‑τ)θQ′；

[0108] θμ′←τθμ+(1‑τ)θμ′；

[0109] 其中，θQ是当前价值网络的参数，θQ′是目标价值网络的参数，θμ是当前策略网络的μ′参数，θ 是目标策略网络的参数，τ为软更新系数，通常是一个较小的值，确保更新过程平稳且缓慢；

[0110] 步骤62、评估策略在密集障碍环境中的表现，根据评估结果调整学习率、噪声参数和内在奖励的权重等超参数。

[0111] 步骤7、当达到预定的训练回合或总奖励收敛时，结束训练,得到最终的策略网络和价值网络的参数，即无人机执行导航任务的模型参数。

[0112] 更为具体的，步骤7的具体过程为：

[0113] 当训练过程达到预定的训练回合数或总奖励在连续若干个回合内稳定收敛时，结束训练；在此过程中，首先需要关注总奖励的变化趋势，当总奖励的变化幅度在设定的收敛阈值内，且持续一段预定时间或回合数时，可以认为算法已趋于收敛。此时，可以保存最终的策略网络和价值网络的权重，作为无人机在导航任务中使用的模型参数。

[0114] 本实施例给出了算法的仿真环境，如图2，仿真环境设置为100×100的复杂密集障碍场景，这些障碍物密集分布，形成了多个狭窄通道，要求无人机具有高效的导航和避障能力。无人机在该环境中配备了激光雷达，扫描频率设置为20Hz，覆盖‑180°至+180°的扫描范围，以保证实时感知周围环境。无人机的初始状态包括位置[x,y,z]＝[0,0,0]，速度[vx,vy,vz]＝[0,0,0]，加速度[ax,ay,az]＝[0,0,0]，以及初始方向θ＝[0,0,0]。在算法设计上，采用了深度确定性策略梯度(DDPG)算法进行训练。

[0115] 在训练过程中，引入状态熵作为内在奖励以增强无人机对高不确定性区域的探索能力。具体而言，在每个时间步，计算当前状态sj与从经验回放池中采样出来的元组样本中的所有状态表示的欧氏距离。选择距离sj最近的第5个邻居状态，计算最近邻状态sk‑nn与当2
前状态之间的距离||sj‑sk‑nn|| ，并通过公式获得状态熵内
在奖励。该内在奖励激励无人机深入探索具有高状态熵的区域，提高在复杂环境中的适应能力和探索效率。然后，将外部奖励和内在奖励合并，计算总奖励其
中，权重参数λ设为0.5，以平衡两种奖励对导航决策的影响。

[0116] 在经验回放和模型更新方面，每次执行动作后，将状态、动作、外部奖励、下一状态以及是否结束的标识存储在经验回放池中。经验回放池中数据量达到一定数量后，从中随机抽取1024个元组样本用于神经网络的批量更新。这种策略有助于打破时间相关性，提高学习过程的稳定性和效率。并且将模型的学习率参数设置为0.001，折扣因子设置为0.99，7
以确保训练的稳定性和收敛性。训练过程持续进行，直到达到2×10个时间步。

[0117] 训练结束后，保存最终的策略网络和价值网络的权重参数。通过在多个不同的复杂障碍环境中进行验证，结果表明，如图3所示，图中实线表示采用深度确定性策略梯度(DDPG)算法的训练结果，虚线表示采用引入状态熵(SE)激励的深度确定性策略梯(DDPG)算法的训练结果；显而易见地，引入状态熵后的算法能获得比原算法更多的总奖励，即表明本发明提出的基于状态熵激励的强化学习方法显著提升了无人机的导航效率和适应能力。在验证过程中，无人机展示出了极佳的自主导航能力，能够在密集障碍物之间高效地穿行，成功避开所有障碍并到达目标点。与传统的导航方法相比，本发明提出的优化策略不仅提升了无人机的探索效率，而且显著增强了其在实际复杂环境中的导航能力和适应性；更因为状态熵激励通过在训练过程中促使无人机探索不同的区域和状态，提高了所学习策略的普适性，本发明提出的优化方法更具有较强的泛化性。具有总体而言，本发明的基于状态熵激励的强化学习无人机密集障碍环境下导航策略优化方法表现出了显著的优越性，验证了其在无人机自主导航领域的有效性和实用性。

[0118] 在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包括于本申请的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

[0119] 在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。

[0120] 以上实施方式对本发明进行了详细介绍，本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想；同时，对于本领域的一般技术人员，依据本发明的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本发明的限制。

查看完整全部详细技术资料

当前第1页第1页第2页第3页