一种基于深度学习的多AGV避障及路径规划方法及系统

一种基于深度学习的多AGV避障及路径规划方法及系统实质审查发明

技术领域

[0001] 本发明涉及AGV避障及路径规划技术领域，尤其涉及一种基于深度学习的多AGV避障及路径规划方法及系统。

具体实施方式

[0086] 为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合说明书附图对本发明的具体实施方式做详细的说明，显然所描述的实施例是本发明的一部分实施例，而不是全部实施例。基于本发明中的实施例，本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明的保护的范围。

[0087] 在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是本发明还可以采用其他不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施例的限制。

[0088] 其次，此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例，也不是单独的或选择性的与其他实施例互相排斥的实施例。

[0089] 本发明结合示意图进行详细描述，在详述本发明实施例时，为便于说明，表示器件结构的剖面图会不依一般比例作局部放大，而且所述示意图只是示例，其在此不应限制本发明保护的范围。此外，在实际制作中应包含长度、宽度及深度的三维空间尺寸。

[0090] 同时在本发明的描述中，需要说明的是，术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一、第二或第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

[0091] 本发明中除非另有明确的规定和限定，术语“安装、相连、连接”应做广义理解，例如：可以是固定连接、可拆卸连接或一体式连接；同样可以是机械连接、电连接或直接连接，也可以通过中间媒介间接相连，也可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

[0092] 实施例1

[0093] 参照图1‑图4，为本发明的一个实施例，提供了一种基于深度学习的多AGV避障及路径规划方法，如图1，包括：

[0094] S100，获取环境数据，进行环境建模，并形成状态向量。

[0095] 进一步的，如图2，获取环境数据包括，

[0096] 通过设置在AGV上的扫描模块获取360度周围环境的距离数据，优选的，在每个AGV顶部安装LiDAR，360度旋转扫描进行获取；

[0097] 通过设置在AGV上的摄像模块获取环境的色彩和纹理信息，优选的，在AGV前部安装立体视觉摄像头进行获取；

[0098] 将所述周围环境的距离数据与所述环境的色彩和纹理信息进行时间同步，即将LiDAR和摄像头数据进行时间同步，确保信息的一致性；

[0099] 构建环境模型，将环境划分为栅格，每个栅格表示一定空间范围内的占用状态；

[0100] 设M为环境地图，Mi,j表示位于第i行第j列的栅格状态，其中1表示占用，0表示空闲；

[0101] 通过八叉树对三维数据进行层次分解，每个节点代表一个空间区域，根据AGV感知的障碍物信息确定节点状态；

[0102] 优选的，使用AGV内置的编码器和惯性测量单元，获取当前位置x,y、速度v以及AGV的方向角θ；

[0103] 获取当前载荷状态L，其中1表示有载荷，0表示无载荷，优选的，通过载荷传感器进行获取；

[0104] 从环境模型中提取AGV周围的障碍物信息，形成局部障碍物地图O；

[0105] 将获取的信息组合成状态向量S＝[x,y,v,θ,L,O]。

[0106] 需要说明的是，通过获取环境数据，可以对周围环境进行感知和理解，从而形成对环境的模型，基于环境建模形成的状态向量，可以作为路径规划的依据，这些信息对于规划一条安全、有效的路径至关重要，状态向量的生成也为决策制定提供了基础，可以根据当前环境状态向量，预测可能的行动，并做出最优决策。

[0107] S200，基于状态向量，通过深度强化学习策略，对路径进行规划。

[0108] 进一步的，如图3所示，路径规划包括，

[0109] 通过近端策略优化算法的Actor‑Critic架构，进行路径规划，定义复合奖励函数，表示为：

[0110] R(St,At)＝α1*Rgoal(St)‑α2*Rcoll(St,At)‑α3*Reff(At)

[0111] 其中，Rgoal(St)表示目标奖励，当AGV接近目标时增加，Rcoll(St,At)表示碰撞惩罚，当预测发生碰撞时增加，Reff(At)表示效率奖励，鼓励更短的路径和更少的动作变化，α1、α2、α3表示权重系数，用于平衡不同的奖励部分；

[0112] 建立具有卷积层和全连接层的深度神经网络，包括Actor网络和Critic网络，Actor网络用于生成行动策略，接收状态向量S作为输入，输出AGV的下一个动作A，Critic网络用于估计状态价值函数，评估当前状态下采取特定行动的预期回报；

[0113] 设置AGV运行的模拟环境，包括障碍物和路径，使用近端策略优化算法迭代更新Actor和Critic网络的参数；

[0114] 使用Adam优化器进行梯度下降，最小化预期回报与实际回报之间的差异，表示为：

[0115]

[0116] 其中，η表示学习率，J(θ)为目标函数，表示预期回报，θnew表示新网络参数，θold表示旧网络参数；

[0117] 将训练好的模型部署应用到AGV的控制系统中，通过训练好的模型，监控AGV运行状态和路径规划效果，收集反馈，并根据实时反馈调整策略参数或重新训练模型。

[0118] 需要说明的是，通过Actor‑Critic架构，可以进行近端策略优化，即对于当前策略的即时调整，有助于优化路径规划，使AGV能够更灵活地应对不同的环境和障碍物布局，提高路径规划的质量和效率；深度神经网络的卷积层和全连接层能够学习环境中的关键特征，更好地理解环境，有助于更准确地规划路径；近端策略优化算法通过反复迭代更新Actor和Critic网络的参数，不断优化模型的性能，使得模型能够适应不同场景和变化，提高了泛化能力。

[0119] S300，基于规划的路径，根据实时工作需求和AGV状态生成动态任务链，分配最合适的AGV执行，定义AGV之间的优先级和协同规则，采用基于优先级的调度算法，同时根据紧急避障需求，确保优先级高的任务优先执行。

[0120] 进一步的，如图4所示，具体步骤包括：

[0121] 实时收集并记录来自仓库管理系统的所有任务需求，包括任务类型、位置和优先级信息；

[0122] 基于紧急程度、任务类型以及预计完成时间，为每个任务分配优先级；

[0123] 根据优先级和AGV当前状态，动态生成任务链，每个AGV根据自身状态和任务链确定当前最优任务；

[0124] 根据AGV的性能和位置，动态分配不同的角色，包括搬运、配送和充电；

[0125] 制定详细的协同规则，包括遇到冲突时的处理方式以及路径选择准则；

[0126] 建立AGV之间的实时通信机制，确保信息共享和协同决策；

[0127] 为每个任务计算可执行的时间窗，根据任务的紧急程度、持续时间和AGV状态，表示为：

[0128]

[0129] 其中，Tsched(t)为在时间t的任务调度总成本，wi为第i个任务的权重系数，反映任务的优先级，Ti(t)为完成第i个任务的预计时间；

[0130] 基于时间窗和AGV的当前位置，动态分配任务给最合适的AGV，实时监控执行情况和环境变化，根据实际情况调整任务分配和执行顺序。

[0131] 需要说明的是，根据实时工作需求和AGV状态生成动态任务链，能够灵活地根据当前环境和任务情况进行调整，实时适应性能够提高系统的灵活性和应变能力，通过将动态生成的任务链分配给最合适的AGV执行，可以优化整体的工作效率，减少空闲时间和提高资源利用率；同时确保按照预定的优先级执行任务，并在需要时协同工作，有助于提高系统的整体协同性，防止冲突和混乱，确保任务能够有序地执行。确保多AGV系统更加智能、灵活和适应性强，能够在动态环境中有效地执行任务，同时满足紧急避障需求，提高整体效率和性能。

[0132] S400，建立运动状态监测模型，分析预测结果与实际状态的偏差，评估不确定性，当预测可能发生碰撞时，计算避障路径并调整AGV行动。

[0133] 进一步的，建立运动状态监测模型包括，

[0134] 构建AGV运动的状态模型和观测模型，表示为：

[0135] xt+1＝f(xt,ut)+wt

[0136] zt＝h(xt)+vt

[0137] 其中，xt表示状态，ut表示控制输入，wt表示过程噪声，zt表示观测值，h表示观测函数，vt表示观测噪声。

[0138] 更进一步的，还包括如下步骤：

[0139] 实现EKF算法，根据观测数据和模型动态更新状态估计，在每个时间步，通过EKF算法更新AGV的状态估计和不确定性评估；

[0140] 通过EKF算法计算预测误差协方差矩阵Pt，根据预测误差协方差矩阵Pt中各元素的大小评估状态的不确定性；

[0141] 设定阈值，当不确定性超过阈值时，触发紧急避障机制；

[0142] 紧急避障机制包括调整AGV控制指令，引导AGV沿新路径行驶，避免潜在碰撞。

[0143] 需要说明的是，运动状态监测模型的建立：建立运动状态监测模型是能够实时监测AGV的运动状态，为后续的路径规划提供精准的输入数据；通过比较预测的运动状态与实际测量的状态之间的差异，可以分析预测的准确性和模型的可靠性，有助于及时发现模型的偏差和误差，为系统的持续优化提供反馈；使基于深度学习的多AGV系统更具智能化和适应性，能够在复杂环境中实现实时的运动状态监测、碰撞预测和避障路径规划，从而确保AGV的安全、高效运行。

[0144] S500，在AGV在执行任务时，持续收集数据并更新学习模型，根据长期性能和即时反馈调整策略的参数。

[0145] 进一步的，具体包括以下步骤：

[0146] 构建适用于AGV的DDPG网络，包括一个Actor网络用于生成动作，一个Critic网络用于评估状态‑动作对；

[0147] 在每个时间步，根据最新的数据更新Actor和Critic网络的参数；

[0148] 通过探索策略探索新的动作空间，使用Ornstein‑Uhlenbeck噪声添加到动作上；

[0149] 实时监控AGV的运行性能，包括路径效率和碰撞次数指标；

[0150] 根据性能监控结果，动态调整学习率和探索噪声参数，表示为：

[0151] ηnew＝ηbase*exp(‑β*perf)

[0152] 其中，ηnew表示新的学习率，ηbase表示基础学习率，β为调整系数，perf表示性能指标；

[0153] 设定评估周期，定期对AGV的运行和学习效果进行评估；

[0154] 根据诊断结果，调整学习策略和模型参数，包括修改奖励函数和增强网络结构。

[0155] 需要说明的是，持续收集数据并更新学习模型使得模型能够适应环境的变化和系统的演化，通过迭代优化，模型能够不断提升对于各种场景的泛化能力，提高避障和路径规划的准确性，通过持续学习，模型能够适应新的环境、障碍物类型和动态变化，提高了系统的适应性。

[0156] 基于深度学习的多AGV避障及路径规划系统更加灵活、智能和适应多样化的工业环境，能够不断改进性能，提高运行效率，并在复杂环境下更可靠地执行任务。

[0157] 本发明通过环境建模与状态表示，AGV能够更准确地理解和反应于复杂多变的环境，提高避障的准确性和效率；利用深度强化学习进行路径规划，AGV不仅能够找到更优的路径，还能实时学习和适应环境变化，提高整体系统的灵活性和适应性；此外，通过实现高效的多AGV协同策略，本发明能够显著提高多车辆作业的协同效率和任务完成率，减少碰撞和等待时间，从而大幅提高整个系统的工作效率。

[0158] 上述为本实施例的一种基于深度学习的多AGV避障及路径规划方法的示意性方案。需要说明的是，该基于深度学习的多AGV避障及路径规划系统的技术方案与上述的基于深度学习的多AGV避障及路径规划方法的技术方案属于同一构思，本实施例中基于深度学习的多AGV避障及路径规划系统的技术方案未详细描述的细节内容，均可以参见上述基于深度学习的多AGV避障及路径规划方法的技术方案的描述。

[0159] 本实施例中基于深度学习的多AGV避障及路径规划系统，包括：

[0160] 数据采集模块，用于获取环境数据，进行环境建模，并形成状态向量；

[0161] 路径规划模块，用于基于状态向量，通过深度强化学习策略，对路径进行规划；

[0162] 任务执行模块，用于基于规划的路径，根据实时工作需求和AGV状态生成动态任务链，分配最合适的AGV执行，定义AGV之间的优先级和协同规则，采用基于优先级的调度算法，同时根据紧急避障需求，确保优先级高的任务优先执行；

[0163] 监测模块，用于建立运动状态监测模型，分析预测结果与实际状态的偏差，评估不确定性，当预测可能发生碰撞时，计算避障路径并调整AGV行动；

[0164] 学习模块，用于AGV在执行任务时，持续收集数据并更新学习模型，根据长期性能和即时反馈调整策略的参数。

[0165] 本实施例还提供一种电子设备，适用于基于深度学习的多AGV避障及路径规划的情况，包括：

[0166] 存储器和处理器；存储器用于存储计算机可执行指令，处理器用于执行计算机可执行指令，实现如上述实施例提出的实现基于深度学习的多AGV避障及路径规划方法。

[0167] 本实施例还提供一种存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例提出的实现基于深度学习的多AGV避障及路径规划方法。

[0168] 本实施例提出的存储介质与上述实施例提出的实现基于深度学习的多AGV避障及路径规划方法属于同一发明构思，未在本实施例中详尽描述的技术细节可参见上述实施例，并且本实施例与上述实施例具有相同的有益效果。

[0169] 通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本发明可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(ReadOnly，Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、闪存(FLASH)、硬盘或光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

[0170] 实施例2

[0171] 参照表1‑表2以及图5‑图10，为本发明的一个实施例，提供了一种基于深度学习的多AGV避障及路径规划方法，为了验证其有益效果，提供了两种方案的对比结果。

[0172] 本发明通过引入Actor‑Critic架构后的改进DDPG算法，参照表1，设置路径规划的输入参数，进行了100次迭代，提供了两种方案的对比结果，结果如图5所示，图5为引入Actor‑Critic架构前后算法的累计步数对比图，其中橙色为引入前效果，蓝色为引入后效果。

[0173] 表1：中本发明方法与常规DDPG算法方法路径规划输入参数表

[0174]

[0175] 由上述图表易得，在引入Actor‑Critic架构后，随着输入的环境数据可以动态调整，改进后的DDPG算法在60轮迭代后累计步数趋于稳定，收敛速度提高了近25％，累积步数也更加稳定，避免了过度迭代的问题。

[0176] 其次，在10辆AGV的情况下，进行了1000次迭代训练，提供了两种方案的对比结果。

[0177] 图6和图7分别为本发明方法与常规DDPG方法下，10台AGV工作路径途径节点及个节点处速率，由对比易得，本发明所述方法下，各台AGV途径节点重复率低，避免小范围内AGV拥塞。此外，本发明方法下，各台AGV运动过程中来回折返等情况大幅减少，任务复杂度相对降低。

[0178] 图8为本发明方法与常规DDPG算法路径规划各迭代轮次初始路径计算时间对比图，其中，红色为本发明方法各迭代轮次初始路径计算时间，蓝色为常规DDPG算法各迭代轮次初始路径计算时间；图9为本发明方法与常规DDPG方法路径规划各迭代轮次消耗电量对比图，其中，红色为本发明方法各迭代轮次消耗电量，蓝色为常规DDPG算法各迭代轮次消耗电量。由图8与图9可得，本发明方法相较于常规DDPG算法在迭代轮次中，所用计算时间缩减约71.4％，所消耗电量缩减约4.1％，效率高，性能佳。

[0179] 图10为本发明方法与常规DDPG算法单位时间(min)内完成任务量对比图，其中，红色为本发明方法任务量，蓝色为常规方法任务量。由图10可得，本发明所述方法相较于常规DDPG算法在单位时间内完成任务量提高约73.1％。

[0180] 表2：本发明方法与常规DDPG方法路径规划累积成功次数与碰撞动态障碍物次数对比

[0181]

[0182] 从表2可以看出，在相同迭代次数及相同环境的情况下，优化改进的DDPG算法相较于基础的算法成功次数增加了大概36.5％，与移动障碍物发生碰撞的次数减少了32.5％，提高了AGV在复杂环境下的动态避障能力，增强了对动态环境的适应能力，势必提高运输任务完成质量。

[0183] 应说明的是，以上实施例仅用于说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或者等同替换，而不脱离本发明技术方案的精神和范围，其均应涵盖在本发明的权利要求范围当中。

查看完整全部详细技术资料

当前第1页第1页第2页第3页