首页 / 一种基于强化学习的室内仓储差分机器人局部避障方法

一种基于强化学习的室内仓储差分机器人局部避障方法实质审查 发明

技术领域

[0001] 本发明涉及局部避障技术领域,尤其涉及一种基于强化学习的室内仓储差分机器人局部避障方法。

相关背景技术

[0002] 在室内仓储环境中,局部避障是差分机器人智能控制中的重要任务之一。差分式机器人的局部避障可以定义为:机器人根据实时感知信息以及全局路径信息,规划一个合理的路径来避开未知的障碍物,并且这个路径不会偏离全局的路径规划。
[0003] 目前局部避障算法有DWA滑动窗口法、人工势场法、Teb算法等,这些算法在已知环境中,当遇到未知静态障碍物时,表现得效果能够令人满意;但当遇到动态障碍物时,它们的表现效果远不如静态场景下的效果,如当仓库中有较多的机器人和工作人员时,机器人容易发生震荡和紧急停止现象,机器人的工作效率低下,且搬运的货物可能会掉下来,造成财产损失并具有一定的危险性。

具体实施方式

[0032] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。传统的深度强化学习算法常常采用End‑to‑End端到端的输入输出制,直接将真实的感知图像输入到网络算法中,然后直接输出下一时刻的动作。这也来了一个隐患,网络输入的状态为感知图像,其中包含环境地图,全局路径,激光雷达点云等信息。传统的机器人感知示意图如图1所示。
[0033] 传统的深度强化学习算法从机器人感知图中提取了激光雷达点云图和全局路径图作为神经网络的输入,具体如图2和图3所示是图像感知信息作为输入,网络往往需要经过大量的计算才能够收敛,有时候收敛效果甚至差强人意。
[0034] 请参见图4,本发明一种基于强化学习的室内仓储差分机器人局部避障方法,在步骤S1中,采用Mid‑to‑Mid的输入输出机制,不直接将真实的感知图像输入到网络算法中,而是输入提取特征后的状态state,包括机器人已知地图位置和姿态(robotx,roboty,robotyaw,)、经过极坐标转换后的机器人与目标点的相对位姿(l,theta)、滤波后的激光雷达数据(40维)以及机器人的固定动作集合(v,w)。
[0035] 其中,l代表机器人与目标点的距离,theta代表机器人的位置与目标点,在全局地图上的矢量夹角。具体公式如下所示
[0036]
[0037]
[0038] 激光雷达的点云数据存在异常点,采用均值滤波的方式来清理激光雷达的数据。基本远离是对比每一个点的左侧和右侧共4个点的数据,如果这个点的距离大于这4个点距离的均值的1.5倍,则认为是异常点,使用均值代替之。
[0039] 当机器人在一个比较复杂的场景中,由于输入的特征比较稀疏,常常需要大量时间段的探索学习,才能够到达目标点。特别是当机器人的位置和目标位置出现障碍物或者有墙体时,机器人难以高效地学会绕开障碍物,需要花费更多地时间来训练快速收敛到理想状态。本文通过使用subgoal信息增强,增强网络输入特征,使机器人的决策网络理解下一时刻所要达到的位置,而非全局位置。因此使得机器人在有静态或者动态障碍物地场景下更容易学会绕开障碍物,并追踪实时更新的subgoal坐标最终顺利到达目标点。
[0040] 本发明在步骤S2中使用Subgoal信息增强,增强网络输入特征,使机器人的决策网络理解下一时刻所要达到的位置,而非全局位置。Subgoal的原理是A*在已知地图下根据机器人的实时位置和目标点所规划的全局路径的一个特殊的点,这个点根据机器人追踪全局路径取一个固定阈值的位置。因此使得机器人在有静态或者动态障碍物地场景下更容易学会绕开障碍物,并追踪实时更新的Subgoal坐标最终顺利到达目标点。
[0041] Subgoal的原理是A*在已知地图下根据机器人的实时位置和目标点所规划的全局路径的一个特殊的点,这个点根据机器人追踪全局路径取一个固定阈值的位置(如离机器人5米的路径点)。具体如图5所示,Sugoal的作用在于帮助机器人追踪全局路径的同时,能够避开已知的静态障碍物。对于在室内仓库中遇到动态障碍物时,能帮助轮式机器人在避开动态障碍物,朝着全局路径所规划的路径前行。
[0042] 本发明在步骤S3中使用Dyna‑Q强化学习算法框架提升Dueling DQN神经网络算法的收敛效率。首先采用基于模型的强化学习算法框架Dyna‑Q,在训练初期使用其他模型所生成的样本进行预训练,加速网络快速收敛到局部最优解,再通过不断迭代探索是算法收敛于全局渐进最优解;
[0043] Dyna‑Q算法框架如下所示:
[0044] Initialize Q(s,a)and Model(s,a)for all s∈S and a∈A(s)[0045] Do forever:
[0046] (a)S←current(nonterminal)state
[0047] (b)A←∈‑greedy(S,Q)
[0048] (c)Execute action A;obeserve resultant reward R,and state S′[0049] (d)Q(S,A)←Q(S,A)+α[R+γmaxaQ(S′,a)‑Q(S,A)]
[0050] (e)Model(S,A)←R,S′(assuming deterministic environment)[0051] (f)Repeat n times:
[0052] S←random previosly observed state
[0053] A←random action previosly taken in S
[0054] Q(S,A)←Q(S,A)+α[R+γmaxaQ(S′,a)‑Q(S,A)]
[0055] 其算法基本流程如下所示:
[0056] (1)先初始化状态s和其动作a的集合以及所对应的价值Q(s,a)和模型Model(s,a);
[0057] (2)循环迭代训练,对于每一代训练时,更新状态S,并通过∈‑greedy算法选择并执行动作A,得到奖励值R以及下一时刻的状态S’,根据这四个状态更新Q值;
[0058] (3)与真实环境交互后,更新Model(s,a);
[0059] (4)重复n次模拟真实环境,每次随机选择存在内存中的状态S。并随机选择A.通过模型计算出S’和R,再通过Q值更新公式进行更新。
[0060] 本发明使用DWA局部避障规划算法作为网络预训练的模型,训练机器人追踪全局路径以及避开静态障碍物的能力。数据采集时,随机选择起始点和目标点的位置姿态,DWA算法结合A*算法进行路径追踪和避障,与此同时进行数据采集,并使用Dueling DQN同样的奖励函数r计算每一个决策动作,存储到replay buffer中,学习DWA算法的策略。具体奖励函数的如下所示:
[0061]
[0062] 其中gDpre表示机器人在未执行决策动作前离目标点的距离,gDnow表示机器人在执行决策动作后离目标点的距离。
[0063] 使用其他模型预训练,预训练的方式为:
[0064] (1)设定机器人固定起点位置和终点位置,每回合重置机器人的位置并随机更新机器人的姿态,进行探索学习追踪全局路径,训练1000回合并保存网络模型参数。
[0065] (2)加载第一步所保存的模型参数,每回合重置机器人的起始位置姿态和终点的位置,进行探索学习任意姿态到达目标点,训练2000回合并保存网络模型参数。
[0066] (3)加载第二步保存的模型参数,每回合添加随机静态障碍物。在静态环境下,训练机器人静态避障能力,训练2000回合并保存网络模型参数。
[0067] (4)加载第三步保存的模型参数,每回合添加动态机器人,并随机设置动态机器人的起点和终点,通过所编写的脚本进行导航。在动态环境下,训练机器人动态避障能力,训练2000回合并保存网络模型参数。
[0068] 使用dwa局部避障规划算法作为网络预训练的模型,训练机器人追踪全局路径以及避开静态障碍物的能力。数据采集时,随机选择起始点和目标点的位置姿态,dwa算法结合A*算法进行路径追踪和避障,与此同时进行数据采集,并使用dueling DQN同样的奖励函数计算每一个决策动作的然后,存储到replay buffer中,进而学习dwa算法的策略。通过这个方式,提高强化学习算法的收敛效率,快速达到局部最优解。
[0069] 使用Dueling DQN以及相关变种算法都使用固定的动作集合A进行探索,带来了两个隐患:一是网络对无效动作的冗余计算;二是实际中机器人的动作空间为多维度的连续空间,使用有限动作集合进行探索会导致Dueling DQN算法只能收敛于局部最优解。
[0070] 本发明使用基于运动学模型的动作采样,根据机器人当前的状态如线(角)速度和线(角)加速度,最大最小线(角)速度和线(角)加速度运动学约束以及预测机器人未来T时间内可能追踪路径的集合,以解决无效动作的冗余计算。通过这个采样方式近似表征机器人当前状态下有效的动作空间,使Dueling DQN算法获得全局渐进最优解。通过这个方式,解决Dueling DQN局部最优解的缺陷,逼近全局最优解,提高了算法的上限。
[0071] 本发明的一个实施例中,机器人在初始状态下线速度v=0m/s,w=0m/s,预测时间t=0.5s,最大线加速度 下的动作采样图6所示,此函数会根据机器人前一时刻所规划的控制指令(包括线速度,角速度,线加速度,角加速度)以采样预测不同的动作,以此代替机器人的固定采样动作空间。通过这个方式,解决Dueling DQN局部最优解的缺陷,逼近全局最优解,提高了算法的上限。
[0072] 以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。

当前第1页 第1页 第2页 第3页
相关技术
学习室内相关技术
室内仓储相关技术
张懿发明人的其他相关专利技术