技术领域
[0001] 本发明属于智能机器人技术领域,涉及一种基于好奇心‑贪婪奖励函数的机器人路径规划的方法。
相关背景技术
[0002] 智能机器人的应用十分广泛,其中服务型机器人可以用于医疗、家政和教育娱乐等。工业型机器人可以用于传统工业、航空航天、军事和抢险救灾等等。而路径规划不仅是机器人的基本功能之一,同时也是机器人不可或缺的能力之一。机器人的工作环境往往十分复杂并且具有非结构化的特点,因此机器人在工作时,特别需要拥有良好的路径规划能力去应对各种各样的工作环境。随着时代的进步,机器人工作环境的非结构化程度逐步加深,这就更加迫切的需要机器人拥有良好的路径规划能力。良好的路径规划能力有助于帮助智能机器人在其他领域的发展与应用。
[0003] 深度强化学习是人工智能领域的一个新的研究热点,具有广泛的应用前景。它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并能够通过端对端的学习方式实现从原始输入到输出的直接控制。深度强化学习作为一种解决序列决策的学习方法,通过不断优化控制策略,能够建立一个对环境有更高层次理解的自治系统,学得最优策略。
[0004] 在基于深度强化学习的机器人应用不断增多的同时,机器人需要面对的环境也日趋复杂和多变,这就需要基于深度强化学习的机器人拥有良好的轨迹规划能力。
[0005] 在机器人轨迹规划任务中,工作环境所能提供的奖励十分稀疏,往往只有机器人到达预先指定的目标状态时才能得到反馈。传统的深度强化学习方法应用于轨迹规划这一任务时,机器人常常处于一种得不到任何奖励的状态。缺乏有效反馈的机器人无法准确的把握策略更新方向,导致学习效率低。
具体实施方式
[0037] 下面结合实施例和附图对本发明进行详细说明。本发明保护范围不限于实施例,本领域技术人员在权利要求限定的范围内做出任何改动也属于本发明保护的范围。
[0038] 本发明基于好奇心‑贪婪奖励函数的机器人路径规划的方法如图1所示,包括贪心奖励模块2、好奇心奖励模块5和奖励融合模块7。贪心奖励模块2设有工作环境1和贪心奖励模型3,好奇心奖励模块包括智能体4和好奇心奖励模型 6。好奇心奖励模块让机器人在探索过程中拥有一种好奇心驱动,随着对环境的熟悉程度动态调整探索策略,主动去探索不熟悉的区域,获取好奇心奖励值12,从而提高探索效果,提高学习效率。贪心奖励模块根据机器人的工作环境,丰富环境中的有效奖励空间,让机器人能更快的探索到有效信息,为得到更多奖励的机器人会贪心的避开障碍物区域,向目标区域靠拢,引导机器人进入正确的探索方向,获取贪心奖励值15。让机器人的探索策略能更加准确的更新,提高学习效率。奖励融合模块7对贪心奖励模块、好奇心奖励模块进行合理的奖励融合产生融合奖励值16,让机器人怀着好奇心探索工作环境的同时,贪心的向任务点靠近,在不同的规划阶段得到更准确有效的奖励值,提升机器人路径规划能力。
[0039] 本发明基于好奇心‑贪婪奖励函数的机器人路径规划的工作过程共有四个步骤,分别为:
[0040] 1.初始化阶段:初始化智能体和奖励函数中神经网络的参数。
[0041] 2.判别动作阶段:智能体根据当前环境状态选择最佳动作。
[0042] 3.奖励值获取阶段:在奖励值获取阶段,会根据好奇心奖励模块5和贪心奖励模块2分别提取好奇心奖励值12和贪心奖励值15。
[0043] 3.1获取好奇心奖励值
[0044] 首先从工作环境中提取动作和环境状态进入好奇心奖励模块5,在好奇心奖励模块中,好奇心神经网络会根据当前动作和环境状态预测下一时刻状态。进入下一时刻时,根据预测状态与真实状态和好奇心奖励函数公式产生好奇心奖励值12。
[0045] 3.2获取贪心奖励值
[0046] 首先根据混合高斯模型为环境中的障碍物进行奖励函数塑型,然后提取机器人末端执行装置与障碍物和目标的相对状态信息。最后根据混合高斯模型公式和相对状态信息产生贪心奖励值15。
[0047] 3.3产生融合奖励值
[0048] 首先提取机器人末端执行装置状态,根据所处的子环境,使用不同的奖励融合函数,产生融合奖励值16。
[0049] 4.网络更新阶段:依据状态、动作和融合奖励值训练智能体中的神经网络,修正机器人的运动轨迹。
[0050] 智能体以云为基础,以AI为核心,构建的开放、立体感知、全域协同、精确判断和持续进化的智能系统。好奇心奖励模型6包括好奇心产生器11、好奇心产生器模型和好奇心奖Q励值计算函数。好奇心产生器11表达式为: Q(St,St+1,at|θ),如图2所示,at为当前动作,StQ
为当前状态,St+1为下一时刻的状态,θ为好奇心产生器的网络参数。定义为智能体在当前状态下预测其自身行为后果的误差,在给定当前状态St和采取的行动at的情况下预测下一个状态St+1。在机器人学习期间,好奇心产生器会被同步训练,随着机器人对一些区域逐渐熟悉,好奇心产生器的预测会越来越准确,机器人得到的好奇心奖励会变少,对熟悉的区域丧失了继续探索的动力。反之,当机器人到达了一个很不熟悉的地方时,预测误差会变的很大,对不熟悉区域产生强烈的探索欲望。好奇心产生器模型如图5所示,其中:at为当前动作,St为当前状态,St+1为下一时刻的状态,Φ(St)为当前状态的状态特征,Φ(St+1)为下一时刻的状态特征, r_curiosityt为好奇心奖励值12。
[0051] 将输入的当前状态St和下一时刻状态St+1进行特征提取,提取后的状态特征分别为Φ(St)和Φ(St+1)。根据输入的动作at和当前的状态特征Φ(St)预测下一时刻的状态特征根据好奇心奖励值计算函数计算好奇心奖励值 r_curiosityt:
[0052]
[0053] 其中η是缩放因子,负责调节好奇心在机器人学习过程中所占的比重。
[0054] 贪心奖励模块2包括工作环境1和贪心奖励模型3,贪心奖励模型3包括贪心奖励函数,工作环境包含障碍物。学习过程中适度的贪心具有一定的学习目标趋向性,减少与学习任务关联性极低的对象所来带的影响,提高学习效率。为了让机器人在学习期间能得到适量的贪心奖励反馈,具有一定的贪心驱动性,建立贪心奖励函数。贪心奖励函数依据高斯混合模型建立。高斯混合模型由多个高斯模型线性叠加混合而成。高斯混合模型公式如下:
[0055]
[0056]
[0057] 式中:P(x)为高斯混合模型概率密度函数,K为高斯生成器的个数,k为第k个高斯生成器。πk为每个生成器在高斯混合模型中所占的比例。式中:
[0058]
[0059] 其中:μ是期望值,Σ是协方差矩阵,Σ‑1是协方差矩阵的逆矩阵。
[0060] 如图3所示,高斯混合模型建立后,机器人在障碍物和目标之间分别形成小范围的奖励,任务目标的贪心奖励空间离目标点越来越近,贪心奖励空间中的奖励值会逐渐增大。机器人越接近障碍物会得到更多的障碍物奖励空间的负奖励(即惩罚)。贪心奖励函数公式如下:
[0061]
[0062] 其中:
[0063] rgreed为贪心奖励值;
[0064] πk为第k个高斯分模型的占比系数;
[0065] N(x|μk,Σk)为第k个高斯分模型。
[0066] 在经过建立贪心奖励函数,机器人工作环境中的奖励空间会变得丰富。在奖励空间下学习时,机器人会较早的得到更有价值的环境反馈,准确的更新探索策略,并且,基于反馈的机器人会贪心的向着目标靠拢,有效降低无效工作空间所带来的影响。
[0067] 如图4所示,奖励融合模块7将机器人的工作环境拆分为任务子环境8、危险子环境9和无效子环境10,机器人在不同的子环境动态调整好奇心奖励模块 5和贪心奖励模块2所占比重,合理全面执行轨迹规划任务。在任务子环境8中迅速到达目标点为首要目标,随着机器人和任务目标点的相对距离不断变小,好奇心奖励模块占比重逐渐降低,贪心奖励模块逐渐占据主导。在危险子环境9 中,机器人有触碰到障碍物的风险,此时安全的避开障碍物是机器人的首要任务。在危险子环境区域内,随着机器人和障碍物的相对距离不断变小,好奇心奖励模块占比重逐渐降低,贪心奖励模块逐渐占据主导。在无效子环境10中没有障碍物和目标任务,机器人凭借着内在的好奇心作为主要动机去探索这一环境区域。有了好奇心作为内在驱动,机器人会很快速的略过这一区域,提高搜索效率。奖励融合模块7根据三个子自环境的特性,确定奖励权重向量,权重向量如下:
[0068]
[0069] 式中:
[0070] EoR为机器人末端执行装置所在位置,λfusion为融合奖励参数,λcuriosity为好奇心奖励参数,λgreed为贪婪奖励参数,dEO为机器人末端执行装置与障碍物之间的相对距离,dET为机器人末端执行装置与目标之间的相对距离,dwaring为相对危险距离,dgoal为目标吸引距离。
[0071] 结合奖励权重向量,得出奖励融合公式如下。
[0072]
[0073] Rfusion为融合奖励值,λfusion为融合奖励参数,Rwhole为融合奖励函数,λcuriosity为好奇心奖励参数,λgreed为贪婪奖励参数,rcuriosity为好奇心奖励值,rgreed为贪婪奖励值。
[0074] 本发明根据机器人轨迹规划任务中由于稀疏奖励导致的效率低下问题,从机器人的内外两部分入手,提供了好奇心驱动的内部好奇心奖励函数和贪心驱动的外部贪心奖励函数。好奇心奖励函数改变了传统深度强化学习方法的随机探索方式,让机器人对已经熟悉的工作空间不再感兴趣,更倾向于探索未曾探索过的地方,提高了探索效率。贪心奖励函数能够让机器人在探索过程中快速过滤掉对于实现任务无关的信息,降低无效数据对于机器人的干扰,引导机器人进入正确的探索方向,让机器人的探索策略能更加准确的更新,提高学习效率。深入分析机器人的轨迹规划任务,提供的奖励融合方法在学习规划的过程中充分汲取两种奖励函数的优越之处,融合成为一种更加全面的奖励函数。