首页 / 基于分布强化学习和保守约束的移动机器人路径规划方法

基于分布强化学习和保守约束的移动机器人路径规划方法实质审查 发明

技术领域

[0001] 本发明涉及路径规划技术领域,尤其涉及基于分布强化学习和保守约束的移动机器人路径规划方法。

相关背景技术

[0002] 随着人工智能技术飞速发展,移动机器人广泛应用于自动化生产、服务机器人、空间探索等领域,实现自主导航已成为当下研究的热点。
[0003] 移动机器人需要根据自身约束条件,规划出高效合理的无碰撞路径,以避开障碍物顺利到达目标位置。
[0004] 传统路径规划算法如人工势场法、A*寻路算法等依赖固定环境先验知识,难以处理未知复杂环境。
[0005] 近年来,深度强化学习作为新兴人工智能技术,一些学者已尝试融合深度强化学习与移动机器人路径规划,初步证明其在复杂环境中的可行性和潜力。
[0006] T.Nguyen‑Tang等人Distributional Reinforcement Learning via Moment Matching的深度强化学习方法在建模时仅学习单点估计的动作价值函数,导致无法获取动作价值的完整概率分布信息。
[0007] 另外,S.Fujimoto等人Addressing Function Approximation Error in Actor‑Critic Methods的深度神经网络函数逼近带来的Q值高估问题严重阻碍了路径规划性能;因此,研发能够获取动作价值分布、缓解Q值高估的深度强化学习算法,使其更好地适用于移动机器人在未知复杂环境下的路径规划,是继续解决的问题。

具体实施方式

[0044] 下面结合附图和实施例对本发明作进一步说明,此图为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
[0045] 如图1所示,基于分布强化学习和保守约束的移动机器人路径规划方法包括以下步骤:
[0046] 步骤一、采集机器人自身状态、目标状态和障碍物状态;
[0047] 首先在ROS平台搭建实验仿真环境,并创建一个非完整差动驱动机器人,机器人会依靠搭载LDS‑01激光雷达传感器,实现360°全方位观察0.12米~3.5米内的状况,并依靠lookupTransform函数将自身状态、目标状态和障碍物状态整合为状态信息。其中,状态信息中的自身状态包括机器人的线速度和角速度;目标状态包括机器人和目标的相对距离和角度差;障碍物状态包括机器人与周围障碍物的相对距离。
[0048] 在每一次实验回合开始前重置机器人状态,并随机初始化环境,通过机器人与环境的交互获得训练数据;将采集所得的状态转换数据、执行动作及对应环境反馈的即时奖励存储于经验回放池中,用于训练强化学习方法中的Critic网络与Actor网络。
[0049] 步骤二、将状态信息输入Actor网络和Critic网络,利用Critic网络对经验池中机器人收集的与环境交互获得的样本进行采样并前向传播;并通过分位数回归神经网络提取到的关于状态信息和动作信息的特征生成一系列分位数;每个分位数表示一个潜在的值函数估计;使用Huber函数计算TD误差的损失,并与保守约束项加权求和,通过反向传播更新Critic网络的参数,使Critic网络逼近值函数;
[0050] 环境交互获得的样本为包括状态、动作、奖励及新状态的元组。
[0051] Actor‑Critic网络负责接收传感器数据并给出预测的动作,完成机器人与环境的交互。
[0052] 使用均匀分布的分位数来表示分位数相对位置,使用权重区分分位数的重要性,同时遵循epsilon‑greedy策略来选择最大的权重分位值作为目标值。
[0053] 如图2为SAC分布强化学习模型,SAC模型中的Actor网络接收输入的状态,输出动作空间的概率分布的均值和方差;Critic网络用于对机器人当前状态下采取的动作进行评估,Critic目标网络用于对当前状态的评估。
[0054] 设计包含分位数回归神经网络(Distributional)的分布强化学习模型,利用分位数回归神经网络的学习奖励函数输出多个量化分位数,描述奖励的整体分布,增强模型对环境的适应性,克服仅学习单点估计的缺陷;
[0055] 如图3为本发明基于分位数回归神经网络的分布强化学习模型,分位数回归神经网络接收机器人的状态和动作后,基于参数函数τ~U(·),通过嵌入函数 学习嵌入,经过全连接层f处理后,结合Conservative框架下得到的Conservative Scaled Loss(CSL)项指导Actor网络选择最优动作。
[0056] 分位数回归神经网络(Distributional)包括:
[0057] 首先,设f:X→RA为全连接层,f全连接层的抽象表示,将x映射为动作值,X为分位数回归神经网络的状态空间,x∈X,R代表的是实数域,A代表的是动作空间;使得Q(x,a)近似为f(x)a;
[0058] 接着,通过加入函数 来求得样本点τ的嵌入;
[0059] 最后,组合得到近似关系 其中,⊙表示x和嵌入函数 进行逐元素乘积操作。
[0060] 嵌入函数 则通过线性函数学习嵌入,线性函数即n个形式为cos(πiτ)的余弦基函数,基于随机生成的分位数预定义的π值计算,各个嵌入后使用RELU函数激活,具体表示如下:
[0061]
[0062] 其中,j表示输出特征的索引,wij表示连接输入特征和输出特征之间的权重,bj是输出特征的偏置项,τ为样本点。
[0063] 现有模型以单个值函数估计动作价值,这种计算方法会导致对奖励分布的建模不准确,进而影响机器人在面对复杂环境和不确定性时的表现,本发明通过添加的分位数回归神经网络有效缓解该不足。
[0064] 步骤三、结合保守强化学习框架,选用KL散度度量奖励分布的调整程度,降低策略过度优化的风险,使学习到的策略更加稳健可靠;
[0065] 保守强化学习框架包括:
[0066] 在缓解对策略价值的高估中需要考虑到机器人与环境的交互,因此除了需要利用μ=π处理The Conservative Q‑Learning框架来获得策略值,还需要实现离线到在线的调整;考虑到需要处理的是大型连续域,使用函数逼近方法来替代策略评估和策略改进;由于Q函数决定着策略的产生,因此选择行为策略μ(a|s)来代替当前Q函数迭代的策略的最大值,并通过KL散度实现对算法的实例化;
[0067]
[0068] 其中,E表示取期望操作,DKL表示KL散度项,μ'(a|s)是先验分布,B表示存放样本的replay buffer,γ表示折扣因素,r表示状态s下执行动作a时环境给予的即时奖励值,Q表示未来奖励的折扣之和,α用于调整保守程度的超参数。
[0069] 为减小计算开销,令μ'=Unif(a),那么对于如下形式的优化问题:
[0070]
[0071] 其中,y=μ(a|s),μ和μ'分别为式2中的行为策略和先验分布;设f'为KL散度项以外的处理过程。
[0072] 最优解为:
[0073]
[0074] 其中,C为归一化因子。
[0075] 将式(4)代入公式(2),简化后即可得到目标函数;接着,使用Critic网络参数θ、φ对目标函数以及可行策略πφ(a|s)参数化得到CSL项,CSL项的公式为:
[0076]
[0077] 其中,s'为在状态s下采取动作a所转移到的新状态, 表示Critic目标网络参数,V值表示状态的未来奖励的折扣之和。
[0078] 需要注意的是,V(s)=Εa~π[Q(s,a)+βΗπ(s)](6)
[0079] 其中,Η表示熵,β是用于调整奖励和熵的相对大小的超参数。
[0080] 相比现有的保守强化学习方法,本发明实现了离线到在线的调整,即可以利用历史数据进行策略改进,同时能够在与环境的交互中进行实时调整,保持策略的更新,并设计KL散度来度量奖励分布的调整程度,从而有效缓解了策略过度优化的风险,使学习到的策略更加稳健可靠。
[0081] 为了提高可行策略πφ(a|s)的泛化能力,搭建随机障碍重建模型,在训练过程中持续重新生成障碍。
[0082] 如图4所示,随机障碍重建模型构建包括:
[0083] 1、在gazebo仿真平台上构建训练环境,环境中随机生成墙壁障碍物、柱形障碍物以及目标点,并通过rviz模块可视化机器人感知的环境信息;
[0084] 2、设计随机环境生成模块,通过控制墙壁与柱形障碍物的生成概率及数量范围等参数,构建具有不同难度的参数化训练环境;训练的随机环境中,障碍物被抽象为墙壁和圆柱体,目标则用小球表示;由此定义用于训练和测试的随机环境生成模块:
[0085] Envnew=Env(rwall,nmax,nmin) (7)
[0086] 其中,rwall表示墙壁在每次环境中出现的概率,nmax和nmin则表示圆柱体的数量最值。
[0087] 环境中的墙壁会在一定范围内随机旋转和移动,从而构造不同倾角和宽度的走廊,圆柱体则会因重叠的特性,构造出其他形状的障碍物。
[0088] 图5是本发明与现有方法的奖励值对比图,图5中每个点表示一个episode,黑色曲线表示累计奖励值的趋势线。
[0089] 图6是本发明与现有方法的奖励值对比图,将本发明与现有五种方法对比,描述收敛之后的平均奖励。
[0090] 图7是不同障碍度下本发明方法与现有方法的碰撞率和成功率对比图,需要注意的是,除了与障碍物碰撞和成功抵达目标点这两种情况外,机器人还会发生崩溃,崩溃是指机器人在限定的步数内没有和障碍物发生碰撞,但未能到达目标点。
[0091] 以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

当前第1页 第1页 第2页 第3页
相关技术
分布强化相关技术
学习保守相关技术
顾玉宛发明人的其他相关专利技术