首页 / 基于改进强化学习奖励函数的四足机器人运动控制方法及系统

基于改进强化学习奖励函数的四足机器人运动控制方法及系统实质审查 发明

技术领域

[0001] 本发明涉及四足机器人技术领域,尤其涉及基于改进强化学习奖励函数的四足机器人运动控制方法及系统。

相关背景技术

[0002] 具挑战性的环境对于四足动物来说相对容易进入,但对于自主机器来说仍然比较困难;腿式运动可以极大的扩展机器人的应用范围;现有的轮式和履带式机器,在挑战环境中的稳定性会受到严重影响,所以腿式机器人有潜力穿越动物同类可以穿越的任何地形。
[0003] 挑战性环境具有高度不规则的轮廓、可变形的地形、光滑的表面和地上障碍物;现有的公开控制器经常出现脚打滑、失去平衡,并最终导致严重故障。由于无法获得有关地形物理特性的真实信息,这一挑战变得更加困难;例如意外的地面接触、地形变形和脚部打滑,控制器必须快速产生符合多个目标的全身轨迹:平衡、避免自碰撞、抵消外部干扰和运动。
[0004] 韦浪等人的基于深度强化学习的四足机器人多步态运动控制研究,教师‑学生强化学习框架采用Lee提出的训练架构和RMA架构在台阶形地面,楼梯和小物体杂乱路面四足机器人运动控制实验中的奖励函数只考虑了步态规划奖励、晃动奖励和能量消耗奖励,主要是解决步态切换问题;而现实地理世界中的滑坡、凹凸地面、雪地等情况下,对应的奖励函数设置是现有文献所忽略。

具体实施方式

[0033] 下面结合附图和实施例对本发明作进一步说明,此图为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成。
[0034] 如图1所示,基于改进强化学习奖励函数的四足机器人运动控制方法包括以下步骤:
[0035] 步骤一、构建四足机器人仿真模型;
[0036] 运用ROS仿真平台构建虚拟四足机器人仿真模型,采用D‑H参数法给四足机器人腿部机构的各个连杆设置坐标系,并利用邻近连杆间的固定几何关系来定义连杆基本参数;再利用连杆基本参数推导得到齐次变换矩阵,并由此进行相邻连杆坐标系之间的空间关系描述;最后求出机器人腿部的正向和逆向运动学公式,同时在仿真平台中对四足机器人四种基础步态的运动稳定性进行初步模拟。
[0037] 步骤二、构建强化学习模型,学习训练实现四足机器人运动控制;
[0038] 使用受“作弊学习”启发的特权学习策略;首先训练一个能够访问有关地形的特权信息的教师策略。
[0039] 将运动控制制定为一个马尔可夫决策过程(MDP),MDP是一个为离散时间控制过程建模的数学框架,其中状态和结果的演变是部分随机的;MDP由状态空间、行动空间、过渡概率和奖励函数的元组定义。
[0040] 本发明对奖励函数进行改进,包括:
[0041] 线速度奖励函数rlv:
[0042]
[0043] 其中, 使vpr最大化,即投射到指令方向上的基准线速度最大, 为xy轴基础线速度, 为xy轴期望方向;vth速度阈值,本示例中vth
=0.6米/秒,为控制器在平坦地形上可达到的最大速度;α1为修正系数,本示例中α1=2。
[0044] 角速度奖励函数rav:
[0045]
[0046] 其中, 是z轴基础角速度, 为z轴所需的转向方向;当 为非零时,推动机器人主体沿基点z轴尽可能快地转弯;α2为修正系数,本示例中α2=1.5。
[0047] 基础运动奖励函数rb:
[0048]
[0049] 其中, 当停止命令被给出的时候,v0被替换为 该项对与目标方向正交的速度以及滚动率和俯仰率进行惩罚,从而使底座在运动过程中保持稳定; 为xy轴旋转动能;α3为修正系数,本示例中α3=1.5。
[0050] 足部离地奖励函数rfc:考虑到自然环境中可能出现的石子,泥块等小型障碍物设计足部离地奖励函数使机器人足部离地时抬起高度高于周围环境,顺利通过障碍;
[0051] 足部离地奖励函数设计如下:
[0052]
[0053] 其中,Iswing表示处于摆动阶段的腿的集合;当一条腿处于摆动阶段时,即φi∈[π,2π)机器人应将相应的脚抬得比周围环境高,以避免碰撞,将无碰撞脚的集合定义为Hscan,i是第i只脚周围扫描高度的集合。
[0054] 身体碰撞奖励函数rbc:考虑到四足机器人在现实环境运动有可能会产生身体碰撞导致倾斜,摔倒等情况,设计身体碰撞奖励函数最小化非足部碰撞的发生,确保机器人的运动尽可能平滑和有效;
[0055] 身体碰撞奖励函数设计如下:
[0056] rbc=‑|Ic,body\Ic,foot|   (5)
[0057] 其中,Ic,body代表身体中与环境产生碰撞的部分的集合,Ic,foot则特指足部与环境产生碰撞的情况的集合。
[0058] 对机器人身体部件与地形之间的不良接触进行惩罚,以避免硬件损坏。
[0059] 目标平滑度奖励函数rs:考虑到现实世界路面存在湿滑的现象,设计目标平滑度奖励函数,计算目标在t时间点的二阶差分,评估连续两个时间间隔内目标函数值变化是否平滑,奖励系统产生平滑输出变化,减少剧烈波动,从而提高系统的性能和稳定性;
[0060] 目标平滑度奖励函数设计如下:
[0061] rs=‑||(rf,d)t‑2(rf,d)t‑1+(rf,d)t‑2||  (6)
[0062] 其中,(rf,d)t为t时刻足部目标历史位置;对目标脚部位置的二阶有限差分导数的大小进行惩罚,使生成的脚部轨迹更加平滑。
[0063] 扭矩奖励函数rτ:扭矩τ是使关节旋转或维持位置所需的力矩,扭矩的大小影响能量消耗和机械磨损,设计扭矩奖励函数最小化机器人各个关节所需的扭矩,以促进机器人运动的高效性和节能;而现有技术是通过对速度进行限制,从而实现减少能量消耗;
[0064] 扭矩奖励函数奖励函数设计如下:
[0065] rτ=‑∑i∈joints|τi|  (7)
[0066] 其中,|τi|表示第i个关节施加的扭矩的绝对值;对关节扭矩进行惩罚,以防止在部署过程中损坏关节执行器,并减少能源消耗。
[0067] 总奖励函数定义为:
[0068] rall=β1rlv+β2rav+β3rb+β4rfc+β5rbc+β5rs+β7rτ  (8)
[0069] 其中,β1至β7为权值系数。
[0070] β1=0.05、β2=0.05、β3=0.04、β4=0.01、β5=0.02、β6=0.025、β7=2·10‑5。
[0071] 与现有技术中的奖励函数相比本发明奖励函数增加了对机器人运动时移动效率、能量消耗和平滑度的奖励设置,使机器人可以更好地适应环境。
[0072] 步骤三、学习训练实现四足机器人运动控制;
[0073] 训练一个能够访问特权信息的教师策略,即地形的地面实况知识以及机器人与其接触的情况;特权信息使教师策略能够快速实现高性能;然后,使用特权老师来指导纯本体感受学生控制器的学习,学生控制器仅使用真实机器人上可用的传感器;这种特权学习协议是通过模拟实现的,但由此产生的本体感受策略并不局限于模拟,而是部署在物理机器上。
[0074] 如图2所示,教师‑学生模型中教师策略基于多层感知器(MLP),该多层感知器接收有关机器人当前状态、地形属性以及机器人与地形接触的信息;教师策略表示机器人当前状态,通过训练目标奖励沿规定方向的运动。
[0075] 学生策略是一个时间卷积网络(TCN),用于接收N个本体感受观察序列作为输入;学生策略是通过模仿来训练的;由教师策略计算的奖励值向量来指导学生实现机器人在崎岖地形的稳定运动。
[0076] 为了验证改进的教师‑学生策略效果,本发明进行了模拟运动对比实验,结果如图3所示,图中灰色曲线表示教师的学习曲线,黑色曲线表示未经特权培训直接采用TPRO训练的学生的学习曲线;灰色直线表示接受过特权培训的学生的平均奖励;奖励是通过在均匀采样的地形上运行每个策略来计算的,实验结果证明经过教师‑学生学习框架培训的奖励值有明显提升。
[0077] 以上述依据本发明的理想实施例为启示,通过上述的说明内容,相关工作人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定其技术性范围。

当前第1页 第1页 第2页 第3页