技术领域
[0001] 本发明涉及人机交互协同遥操作系统技术领域,具体涉及一种人机交互过程的动作‑行为‑批判神经网络学习控制方法。
相关背景技术
[0002] 在研究遥操作系统中的人与串联力触觉反馈设备交互的行为稳定问题过程中,以人机交互过程中的人的行为为研究对象,其中,人的行为由人作用于力触觉反馈设备末端的交互力描述。由于大多数力触觉反馈设备并不具备力传感器,因此无法直接由力触觉反馈设备获取人交互行为力,导致人的交互行为力与设备输出的控制力混淆。
[0003] 现有处理方法采用观测器估计行为力是有效的,但是由于观测器需要设置观测器增益参数,且此参数并不具备自适应性,因此,观测器方法在进一步提升估计精度上具有局限性。其次,由于采用的串联力触觉反馈设备具有非线性、动力学耦合性以及模型参数不确定性的特点,传统的控制方法并不能达到理想的效果。
[0004] 因此,需要提供一种人机交互过程的动作‑行为‑批判神经网络学习控制方法以解决上述问题。
具体实施方式
[0061] 下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0062] 本发明的一种人机交互过程的动作‑行为‑批判神经网络学习控制方法的实施例,如图1所示,包括:
[0063] S1、构建人机交互动力学模型并获取增广系统的状态向量;
[0064] 根据人机交互过程中力触觉反馈设备在关节空间下的关节角度位置、关节角速度、关节角加速度、惯性矩阵、向心力和科氏力矩阵、重力矩阵以及各个关节的输出力矩以及操作员在力触觉反馈设备末端施加的交互行为力在各个关节上的行为力矩,构建人机交互动力学模型;利用增广系统表示人机交互动力学模型,根据人机交互过程中力触觉反馈设备在关节空间下的关节角度位置、关节角速度以及期望轨迹获取增广系统的状态向量。
[0065] 其中,人机交互动力学模型的表达式为:
[0066]
[0067] 式中,q表示人机交互过程中力触觉反馈设备在关节空间下的关节角度位置,表示人机交互过程中力触觉反馈设备在关节空间下的关节角速度, 表示人机交互过程中力触觉反馈设备在关节空间下的关节角加速度 M表示人机交互过程中力触觉反馈设备在关节空间下的惯性矩阵, C表示人机交互过程中力触觉反馈设备在关节空间下的向心力和科氏力矩阵, G表示人机交互过程中力触觉反馈设备在关节空间下的重力矩阵, τs表示人机交互过程中力触觉反馈设备在关节空间下的各个关节的输出力矩, τh表示操作员在力触觉反馈设备末端施加的交互行为力在各个关节上的行为力矩, n为关节数量; 表示维度为n的向量的集合; 表示维度为n×n的矩阵的集合。
[0068] 该人机交互系统可以用不确定模型描述为如下式(2)的形式:
[0069]
[0070] 其中, 表示系统的未知非线性动力学函数, h(q)为未知输出增益函数,
[0071] 控制系统的关节角度位置跟踪误差可表示为e=q‑qd,其导数表示为 其中, 表示各个关节的期望关节角度位置, 为期望关节角度位置qd关于时间的导数,为期望关节角度位置qd关于时间的二阶导数。假设存在Lipschitz连续函数 使得且该函数在零点时等于0,表示为m(0)=0。则轨迹跟踪问题下的人机交互动力学模型可以通过增广系统描述,具体的,增广系统的表达式为:
[0072]
[0073]
[0074]
[0075] 式中,r(t)表示t时刻增广系统的状态向量, 表示维度为4n的向量的集合;e表示系统的关节角度位置跟踪误差;
表示t时刻增广系统的状态向量r(t)关于时间导数, 表
示Lipschitz连续函数 转置;表示系统的关节角度位置跟踪误差的导数;qd表示各个关节的期望关节角度位置; 表示各个关节的期望关节角度位置关于时间的导数,其中,下标d表示期望;F(r(t))表示非线性动力学函数;H(r(t))表示增益函数;τs表示人机交互过程中力触觉反馈设备在关节空间下的各个关节的输出力矩;τh表示操作员在力触觉反馈设备末端施加的交互行为力在各个关节上的行为力矩; 表示系统状态函数转
T
置;h (e+qd)表示系统输出增益函数转置; 表示由0组成的长度为n的行向量;需要说明的T T
是,(·) 表示矩阵向量的转置,以惯性矩阵M为例,其矩阵转置为M,后文矩阵向量转置统一采用此种表达方式。
[0076] S2、构建行为网络,获取行为网络的权重估计向量更新律并对行为网络更新,利用更新后的行为网络获取行为力矩;
[0077] 具体的,将高斯函数作为径向基函数并根据多层RBF神经网络构建行为网络,根据人机交互过程中的系统状态观测器、径向基函数以及人机交互动力学模型,获取行为网络的权重估计向量更新律,基于权重估计向量更新律对行为网络进行更新,并利用更新后的行为网络获取人机交互过程中操作员在力触觉反馈设备末端施加的交互行为力在各个关节上的行为力矩。
[0078] 其中,本实施例中采用多层RBF神经网络逼近行为力矩。RBF神经网络径向基函数选用高斯函数。该行为网络的高斯函数表示为:
[0079]
[0080] 式中, 为行为网络的激活函数; 表示维度为c的向量的集合;c表示行为神经网络隐含层节点数目; 为该高斯函数中心点, 表示维度为2n的向量的集合;λ为该高斯函数的宽度;exp为自然常数; 为高斯函数输入向量。
[0081] 故在后续设计中,行为力矩τh使用RBF神经网络描述为:
[0082]
[0083] 其中, 为行为网络的理想权重向量; 表示维度为n×r的实数矩阵的集合; 为行为网络的逼近误差,n为基函数的维度。由于无法直接获得行为网络的理想权重向量,因此对理想权重向量进行估计表示为 表示行为网络的权重估计向量,可得估计行为力矩 本发明中,假设行为网络的理想权重向量 激活向
量 以及神经网络估计误差εh是有界的,同时,行为网络的理想权重向量的导数 同样也不可得。传统方法中,通常认为 等于0,但此种方法会带来额外的估计误差。为减小估计误差,在这里对行为网络进行拓展,在原先行为网络的基础上,引入 层神经网络用来表示行为网络的理想权重矩阵的导数 表示实数集合,原先行为网络统称为初始行为网络,引入的神经网络统称为拓展行为网络;则拓展行为网络的理想权重矩阵表示为 υ=1,2,...,j,定义如下:
[0084]
[0085] 式中, 为行为网络中第1层展行为网络的理想权重估计向量; 为行为网络中第i+1层拓展行为网络的理想权重估计向量; 为行为网络的第j层拓展行为网络的理想权重估计向量的导数; 为行为网络的第i层拓展行为网络的理想权重估计向量的导数; 为初始行为网络的理想权重估计向量的导数;为拓展行为网络引入权重估计向量来估计理想权重向量 此时行为网络共计j+1层,包含初始行为网络,其初始行为网络的权重估计向量表示为 以及j层拓展行为网络,其权重估计向量表示为继而问题转化为设计初始行为网络的权重估计矩阵 以及拓展行为网
络的权重估计矩阵 和 的更新律,引入系统状态观测器获取行为网络的权重估计向量更新律。其中,人机交互过程中的系统状态观测器为如下形式:
[0086]
[0087] 式中,表示关节角速度观测值的导数, 并且有 表示状态观测误差, ζ表示状态观测误差项, 为状态观
测误差反馈校正项, 为正对角矩阵,通过调整矩阵D参数,可以抑制状态观测器在‑1
观测过程中状态观测误差的累积;M 表示人机交互过程中力触觉反馈设备在关节空间下的惯性矩阵的逆矩阵;C表示人机交互过程中力触觉反馈设备在关节空间下的向心力和科氏力矩阵;G表示人机交互过程中力触觉反馈设备在关节空间下的重力矩阵;τs表示人机交互过程中力触觉反馈设备在关节空间下的各个关节的输出力矩; 表示估计行为力矩;σ表示关节角速度观测值;D表示正对角矩阵;L表示误差校正矩阵, In表示
维度为n×n的单位矩阵; 表示维度为n的实数向量的集合, 表示维度为n×n的实数矩阵的集合。结合系统状态观测器,为了避免行为网络估计出冗余信息,公式(6)中X选择为[0088] 至此,根据公式(1)、公式(6)以及公式(9),设计多层行为网络的权重估计向量更新律为:
[0089]
[0090] 式中,行为网络包括初始行为网络和j层拓展行为网络; 表示行为网络中的初始行为网络的权重估计向量更新律; 表示行为网络中第i层拓展行为网络的权重估计向量更新律; 表示行为网络中第j层拓展行为网络的权重估计向量更新律; 表示行为网络中第i+1层拓展行为网络的权重估计向量; 表示行为网络中的初始行为网络的权重估计向量; 表示行为网络中第i层拓展行为网络的权重估计向量; 表示行为网络中第j层拓展行为网络的权重估计向量; 表示行为网络中第1层拓展行为网络的权重估计向‑1量; 表示行为网络的激活向量;ζ表示状态观测误差项;M 表示人机交互过程中力触觉反馈设备在关节空间下的惯性矩阵的逆矩阵;δh表示行为网络中的初始行为网络学习率,δh>
0;δhi表示行为网络中第i层拓展行为网络的学习率,δhi>0,i=1,2,L,j‑1;δhj表示行为网络中第j层拓展行为网络的学习率,δhj>0;通过调整学习率大小改变该行为网络的收敛速度;kh为初始行为网络的可调节参数,kh>0;khi表示行为网络中第i层拓展行为网络的可调节参数,khi>0;khj表示行为网络中第j层拓展行为网络的可调节参数,khj>0。
[0091] 至此,利用权重估计向量更新律对行为网络进行更新,并利用更新后的行为网络即可获取人机交互过程中操作员在力触觉反馈设备末端施加的交互行为力在各个关节上的行为力矩。
[0092] S3、获取人机交互过程中系统的性能指标函数;
[0093] 根据人机交互过程中力触觉反馈设备在关节空间下的各个关节的输出力矩,操作员在力触觉反馈设备末端施加的交互行为力在各个关节上的行为力矩以及增广系统的状态向量,获取人机交互过程中系统的性能指标函数。
[0094] 本实施例中,在完成行为网络设计后,此时需获取输出力矩τs的值,即设计控制律,选用自适应动态规划控制方法设计控制律,首先设计该方法中的性能指标函数。传统性能指标函数中仅包含系统状态二次型函数以及控制输出二次型函数。但是在人机交互过程中,人的交互行为力同样会影响系统性能,采用传统性能指标函数可能会影响控制算法的性能。因此,本发明设计人机交互过程中系统的性能指标函数为:
[0095]
[0096] 式中,V表示人机交互过程中系统的性能指标函数;α>0表示折扣因子;Q=(Q1,02n×2n;02n×2n,02n×2n)为半正定矩阵, 为正定矩阵; 表示维度为2n×2n的实数矩阵的集合;R、K均为正定矩阵;τs表示人机交互过程中力触觉反馈设备在关节空间下的各个关节的输出力矩;τh表示操作员在力触觉反馈设备末端施加的交互行为力在各个关节上的行为力矩;r(ι)表示ι时刻增广系统的状态向量,其中ι为时间区间[t,∞]上的积分变量。
[0097] S4、构建动作网络和批判网络,获取动作网络和批判网络的权重估计向量更新律并更新动作网络,根据更新后的动作网络获取输出力矩;
[0098] 具体的,构建动作网络和批判网络,根据性能指标函数,动作网络和批判网络对应的激活向量、权重估计向量,以及行为网络输出的行为力矩,获取动作网络和批判网络的权重估计向量更新律,根据动作网络和批判网络的权重估计向量更新律对动作网络进行更新,并根据更新后的动作网络获取力触觉反馈设备的各个关节的输出力矩。
[0099] 步骤41、构建动作网络和批判网络的步骤为:
[0100] 由于式子(11)的性能指标函数形式复杂,无法通过直接积分的方法获取性能指标函数值。本发明引入神经网络解决此问题,即引入动作网络来逼近τs与引入批判网络分别用来逼近V。并引入双曲正切函数tanh(·)描述输出受限问题,描述为如下形式:
[0101]
[0102] 其中, 是动作网络的理想权重向量; 是批判网络的理想权重向量,l为动作网络隐含层节点数,m为批判网络隐含层节点数; 为动作网络的激活向量; 为批判网络的激活向量; 为动作网络的逼近误差, 为批判网络的
逼近误差; 表示维度为l×n的实数矩阵的集合; 表示维度为m×n的实数矩阵的集合; 表示维度为l的实数向量的集合; 表示维度为m的实数向量的集合; 表示维度为n的实数向量的集合;β为输出峰值限制,假设 εa以及εc是有界的,由于,理想权重向量无法获得,因此,引入动作网络的权重估计向量 来估计动作网络的理想权重向量,引入批判网络的权重估计向量 来估计批判网络的理想权重向量 此时公式(12)重写表示为:
[0103] 动作网络的表达式为:
[0104]
[0105] 批判网络的表达式:
[0106]
[0107] 式中, 表示人机交互过程中力触觉反馈设备在关节空间下的各个关节的输出力矩估计值; 表示人机交互过程中系统的性能指标函数的估计值;β表示输出峰值限制;表示动作网络的权重估计向量; 表示动作网络的激活向量; 表示批判网络的权重估计向量; 表示批判网络的激活向量。
[0108] 步骤42、获取动作网络和批判网络的权重估计向量更新律的步骤:
[0109] 基于公式(13)和(14),问题转换为设计动作网络的权重估计向量 以及批判网络的权重估计向量 的更新律,记运算时刻为t、运算间隔时间为Tp,在时间区间[t‑Tp,t]上,对式(11)的性能指标函数应用无模型积分强化学习算法,可得方程如下:
[0110]
[0111] 式中,r(t‑Tp)表示t‑Tp时刻的增广系统的状态向量;r(t)表示t时刻的增广系统的状态向量;r(ι)表示ι时刻增广系统的状态向量,其中ι为时间区间[t‑Tp,t]上的积分变量。。
[0112] 在本发明中,由于无法直接获取输出力矩τs的理想值及行为力矩τh的理想值,因此采用估计输出力矩估计值 行为力矩估计值 以及性能指标函数估计值 对应替代τs、τh以及V。且估计值与理想值之间存在误差,此时公式(15)可以重写为:
[0113]
[0114] 其中,ε表示采用估计值替换理想值后产生的误差项,当ε=0时,便可认为估计值即为理想值;α>0为可调节参数; 表示t‑Tp时刻的动作网络的权重估计向量;r(t‑Tp)表示t‑Tp时刻的增广系统状态向量;Tp表示运算间隔时间; 表示矩阵克罗内克积运算;vec(·)表示将矩阵按照行转换为向量的函数;r(ι)表示ι时刻的增广系统的状态向量,其中ι为时间区间[t‑Tp]上的积分变量;κ为输出区间 上的积分变量。
[0115] 以ε逼近0为设计目标,对公式(16)采用梯度下降法设计动作网络和批判网络的权重估计向量更新律,定义动作网络和批判网络的权重估计向量 包含动作网络、批判网络的权重估计向量。则动作网络和批判网络的权重估计向量更新律表示为:
[0116]
[0117] 式中, 表示动作网络和批判网络的权重估计向量更新律; 表示动作网络的权重估计向量; 批判网络的权重估计向量;δ表示动作网络和批判网络的学习率;ψ表示由动作网络和批判网络在性能指标函数部分带来的残差误差;φ表示由动作网络和批判网络在其余部分带来的残差误差。
[0118] 其中,δ>0表示学习率,ψ的表达式为:
[0119]
[0120] 式中,ψ表示由动作网络和批判网络在性能指标函数部分带来的残差误差;Q=(Q1,02n×2n;02n×2n,02n×2n)为半正定矩阵,Q1为正定矩阵;上标T表示矩阵或函数输出的转置;δ表示学习率;K为正定矩阵;α表示可调节参数;β表示输出峰值限制; 表示初始行为网络的权重估计向量; 表示行为网络的激活向量的转置;r(ι)表示ι时刻的增广系统的状态向量。
[0121] 其中,φ的表达式为:
[0122]
[0123]
[0124]
[0125] 式中,φc表示由批判网络带来的残差误差;φa表示由动作网络带来的残差误差;e表示系统的关节角度位置跟踪误差;R为正定矩阵;r(ι)表示ι时刻增广系统的状态向量,其中ι为时间区间[t‑Tp,t]上的积分变量;Tp表示运算间隔时间; 表示动作网络的激活向量; 表示批判网络的激活向量;α表示可调节参数;β表示输出峰值限制; 表示矩阵克罗内克积运算符;r(t‑Tp)表示t‑Tp时刻的增广系统的状态向量;r(t)表示t时刻的增广系统的状态向量。
[0126] S5、更新状态观测器的状态观测误差项和关节角速度观测值,以及人机交互动力学模型的关节角度位置、关节角速度;
[0127] 具体的,根据更新后的行为网络获取人机交互过程中操作员在力触觉反馈设备末端施加的交互行为力在各个关节上的行为力矩,以及更新后的动作网络获取力触觉反馈设备的各个关节的输出力矩,更新状态观测器的状态观测误差项和关节角速度观测值,以及人机交互动力学模型的关节角度位置、关节角速度。
[0128] 下面结合附图对本实施例进行说明:
[0129] 如图2所示,步骤一、初始时间记为t0,初始化系统,系统初始参数记为 以关节角度位置为例,初始关节角度位置为
[0130] 其中,系统初始化的步骤为:
[0131] 1.1、参数初始化:
[0132] 初始化运算间隔时间Tp、系统的期望轨迹、关节角度位置 关节角速度 观测器输出 以及神经网络参数。其中,神经网络参数包括激活函数参数、学习率参数以及初始权重矩阵参数。此时系统状态观测器输出 分别等于初始关节角度位置[0133] 以及关节角速度 且人机交互动力学模型的参数M、C、G已知。
[0134] 1.2、行为网络初始化:根据初始关节角度位置 关节角速度 以及 得到状态观测误差项 并根据公式(10)获得 从而获得行为网络输出
[0135] 1.3、动作网络和批判网络初始化:根据初始关节角度位置 关节角速度 以及期望轨迹获取增广系统的状态向量r(t0),并结合动作网络、批判网络对应的激活函数,初始权重向量以及行为网络的初始输出 按照公式(17)获得 从而获得动作网络的输出
[0136] 1.4、状态观测器以及人机交互动力学模型更新:根据行为网络的输出 以及动作网络的输出 更新状态观测器的状态观测误差项 和关节角速度观测值以及人机交互动力学模型的关节角度位置 关节角速度
t
[0137] 步骤二、当前时间记为t。假设存在矩阵A,A表示当前时刻的矩阵A, 表示下个时刻的矩阵A,后续统一采用此种表述方法。通过状态观测值以及当前关节角度位置、角速t度获取系统状态观测器的状态观测误差项ζ 。其次,基于状态观测误差以及系统动力学确定行为网络权重更新律 通过递推得到行为网络权重估计更新律 并计算估计
行为力矩
[0138] 步骤三、基于当前轨迹跟踪误差信息、当前行为网络输出 上一次动作网络估计力矩输出 得到动作、批判神经网络权重估计更新律,最后,计算动作网络输出,并添加系统输出受限后得到输出力矩估计值
[0139] 步骤四,将动作网络的输出力矩估计值 与行为网络的行为力矩估计值 共同输入至系统,实现系统的更新学习。
[0140] 对系统进行仿真模拟,仿真模拟结果如图3到图7所示,其中,图3为行为网络与系统状态观测器估计行为力矩的误差轨迹示意图,从图3中发现行为网络估计行为力矩误差较小,能够保持在较小范围内波动并长时间稳定,同时图3描述了使用系统状态观测器估计行为力矩误差轨迹,可以看出采用行为网络逼近行为力矩方法更优,其拥有更高的逼近精度,图4为关节1的行为力矩以及估计行为力矩轨迹示意图,图5为关节2的行为力矩以及估计行为力矩轨迹示意图,图6为关节3的行为力矩以及估计行为力矩轨迹示意图,从图4到图6可知,图7为行为网络节点权重轨迹示意图,从图7可知,行为网络节点权重值在有限时间内能够收敛。
[0141] 图8为关节角度位置跟踪误差轨迹示意图,图9为动作网络估计的输出力矩估计值的轨迹示意图;图10为动作网络权重轨迹示意图;图11为批判网络权重轨迹示意图,从图8到图11四张图描述了基于动作、行为、批判神经网络的自适应动态规划控制方法下的关节角度轨迹跟踪误差、输出受限条件下动作网络估计力矩轨迹以及动作网络、批判网络的权重轨迹。可以发现状态误差能够快速收敛,并保持稳定。且动作网络以及批判网络权重均能收敛。同时图8添加了PID方法对比组,从图8中可以看出在轨迹跟踪方面所提出控制方法相对于PID控制方法拥有更小的轨迹跟踪误差。结合图3以及图8,可以看出本实施例的方法相对传统方法拥有更好的行为力矩估计能力以及轨迹跟踪性能。
[0142] 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。