技术领域
[0001] 本发明涉及船舶自动控制技术领域,具体而言,尤其涉及一种离散时间强化学习无人艇航向跟踪控制方法及系统。
相关背景技术
[0002] 21世纪的海洋世纪,无人艇是一种重要的海洋装备,能够代替人们执行复杂危险的作业任务,在军事和民用领域内有广泛地应用。受装载条件、航行条件等因素影响,无人艇航向动力学模型变为一种不确定非线性模型,这为无人艇航向控制带来一定的挑战。针对上述控制问题,许多智能算法应用于无人艇航向控制,如鲁棒控制、滑模控制、自适应控制、模型预测控制等。
[0003] 现有的控制方法通过简化风、浪、流和涌等因素对船体产生的强干扰,导致控制精度不足,通过加强无人艇系统与环境之间的交互能够提供一种新的解决思路。此外,现有的多数研究结果将无人艇运动数学模型简化为一种严格反馈形式,无法针对更为一般形式的非严格反馈形式的离散时间系统进行控制设计。因此,设计一种通用的强化学习无人艇航向控制方法迫在眉睫。
具体实施方式
[0084] 需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。
[0085] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0086] 需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本发明的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
[0087] 除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。同时,应当清楚,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。对于相关领域普通技术人员己知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。在这里示出和讨论的所有示例中,任向具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
[0088] 在本发明的描述中,需要理解的是,方位词如“前、后、上、下、左、右”、“横向、竖向、垂直、水平”和“顶、底”等所指示的方位或位置关系通常是基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,在未作相反说明的情况下,这些方位词并不指示和暗示所指的装置或元件必须具有特定的方位或者以特定的方位构造和操作,因此不能理解为对本发明保护范围的限制:方位词“内、外”是指相对于各部件本身的轮廓的内外。
[0089] 为了便于描述,在这里可以使用空间相对术语,如“在……之上”、“在……上方”、“在……上表面”、“上面的”等,用来描述如在图中所示的一个器件或特征与其他器件或特征的空间位置关系。应当理解的是,空间相对术语旨在包含除了器件在图中所描述的方位之外的在使用或操作中的不同方位。例如,如果附图中的器件被倒置,则描述为“在其他器件或构造上方”或“在其他器件或构造之上”的器件之后将被定位为“在其他器件或构造下方”或“在其位器件或构造之下”。因而,示例性术语“在……上方”可以包括“在……上方”和“在……下方”两种方位。该器件也可以其他不同方式定位(旋转90度或处于其他方位),并且对这里所使用的空间相对描述作出相应解释。
[0090] 此外,需要说明的是,使用“第一”、“第二”等词语来限定零部件,仅仅是为了便于对相应零部件进行区别,如没有另行声明,上述词语并没有特殊含义,因此不能理解为对本发明保护范围的限制。
[0091] 如图1所示,本发明提供了一种离散时间强化学习无人艇航向跟踪控制方法,包括:
[0092] S1、建立无人艇航向离散时间非线性动力学模型;
[0093] S2、对建立的无人艇航向离散时间非线性动力学模型进行系统变换,建立无人艇航向跟踪变化系统;
[0094] S3、基于建立的无人艇航向跟踪变化系统,设计无人艇强化学习评价模块;
[0095] S4、基于设计的无人艇强化学习评价模块,设计无人艇航向跟踪控制器,从而得到无人艇系统舵角指令,将舵角指令传递给无人艇舵机输出无人艇航向角,进而实现无人艇航向跟踪控制。
[0096] 具体实施时,作为本发明优选的实施方式,所述步骤S1中,建立无人艇航向离散时间非线性动力学模型,包括:
[0097] 采集无人艇航向信息,并将采集到的无人艇航向信息发送至船载计算机,船载计算机考虑无人艇回转非线性特性,建立无人艇航向离散时间非线性动力学模型;所述无人艇航向信息包括无人艇舵机测量的舵角信息和罗经测量的航向角信息以及航向角速度信息。
[0098] 具体实施时,作为本发明优选的实施方式,所述步骤S1中,建立的无人艇航向离散时间非线性动力学模型,具体为:
[0099]
[0100] 其中,x1(k)为无人艇航向角,角标1为第1个子系统,k为时刻;x2(k)为航向角速度,角标2为第2个子系统;u(k)为舵角输入;y(k)为系统输出; 为航向信息向量; 和 为未知光滑的非线性函数; 和 为未知有界光
滑函数,并满足 和 和 是未知的正数;d(k)为未知有界的
外界干扰,并满足 是未知的正数。
[0101] 具体实施时,作为本发明优选的实施方式,所述步骤S2中,对建立的无人艇航向离散时间非线性动力学模型进行系统变换,建立无人艇航向跟踪变化系统,包括:
[0102] 根据无人艇航向信息以及参考信号,计算航向角动态误差以及航向角速度与虚拟控制律的动态误差,得到无人艇系统跟踪动态误差以及无人艇动力学模型变换系统,具体为:
[0103] S21、无人艇船载计算机利用航向信息计算航向跟踪动态误差:
[0104] e1(k)=x1(k)‑yd(k)
[0105] e2(k)=x2(k)‑α(k)
[0106] 其中,e1(k)为无人艇航向角与参考信号的航向角动态误差;e2(k)为无人艇航向角速度与虚拟控制律α(k)的误差信号;yd(k)为光滑有界的参考信号;
[0107] S22、为了便于对无人艇系统进行航向跟踪控制设计,并避免子系统无关联问题,对无人艇航向离散时间非线性动力学模型进行系统变换,建立无人艇航向跟踪变化系统:
[0108]
[0109] 其中,F1(·)和F2(·)为非线性光滑未知函数;G1(·)和G2(·)为非线性光滑函数,并满足 和
[0110] 具体实施时,作为本发明优选的实施方式,所述步骤S3中,设计无人艇强化学习评价模块,具体包括:
[0111] S31、基于无人艇船载计算机的航向角动态误差e1(k)和跟踪性能阈值μ,设计效用函数 如下:
[0112]
[0113] 其中, 表示当前跟踪性能满足要求, 表示当前跟踪性能不满足要求;
[0114] S32、根据贝尔曼原理,利用效用函数 设计策略效用函数q(k),如下:
[0115]
[0116] 其中,0<β<1为设计参数,N为时间范围;
[0117] S33、根据神经网络万能逼近定理,得到策略效用函数q(k),如下:
[0118]
[0119] 其中,θc为期望权值向量,并满足 表示未知的正常数,下角标c表示评价模块;上角标T表示转置运算; 为有界的高斯基函数;δc为逼近误差,并满足为未知的正常数;
[0120] S34、定义贝尔曼误差Ξc(k),如下:
[0121]
[0122] 其中, 为策略效用函数q(k)的估计, 表示理想权值θc的估计;
[0123] S35、根据定义的贝尔曼误差Ξc(k),定义代价函数 采用梯度下降法最小化代价函数Jc(k),得到评价模块神经网络自适应律为
[0124]
[0125] 其中,λc为学习速率。
[0126] 具体实施时,作为本发明优选的实施方式,所述步骤S4中,基于设计的无人艇强化学习评价模块,设计无人艇航向跟踪控制器,从而得到无人艇系统舵角指令,将舵角指令传递给无人艇舵机输出无人艇航向角,进而实现无人艇航向跟踪控制,包括:
[0127] S41、设计无人艇强化学习系统执行模块中的虚拟控制律α(k)和神经网络自适应律 具体包括:
[0128] S411、定义执行模块中第一步的神经网络补偿器φ1(k),如下:
[0129]
[0130] 其中,θ1为期望权值向量,并满足 表示未知的正常数,下角标1表示第一个子系统; 为神经网络补偿器φ1(k)的输入向量;
[0131] S412、根据神经网络补偿器φ1(k),设计虚拟控制律α(k),如下:
[0132]
[0133] 其中,表示理想权值θ1的估计;
[0134] S413、定义第一个执行模块中的策略效用函数Ξ1(k),如下:
[0135]
[0136] 其中,k1=k‑1;
[0137] S414、根据策略效用函数,定义代价函数 采用梯度下降法最小化代价函数J1(k),得到第一个执行模块神经网络自适应律,如下:
[0138]
[0139] 其中,λ1为学习速率。
[0140] S42、设计无人艇强化学习系统执行模块中的控制律u(k)和神经网络自适应律具体包括:
[0141] S421、设计控制律u(k)为
[0142]
[0143] 其中,c1>0和c2>0为设计参数; 表示神经网络理想权值θ2的估计,并满足表示未知的正常数,下角标2表示第一个子系统; 为神经网络的输入向量;
[0144] S422、定义第二个执行模块中的策略效用函数Ξ2(k),如下:
[0145]
[0146] 其中,k2=k;
[0147] S423、根据式策略效用函数Ξ2(k),定义代价函数 采用梯度下降法最小化代价函数J2(k),得到第二个执行模块神经网络自适应律,如下:
[0148]
[0149] 其中,λ2为学习速率。
[0150] 对应本申请中的离散时间强化学习无人艇航向跟踪控制方法,本申请还提供了离散时间强化学习无人艇航向控制系统,包括:数据采集单元,用于采集无人艇航向信息;
[0151] 数据传输单元,用于将采集到的无人艇航向信息传输至船载计算机;
[0152] 无人艇船载计算机,用于处理采集到的无人艇航向信息,实现无人艇强化学习控制;
[0153] 数据反馈单元,用于将船载计算机输出的舵角指令传输给无人艇舵机输出无人艇舵角,实现无人艇航向跟踪控制。
[0154] 在本实施例中,优选的,所述无人艇船载计算机包括无人艇航向系统动力学模型模块、无人艇评价模块、神经网络补偿器模块、虚拟控制律模块、神经网络自适应更新率模块、强化学习控制律模块和数据反馈模块,其中:
[0155] 无人艇航向系统动力学模型模块,用于基于所述无人艇航向信息构建系统输入与输出之间的无人艇离散时间非线性动力学模型和变换系统;
[0156] 无人艇评价模块,用于基于所述的无人艇航向误差,设计基于预设跟踪性能阈值的策略效用函数和代价函数,实现评价模块神经网络自适应更新率的设计;
[0157] 无人艇神经网络补偿器模块,用于基于所述的非线性无人艇系统中神经网络系统,输出补偿所述无人艇神经网络;
[0158] 虚拟控制律模块,用于利用参考信号和补偿模块信息设计无人艇系统的虚拟控制函数,并以此设计虚拟控制律;
[0159] 神经网络自适应更新率模块,用于基于所述评价模块、虚拟控制律模型、控制律模型信息和策略效用函数,得到神经网络自适应律;
[0160] 强化学习控制律模块,用于基于系统误差信息和虚拟控制律模块信息,并以此设计控制器;
[0161] 数据反馈模块,是将无人艇强化学习控制律模块输出信息传输至无人艇舵机,实现强化学习控制律模块对无人艇航向的控制。
[0162] 对于本发明实施例的而言,由于其与上面实施例中的相对应,所以描述的比较简单,相关相似之处请参见上面实施例中部分的说明即可,此处不再详述。
[0163] 最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。