电动汽车轨迹跟踪和横向稳定性控制方法、装置及存储介质

电动汽车轨迹跟踪和横向稳定性控制方法、装置及存储介质实质审查发明

技术领域

[0001] 本发明属于电动汽车技术领域，具体涉及一种电动汽车的轨迹跟踪和横向稳定性集成控制方法、装置及存储介质。

具体实施方式

[0054] 下面结合附图和具体实施方式对本发明作进一步解释说明，需要注意的是，本具体实施例不用于限定本发明的权利范围。

[0055] 如图1至图12所示，本具体实施例提供的一种电动汽车轨迹跟踪和横向稳定性的集成控制方法，该集成控制方法应用于使用前轮驱动转向的分布式驱动电动汽车中，包括如下步骤：

[0056] S1，获取分布式驱动电动汽车的车载传感器信息和参考轨迹；

[0057] 具体地，在分布式驱动电动汽车上配置有多个车载传感器，通过所述多个车载传感器进行信息采集，获得车载传感器信息。车载传感器信息包括车辆纵向速度、车辆横向速度、车辆横摆角速度、车辆前后轴的侧偏刚度、前轮转角、车辆质心侧偏角、车辆的转动惯量、车辆质心和参考轨迹之间的横向误差、车辆航向角和轨迹中心线之间的航向角误差、车辆质心侧偏角以及横摆角速度。参考轨迹是预先设置的轨迹，分布式驱动电动汽车需要按照参考轨迹行驶。

[0058] S2，根据车辆自行车模型公式计算得到转向过程中期望车辆质心侧偏角和期望横摆角速度，根据S1步骤的车载传感器信息和参考轨迹，计算当前时刻车辆与参考轨迹之间的横向误差、航向角误差、期望车辆质心侧偏角和实际车辆质心侧偏角之差以及期望横摆角速度和实际横摆角速度之差；

[0059] 车辆的轨迹跟踪过程可以归纳为一个马尔可夫决策过程(MDP)。在这个过程中，机构基于当前状态信息st做出决策并产生动作at，环境基于此动作产生反馈后，机构获得新的状态信息st+1和奖励rt+1，并依次对策略进行更新。

[0060] 状态信息可被定义为两个部分：一部分是轨迹跟踪精度指标包括横向误差ey和航向角误差ψe，另一项横向稳定性指标包括车辆质心侧偏角β和横摆角速度γ。动作被定义为附加横摆力矩控制量ΔMz。因此，附加横摆力矩控制量ΔMz的公式在强化学习过程中可被表示为：

[0061]

[0062] 式(1)中，Δβ＝βdes‑β表示车辆质心侧偏角实际值和期望值的差值，并且∫Δβ为车辆质心侧偏角实际值和期望值的差值的积分，Δ γ＝γdes‑γ表示横摆角速度实际值和期望值的差值，并且∫Δ γ为横摆角速度实际值和期望值的差值的积分。

[0063] 车辆质心侧偏角和横摆角速度的期望值可通过车辆自行车模型计算得到：

[0064]

[0065] 式(2)中，vx为车辆纵向速度；γrd和βrd分别为车辆质心侧偏角和横摆角速度的期望值；K为稳定性系数；δf表示期望前轮转角控制量；m为车辆质量；lf和lr为车辆前后轴到质心位置的距离；Cf和Cr为车辆前轴、后轴的侧偏刚度；L为车辆前轴中心至后轴中心长度。K为稳定性系数可被表示为：

[0066]

[0067] 式(3)中，Cf和Cr为车辆前轴、后轴的侧偏刚度；m为车辆质量；L为车辆前轴中心至后轴中心长度；lf和lr为车辆前后轴到质心位置的距离。

[0068] 同时，由于车辆的最大侧向加速度受路面附着系数限制，期望的车辆质心侧偏角和期望的横摆角速度需满足：

[0069]

[0070] 这里μ为路面附着系数；γdmax为通过约束得到的质心侧偏角的最大值；βdmax为通过约束得到的横摆角速度最大值；g为重力加速度；vx为车辆纵向速度；lf和lr为车辆前后轴到质心位置的距离；L为车辆前轴中心至后轴中心长度；Cf和Cr为车辆前轴、后轴的侧偏刚度。

[0071] 总结，期望的车辆质心侧偏角和期望的横摆角速度可以表示为：

[0072]

[0073] 式(5)中，γdes为选取的期望质心侧偏角；γd为通过模型计算得到的期望质心侧偏角；γdmax为通过约束得到的质心侧偏角的最大值；βdes为选取的期望横摆角速度；βd为通过模型计算得到的期望横摆角速度；βdmax为通过约束得到的横摆角速度最大值。

[0074] S3，采用Stanley算法通过步骤S2所述的横向误差及航向角误差计算得到期望前轮转角控制量；采用DRL算法通过步骤S2所述的当前时刻车辆与参考轨迹之间的横向误差、航向角误差、期望车辆质心侧偏角和实际车辆质心侧偏角之差以及期望横摆角速度和实际横摆角速度之差的环境信息，得到附加横摆力矩控制量，并根据相应奖励对控制策略进行更新；

[0075] Stanley算法是由斯坦福大学开发的无人驾驶车辆的轨迹跟踪算法，其原理是根据前轴中心距最近路径点的横向误差和航向角误差通过反馈控制计算期望前轮转角控制量。

[0076] 具体地，根据车载传感器信息和参考轨迹创建Stanley轨迹跟踪计算公式，包括以下几个步骤：

[0077] 根据车载传感器信息和参考轨迹联立轨迹跟踪模型(见图2)，将车辆中心和参考轨迹之间的横向距离定义为ey，将车辆航向角和参考轨迹中心线之间的航向角误差定义为ψe，它们的导数可被表达为公式(6)。

[0078]

[0079] 式(6)中，vy为车辆横向速度，vx为车辆纵向速度，β为车辆质心侧偏角，γ为车辆横摆角速度，ρ为参考轨迹弧度。设ψe和β的角度都非常小且近似为0，可推出cos(ψe)≈1，sin(ψe)≈ψe以及tan(β)≈β。故基于β≈vy/vx可以得到轨迹跟踪模型。

[0080] 根据Stanley公式，期望前轮转角控制量可计算为：

[0081]

[0082] 式(7)中，δf表示期望前轮转角控制量；ey表示车辆中心和参考轨迹之间的横向距离；ψe表示车辆航向角和参考轨迹中心线之间的航向角误差；k表示Stanley算法的可调超参数；v表示纵向车速。

[0083] DRL(Deep Reinforcement Learning，深度强化学习)算法通过智能体与环境的不断交互(即采取动作)，进而获得奖励，从而不断优化自身动作策略，以期待最大化其长期收益(奖励之和)。

[0084] 获得附加横摆力矩控制量的具体包括以下步骤：

[0085] 建立车辆动力学模型：为解决分布式驱动电动汽车中集成控制问题，需要构建一个不计前倾、侧倾、只考虑前轮转向且每个轮毂都装有轮毂电机的面向控制导向的车辆动力学模型(见图3)：

[0086]

[0087] 式(8)中，m为车辆质量，lf和lr为车辆前后轴到质心位置的距离，Iz为车辆的绕z轴转动惯量，vy表示车辆横向速度；vx表示车辆纵向速度；Fy表示车辆所受的总横向力；Fyf表示车辆前轮所受总横向力；Fyr表示车辆后轮所受总横向力；Mz表示车辆横摆力矩；表示车辆横摆角加速度；这些参数均能从车载传感器信息中得到。

[0088] 式(8)中，Fyf和Fyr可以表示为：

[0089]

[0090] 式(9)中，Cf和Cr为车辆前后轴的侧偏刚度；Fyfl表示车辆左前轮所受的横向力；Fyfr表示车辆右前轮所受的横向力；Fyrl表示车辆左后轮所受的横向力；Fyrr表示车辆右后轮所受的横向力；αf表示前轮胎的侧偏角；αr表示后轮胎的侧偏角。

[0091] 式(9)中，αf和αr表示前后轮胎的侧偏角，可以表示为：

[0092]

[0093] 式(10)中，β表示车辆质心侧偏角；lf和lr为车辆前后轴到质心位置的距离；δf表示期望前轮转角控制量；vx表示车辆纵向速度；

[0094] 则车辆横向运动学公式写作：

[0095]

[0096] 式(11)中，m为车辆质量；vy为车辆横向速度；vx为车辆纵向速度；Cf和Cr为车辆前后轴的侧偏刚度；γ为车辆横摆角速度；表示车辆横摆角加速度；β表示车辆质心侧偏角；lf和lr为车辆前后轴到质心位置的距离；ΔMz为附加横摆力矩控制量；δ为车辆前轮转角，附加横摆力矩控制量ΔMz可由左右轮胎纵向力差值产生，可被表示为：

[0097]

[0098] 式(12)中，ΔMz表示附加横摆力矩控制量；ds表示车辆轴距；Fxfl表示前轴左侧车轮受到的纵向力；Fxfr表示前轴左侧车轮受到的纵向力；Fxrl表示后轴左侧车轮受到的纵向力；Fxrr表示后轴右侧车轮受到的纵向力。

[0099] 所述轮胎纵向力可被计算为：

[0100]

[0101] 这里Fxfl表示前轴左侧车轮受到的纵向力；Fxfr表示前轴左侧车轮受到的纵向力；Fxrl表示后轴左侧车轮受到的纵向力；Fxrr表示后轴右侧车轮受到的纵向力；T是各轮胎轮毂电机驱动转矩，rw为轮胎半径。

[0102] 本具体实施例中采用双延迟深度确定性策略梯度算法(TD3)的DRL控制器来输出附加横摆力矩控制量。基于混合强化学习方法的集成控制策略见图4。

[0103] 在解决本具体实施例所涉及的横向稳定性控制问题时，可以将其抽象成马尔科夫决策(Markov decisionprocess,MDP)问题，该问题包括状态集、动作集、状态转移函数以及奖励等元素。

[0104] 在训练过程中，将上层横向稳定性控制器作为学习智能体，实时地输出附加横摆力矩控制命令，并将其传递给下层的转矩分配控制器。四轮驱动电动汽车接收来自转矩分配控制器的各轮毂电机驱动转矩控制命令后，更新汽车状态信息。在每次迭代过程中，MDP根据汽车的实时状态产生新的奖励。通过多次迭代，智能体持续更新其网络参数和策略，旨在获取更高的奖励值，进而优化控制器的性能。

[0105] 总体而言，马尔科夫决策过程可表示为一个五元结构，即MDP＝{S,A,P,R,λ}。在这个结构中，S表示MDP的状态集，A表示MDP的动作集，P表示状态转移函数，R表示奖励，λ表示折扣因子。

[0106] 在本具体实施例所提出的DRL算法中，状态集为车辆实时状态信息，包括车辆轨迹跟踪过程中的横向误差，航向角误差以及质心侧偏角和横摆角速度等以及他们的微分和积分函数。动作集为控制器输出的附加横摆力矩控制命令。系统的状态集和动作集分别表示如下：

[0107]

[0108] 式(14)中，ey和ψe表示车辆轨迹跟踪过程中的横向误差和航向角误差，和∫ey分别表示其微分形式和积分形式；β表示车辆质心侧偏角；Δ γ表示期望横摆角速度与实际值之间的差值。ΔMz表示附加横摆力矩控制量。

[0109] 在强化学习算法中，设定收益奖励与最终控制效果密切相关。为提高横向稳定性控制性能，将车辆轨迹跟踪精度和横向稳定性控制纳入奖励函数。同时，为保证附加横摆力矩控制量平稳输出，需要限制前后时刻控制命令差值。

[0110] rt＝(‑(x(t)T·Q·x(t))‑(Δu(t)T·R·Δu(t)) (15)

[0111] 式(15)中，x(t)＝[ey(t)；ψe(t)；β(t)；Δ γ(t)]表示车辆状态信息，Q为控制权重矩阵；Δu(t)表示附加横摆力矩控制量的控制命令前后时刻的差值，R为动作权重矩阵。

[0112] 在每次迭代过程中，折扣奖励是对从训练开始到未来某一结束时刻的所有累积奖励的综合考量。为了体现未来奖励随时间贬值的特性，我们引入了折扣因子，并据此构建了折扣奖励的数学表达式：

[0113] Ut＝rt+λ·rt+1+λ2·rt+2+…+λk·rt+k＝rt+λ·Ut+1 (16)

[0114] 式(16)中，rt表示t时刻奖励值，rt+1、rt+2、rt+k同上所述依此类推；Ut+1表示t+1时刻的累积收集；λ表示奖励的权重系数；

[0115] 本具体实施例所使用的DRL算法是TD3算法。TD3算法是DDPG算法的改进版本，两者都采用actor‑critic结构的神经网络对智能体进行训练。在这种结构中，critic网络负责估计Q值函数，评估给定动作的性能优劣，类似于DQN算法的部分；而actor网络则用于估计策略π函数，直接决定下一个时刻的横摆力矩控制命令。DDPG算法在训练过程中可能高估Q值函数，导致产生次优策略。为了减少Q值函数的过高估计，TD3算法进行了以下修改：

[0116] (1)双重critic网络：TD3算法学习两套相同的critic网络，并在策略更新过程中使用最小值函数进行估计，从而避免Q值函数的过高估计。

[0117] (2)目标策略平滑：在更新策略时，向目标动作添加小幅度噪声，使得策略不太可能利用具有高Q值估计的动作。

[0118] (3)延迟actor网络更新：Actor网络的更新频率低于critic网络的更新频率。这样做是为了避免因critic网络更新不稳定而导致actor网络出现震荡。

[0119] TD3算法中每个训练步长的步骤如下：当通过actor网络θμ′计算出当前状态st下的动作时，同时在动作输出中加入噪声干扰ξ，以此尽可能广泛地探索最优动作(如图5，步骤1)。加入噪声的原因是TD3智能体往倾向于选择概率最高的确定性动作输出，这种倾向可能降低对未知动作的探索意愿，从而使学习过程容易陷入局部最优的困境。

[0120]

[0121] 为了避免噪声导致动作输出产生极端或不合理的动作，需要对噪声进行适当的限制。

[0122]

[0123] 其中，“clip”字符表示剪切操作，指噪音需要限制到一定的范围内，即[‑c,c]。

[0124] 分布式驱动电动汽车执行集成控制策略输出的控制命令并得到下一步状态st+1。随后，将经验(st,at,r,st+1)存放到经验池中(如图5，步骤2)，以便后续使用。紧接着，从经验池中抽取一小部分经验样本(st,at,r,st+1)i，并将这些样本传递给actor网络和critic网络，以便对网络参数进行及时的更新和优化(如图5，步骤3)。

[0125] TD3算法巧妙地运用了两套critic网络( 和 )来分别估计Q值，并且仅选择最小的Q值更新目标策略值。两套网络在初始化时采用不同的初始值，并且在每一步迭代过程中，仅采用最小的Q值进行目标策略的更新，这种机制有助于引导下一步估计的Q值更接近实际值，从而有效地解决TD目标值可能出现的累积误差问题(如图5，步骤4)。

[0126]

[0127] 其中，(·')表示target网络参数。

[0128] 通过最小化损失函数来更新两个critic网络参数(如图5，步骤5和步骤6)。

[0129]

[0130] 对critic网络进行在线参数更新，通过学习因子αQ来实现(如图5，步骤7)。

[0131]

[0132] 随后，通过以下采样策略梯度来更新actor网络参数，以最大化预期的累计折扣奖励。

[0133]

[0134] 其中，表示critic网络输出对actor网络计算的动作的梯度，而 actor网络输出对actor网络参数的梯度(如图5，步骤8和步骤9)。

[0135] 在线actor网络的权重系数也可以通过学习因子αμ进行更新(如图5，步骤10)。

[0136]

[0137] 在线网络的权重系数完成更新后，目标网络的权重系数也可通过类似手段实现软更新。值得强调的是，为确保学习过程的稳定性，软更新因子应维持在一个较小的水平，通常满足特定条件0＜τ＜＜1(如图5，步骤11)。

[0138]

[0139] S4，将步骤S3的附加横摆力矩控制量通过轮胎附着利用率最小化的优化目标函数进行计算，获得各个车轮的当前时刻转矩。

[0140] 由于各轮胎附着利用率之和最小时，车辆的操纵稳定性越好，因此本具体实施例基于轮胎附着利用率最小化的目标来设置优化分配的QP算法，通过优化分配的QP算法对各个车轮的驱动力矩进行合理分配。

[0141] 在得到附加横摆力矩控制量的控制命令之后，可以建立下层的转矩分配控制器，由转矩分配控制器进行转矩分配。下层转矩分配控制器的任务是求解多约束条件下的最优转矩分配，以满足附加横摆力矩控制量ΔMz和纵向需求驱动转矩Ttot的要求。

[0142] 然而，当涉及车辆运动控制时，另一个需要考虑的关键因素是轮胎‑道路摩擦。为了确保最佳的附着力，重要的是每个轮胎的轮胎力都要远离相应摩擦椭圆的边界。为了实现这一点，建立了一个基于最小化轮胎附着力利用率的目标优化函数。

[0143]

[0144] 其中μ为路面附着系数，Fxij、Fyij和Fzij分别是各个车轮所受的纵向力、横向力和垂直载荷。

[0145] 分布式驱动电动汽车的各个车轮的纵向力可以独立控制，但横向力主要由转向系统控制。为了便于计算，优化目标函数简化为

[0146]

[0147] 式(26)中，μ为路面附着系数；Fxij、Fyij和Fzij分别是各个车轮所受的纵向力、横向力和垂直载荷。为了求解转矩分配优化算法，有效的解不仅要满足上广义力和外横摆力矩的要求，还要受到轮毂电机最大输出转矩和道路附着力条件的限制。因此，约束条件为[0148]

[0149] 式(27)中，Fxfl表示前轴左侧车轮受到的纵向力；Fxfr表示前轴左侧车轮受到的纵向力；Fxrl表示后轴左侧车轮受到的纵向力；Fxrr表示后轴右侧车轮受到的纵向力；T是各轮胎轮毂电机驱动转矩，rw为轮胎半径；ΔMz为附加横摆力矩控制量；ds为车辆轴距。同时，优化目标函数需要通过轮胎纵向扭矩来满足目标控制扭矩需求。使用二次规划(QP)来求解各轮毂电机的驱动转矩。

[0150]

[0151] 其中u＝[Tfl Tfr Trl Trr]T是QP控制器的优化向量，表示各轮毂电机的驱动转矩输出。

[0152] 是优化向量的权重矩阵。ζ＝diag{ζ1,ζ2}是权重矩阵，ζ1和ζ2是附加横摆力矩控制量ΔMz和纵向需求驱动转矩Ttot的权重系数，s是附加横摆力矩控制量ΔMz和纵向需求驱动转矩Ttot的期望值，K是增益矩阵，可以表示为：

[0153]

[0154] 这种形式的优化转矩分配问题是一个凸二次规划问题，本具体实施例将使用主动集法求解。

[0155] 综上所述，本实施例提供的电动汽车的执行器集成控制方法，应用在分布式驱动电动汽车轨迹跟踪控制过程当中，通过Stanley方法根据前轴中心距最近路径点的横向误差和航向角误差计算期望前轮转角控制量；同时通过DRL算法根据环境信息，综合考虑轨迹跟踪精度和稳定性性能指标，得到附加横摆力矩控制量；最后基于轮胎附着利用率最小化的优化分配算法对附加横摆力矩控制量进行计算，得到各个车轮的当前时刻转矩。从而使分布式驱动电动汽车在轨迹跟踪过程中具有好的跟踪性能和横向稳定性，通过分层架构的集成控制方法有效提高控制系统的容错能力和鲁棒性。

[0156] 下面对上述集成控制方法进行仿真实验分析：

[0157] 1、实验设置

[0158] 实验平台：本具体实施例利用MATLAB/Simulink仿真建模软件进行仿真，验证了上述集成控制方法的有效性。不使用高保真CarSim模拟建模软件的决定源于实际考虑。具体而言，CarSim的资源密集型性质，加上DRL的迭代学习需求，导致实现最优策略的训练时间成倍延长。因此，选择利用基于真实车辆数据建立的4WID‑AEV的高精度动力学模型。该模型确保了所需的模拟精度，同时避免了与CarSim相关的计算负担，从而实现更高效、更实用的DRL训练过程。

[0159] 训练过程是在AMD Ryzen 95900HX和Radeon Graphics CPU@3.3GHz工作站的帮助下进行的，其中车辆系统和控制策略是通过MATLAB/Simulink建立的。

[0160] 实验车辆参数及工况：实验所用车辆参数信息见表一；一种常用的驾驶循环，即双车道换道(DLC)机动，用作测试循环，其轨迹用X‑Y坐标表示，见公式(30)。

[0161] 表1车辆参数

[0162]

[0163]

[0164] 基准方法：实施了三种基线方法来评估拟议方法的进展情况。第一个基线涉及纯DRL方法，其中AFS和DYC仅通过DRL集成。该DRL方法的目的是推导前轮转向角和外部横摆力矩的控制策略。第二个基线仅使用Stanley方法，不使用DYC控制器，表示为NC。该基线用于研究DYC控制器对系统性能的影响。第三个基线将Stanley方法与MPC算法相结合，用作DYC控制器，并标记为S‑MPC。该基线是专门为与拟议方法进行比较而设计的。

[0165] 2、DRL训练性能

[0166] 为了证明所提出的混合DRL方法的适应性，我们在训练过程中将随机性纳入模拟环境中。在每一集开始时，环境的设置车速被设置为30‑90km/h之间的随机变化值。此外，在每次发作开始时，路面附着系数也被设置为在0.35‑0.85之间随机变化的值。

[0167] 首先，对照纯DRL的基线，对所提出的基于混合DRL的集成控制策略进行了评估。如表2所示，通过使用相同的超参数可以实现公平地比较。训练奖励如图6(a)所示，在学习效率和性能方面，混合DRL方法优于纯DRL基线。通过比较奖励曲线，可以看出混合DRL方法比纯DRL方法获得了更高的奖励值，并且收敛更快。这些结果表明，结合简单的基于规则的轨迹跟踪控制模块提高了DRL的学习效率和控制性能。虽然让DRL代理同时学习前轮转向角和额外的横向横摆力矩会增加问题的复杂性，但需要仔细设计奖励函数才能获得更好的结果。

[0168] 接下来，比较了使用StanleyAFS控制器生成前轮转向角的不同DRL代理的性能，同时使用各种DRL方法作为DYC控制器。具体来说，在DLC条件下实现了DDPG和TD3算法的比较，分别表示为S‑DDPG和S‑TD3。训练结果如图6(b)所示。S‑TD3和S‑DDPG算法的回报曲线表明，与S‑DDPG相比，S‑TD3的训练过程表现出更大的稳定性。这突出了S‑TD3在解决行动者网络中延迟更新问题方面的有效性。尽管S‑TD3可能需要更长的时间才能收敛，但它最终在收敛后实现了更高的平均回报。这些发现表明，TD3中的双评论家网络成功地缓解了对Q值的过高估计，有助于其卓越的性能。

[0169] 表2机构超参数

[0170]

[0171] 总之，与纯DRL方法相比，所提出的混合DRL方法显示出优越的性能，该方法将基于规则的控制与DRL相结合。因此，选择了基于混合DRL的分布式驱动电动汽车集成控制策略。此外，S‑TD3算法的性能优于S‑DDPG算法，是首选算法。因此，将Stanley方法与TD3相结合作为本具体实施例提出的方法。

[0172] 3、测试性能评估

[0173] 对后训练的控制策略进行测试，以评估其在轨迹跟踪、驾驶稳定性、适应性和鲁棒性方面的性能。该评估旨在进一步评估所提出的混合DRL方法的实用性。

[0174] 不同路面附着系数实验测试：在这个测试中，我们对不同条件下的DLC机动进行了模拟。车辆纵向速度的初始值和目标值设置为60km/h，同时将道路附着力系数更改为0.35、0.55和0.85。

[0175] 表3给出了以平均绝对误差(MAE)和积分绝对误差(IAE)为测量指标的横向误差和航向角误差的数值分析结果，并显示了轨迹跟踪的细节，以及所提出的方法(S‑TD3)和没有DYC(NC)的方法在不同条件下的车辆横向稳定性指标的比较。在没有DYC控制的情况下，控制的有效性随着道路附着系数的降低而逐渐降低。然而，在引入基于DRL的DYC控制后，所提出的方法提高了轨迹跟踪控制的精度，尤其是在低附着系数条件下具有更显著的效果。

[0176] 表3多种路面附着系数下不同方法对比

[0177]

[0178] 值得注意的是，在道路附着力系数为0.35的条件下，所提出的方法将横向误差的MAE和IAE分别降低了21.94％和26.8％。同样，对于航向角误差，MAE和IAE分别减少了52.9％和67.8％。在如图8(a)至(g)所示的质心侧偏角‑横摆角速度相平面图的，两种方法都具有相似的车辆横摆角速度大小，但所提出的方法具有较小的质心侧偏角，这证明了其在不同道路附着系数下增强车辆横向稳定性的能力。这一结论在图中也很明显，其中所提出的S‑TD3方法表现出较小的横向加速度。这些结果共同证明了在各种道路附着力系数下训练和评估的所提出方法的鲁棒性。

[0179] 不同车速实验测试：在本试验中，本试验中车辆纵向速度的初始值和目标值分别设定为60、72和90km/h，道路附着力系数为0.85。

[0180] 表4显示横向误差和航向角误差的数值分析结果。此外，表中说明了轨迹跟踪的细节以及S‑TD3和NC方法在不同条件下的车辆偏航稳定性指标方面的比较。在引入DYC控制后，轨迹跟踪过程中的横向误差大致保持不变，而航向角误差显著减小。在车速为60km/h时，与NC方法相比，所提出的方法的IAE和MAE分别降低了48.62％和93.99％。类似地，在72km/h的速度下，与非控制方法相比，所提出的方法将IAE减少了40.62％，将MAE减少了
26.68％。此外，当速度达到90km/h时，与非受控方法相比，所提出的方法证明IAE减少了
21.6％，MAE减少了7.03％。此外，在检查图8(a)至(g)中的质心侧偏角‑横摆角速度相平面和横向加速度时，很明显，随着车辆速度的增加，其在DLC机动过程中的横向稳定性降低。研究发现，S‑TD3方法显著提高了车辆的横向稳定性。

[0181] 表4多种车速下不同方法对比

[0182]

[0183] 在没有预先预测运行条件的情况下，DRL中的训练策略作为一种无模型控制方法，提高了不同道路附着系数和不同速度下的驾驶稳定性和跟踪精度。综上所述，上述实验结果表明，该方法在不同条件下均具有较高的鲁棒性。

[0184] 4、有效性分析

[0185] 为了进一步强调所提出的策略的有效性，在涉及低路面附着系数和高速的场景中，将其控制性能与基于MPC算法的DYC控制进行比较。在该试验中，车辆纵向速度的初始值和目标值均设置为60km/h，道路附着力系数设置为0.35。

[0186] 图9显示了低附着力道路下的模拟结果。图9(a)显示了两种方法的跟踪轨迹，表明该方法和S‑MPC方法都具有较高的跟踪精度，但该方法的跟踪精度较高。图9(b)和(c)显示了控制器对前轮转向角和外部横摆力矩的输出。可以观察到，由于通过DRL学习获得的全局优化能力，所提出的方法在1秒时比S‑MPC方法产生外部横向横摆力矩，并在约2.5秒时表现出较小的梯度。因此，所提出的S‑TD3方法显示出最小的前轮转向角，显示出其优越的控制性能。此外，图9(d)中的β‑偏航相位平面证明了所提出的方法和S‑MPC方法的质心侧偏角区间相似，但所提出的方法显示出相对有较小的车辆横摆角速度，表明所提出方法在转弯过程中具有更高的稳定性。此外，如图9(e)所示，所提出的方法实现了相对较小的横向加速度，进一步证实了其稳定性和控制效果。这些结果表明，与S‑MPC方法相比，所提出的方法具有更高的横向稳定性。

[0187] 图10显示了各轮毂电机转矩分配结果。可以观察到，本具体实施例和S‑MPC方法两种方法在通过下层扭矩分配优化控制器之后，给各轮毂电机都输出了正确的驱动转矩命令。

[0188] 总之，在DRL和MPC之间的实验比较揭示了控制策略的惊人相似性。本具体实施例和S‑MPC方法两种方法都证明了轨迹跟踪性能和稳定性的提高，验证了DRL在四轮驱动车辆DYC中的有效性。值得注意的是，DRL在某些指标上表现出优于MPC的性能。一个关键的亮点是DRL作为一种无模型学习方法的内在本质。这消除了预先获取或预测车辆动态和操作条件的必要性。相反，DRL通过迭代训练不断完善控制策略，使其能够适应不同的条件。相比之下，基于模型的控制方法虽然精通于实现可靠的稳定性控制和精确的轨迹跟踪，但在很大程度上依赖于精确的动力学模型进行预测。我们强调了无模型DRL在分布式驱动电动汽车DYC应用中的独特优势。DRL在不需要预先获取动力学信息的情况下动态适应变化条件的能力使其成为增强分布式驱动电动汽车的一种有前景的方法。

[0189] 5、实车实验

[0190] 在之前的实验中，通过仿真验证了所提出的策略的有效性，该策略属于软件在环测试方法。本具体实施例的方法利用虚拟控制器在虚拟车辆模型中测试所提出的策略的有效性。然而，该方法既不能验证车辆控制器的处理速度，也不能验证CAN总线通信周期对控制策略的实时计算和控制效果的影响。在即将到来的实验中，将对所提出的策略进行实车验证，以验证其在真实世界环境中的有效性。

[0191] 本具体实施例使用的4WID AEV实车测试平台如下图所示。硬件组件包括主机(PC)、实时机和PIX公司的Robobus 4WIDAEVs。实车测试平台中的实时机是Speedgoat公司开发的快速控制原型系统。它配备了赛扬2GHz 4核4GB RAM处理器。在上位机PC机上，利用MATLAB Simulink建立了控制策略，并生成了C++代码。配置完CAN总线后，代码会传输到Speedgoat实时机器中。Speedgoat机器和Robobus中的车辆控制单元(VCU)通过CAN总线进行信息通信，从而能够输入控制命令和反馈相关状态变量。CAN总线的通信周期为10ms。

[0192] 为了验证所提出的策略在实车测试中的有效性，车辆将按照国际标准ISO 388‑1:1991的规范在动态载荷系数(DLC)模式下进行驾驶测试。试验将专门在具有高摩擦系数道路的干燥沥青路面上进行。实际车辆测试的结果如图所示。可以看出，在DLC过程中，所提出的策略会根据车辆状态信息的变化产生相应的外部横摆力矩，从而提高车辆的横向稳定性。同时，在图11(e)中，可以观察到，当存在外部横摆力矩控制输入时，车辆四轮驱动的扭矩分布也会进行调整。结果初步表明，基于DRL的DYC策略的稳定性控制策略可以应用于实际车辆。

[0193] 如图12所示，本具体实施例提供用于电动汽车的轨迹跟踪和横向稳定性集成控制方法的一种电动汽车执行器容错控制装置结构框图，该电动汽车的执行器容错控制装置应用于使用前轮驱动转向的分布式驱动电动汽车中。该电动汽车的执行器集成控制装置，包括：

[0194] 获取模块，用于获取分布式驱动电动汽车的车载传感器信息和参考轨迹；

[0195] 跟踪模块，根据所述车载传感器信息和所述参考轨迹，计算得到当前时刻车辆与参考轨迹之间的横向误差及航向角误差；根据Stanley算法公式通过横向误差及航向角误差计算得到期望前轮转角控制量。

[0196] 计算模块，采用DRL算法通过环境信息得到附加横摆力矩控制量，并根据相应奖励对控制策略进行更新；并基于轮胎附着利用率最小化的优化分配QP算法对附加横摆力矩控制量进行计算，得到各个车轮的当前时刻转矩；

[0197] 具体地，根据车辆自行车模型公式计算得到转向过程中期望质心侧偏角和期望横摆角速度，同时根据所述车载传感器信息和所述参考轨迹，计算得到当前时刻车辆与参考轨迹之间的横向误差，航向角误差，期望质心侧偏角和实际质心侧偏角之差以及期望横摆角速度和实际横摆角速度之差；根据学习到的策略得到期望附加横摆力矩控制量。采用二次规划方法对所述优化目标函数进行求解，得到各个车轮的当前时刻驱动转矩。

[0198] 控制模块，用于根据各个车轮的当前时刻驱动转矩控制分布式驱动电动汽车的轮毂电机输出转矩。

[0199] 综上所述，本发明实施例提供的电动汽车的执行器容错控制装置，在分布式驱动电动汽车轨迹跟踪控制过程当中，通过Stanley方法根据前轴中心距最近路径点的横向误差和航向角误差计算前轮转角控制命令；同时通过DRL算法根据环境信息，综合考虑轨迹跟踪精度和稳定性性能指标，得到附加横摆力矩控制量；最后基于轮胎附着利用率最小化的优化分配算法对附加横摆力矩控制量进行计算，得到各个车轮的当前时刻转矩。从而使分布式驱动电动汽车在轨迹跟踪过程中具有较好的跟踪性能和横向稳定性，通过分层架构的集成控制方法可以有效提高控制系统的容错能力和鲁棒性。

[0200] 本具体实施例提供了一种计算机可读存储介质，所述存储介质中存储有指令，所述指令由处理器加载并执行以实现上述的电动汽车的轨迹跟踪和横向稳定性集成控制方法。

[0201] 一种分布式驱动电动汽车，所述分布式驱动电动汽车包括处理器和存储器，所述存储器中存储有指令，所述指令被处理器加载并执行以实现上述的电动汽车轨迹跟踪和横向稳定性集成控制方法。

查看完整全部详细技术资料

当前第1页第1页第2页第3页