首页 / 一种基于偏好的拟人化自动驾驶模型设计系统

一种基于偏好的拟人化自动驾驶模型设计系统有效专利 实用

具体技术细节

[0005] 本申请实施例提供一种基于偏好的拟人化自动驾驶模型设计系统,解决现有的自动驾驶模型偏向于同质化,无法提供不同偏好驾驶风格的技术问题。
[0006] 为解决上述技术问题,本申请实施例提供一种基于偏好的拟人化自动驾驶模型设计系统,包括:依次连接的鸟瞰图感知模块、深度强化学习模块以及模型训练模块;其中,鸟瞰图感知模块包括鸟瞰图转化单元,以自动驾驶车辆信息作为鸟瞰图感知模块的输入,通过鸟瞰图转化单元将自动驾驶车辆信息转化为鸟瞰图,并得到自动驾驶车辆周围的环境状态信息;其中,自动驾驶车辆信息通过采集模块获取;深度强化学习模块包括映射单元,以鸟瞰图作为深度强化学习模块的输入,通过映射单元将鸟瞰图的特征映射到底层的连续动作,生成驾驶员模型;模型训练模块包括动作偏好设置模块、训练模块以及动作选择器;动作偏好设置模块通过设定不同的动作偏好来表示不同驾驶员的驾驶风格;训练模块根据不同的驾驶风格,对驾驶员模型进行训练,生成多个备选动作;动作选择器通过选择与设定的动作偏好接近的备选动作作为最终动作,得到基于偏好的拟人化驾驶员模型。
[0007] 在一些示例性实施例中,采集模块包括多个传感器;传感器包括多个相机和雷达;自动驾驶车辆信息包括相机图像和雷达图像。
[0008] 在一些示例性实施例中,鸟瞰图感知模块包括BEV特征生成模块和特征融合模块;BEV特征生成模块包括相机端的BEV特征生成模块和雷达端的BEV特征生成模块;相机端的BEV特征生成模块用于采用鸟瞰图感知方法,并基于相机图像生成BEV特征,得到相机端的BEV特征;雷达端的BEV特征生成模块用于采用3D卷积从所述雷达图像中提取BEV特征,得到雷达端的BEV特征;特征融合模块用于将所述相机端的BEV特征与所述雷达端的BEV特征进行融合,得到鸟瞰图。
[0009] 在一些示例性实施例中,环境状态信息包括:前后车的距离和车速、相邻车道的车辆距离和速度以及判定是否具有超车条件的状态信息;其中,是否具有超车条件通过车辆的加速度来判定;所述车辆的加速度通过车速和距离计算获取。
[0010] 在一些示例性实施例中,深度强化学习模块包括映射连接模块和输出模块;映射连接模块用于采用基于偏好选择的深度强化学习方法,将所述鸟瞰图和自动驾驶车辆底层控制映射连接;输出模块用于以所述鸟瞰图作为卷积神经网络的输入,采用卷积神经网络对所述鸟瞰图进行特征提取,经过全连接层,最终输出底层的连续动作,生成驾驶员模型。
[0011] 在一些示例性实施例中,动作偏好包括:激进型动作、普通型动作和保守型动作;驾驶风格包括:激进型风格、普通型风格和保守型风格;动作偏好与所述驾驶风格一一对应。
[0012] 在一些示例性实施例中,模型训练模块还包括:与所述训练模块相连接的驾驶风格分类模块;驾驶风格分类模块用于根据驾驶的碰撞风险对驾驶风格进行分类,得到不同驾驶员的驾驶风格,并将不同的驾驶风格输出至所述训练模块。
[0013] 在一些示例性实施例中,碰撞风险的表达式为:
[0014]
[0015] 其中,F为碰撞风险,v为目标车辆速度,V为减速目标速度,Δv为目标车辆与前车的速度差,d为安全最小距离,t为驾驶员响应时间,D为目标车辆与前车的距离;当F=1时,驾驶员风格为普通型;当F<1时,驾驶员风格为保守型;当F>1时,驾驶员风格为激进型。
[0016] 在一些示例性实施例中,动作选择器用于执行拟人化操作,所述拟人化操作包括:保持车道、变道和超车动作;其中,在动作选择时,根据当前车道碰撞风险公式进行动作选择。
[0017] 在一些示例性实施例中,深度强化学习模块还包括:车辆轨迹选择模块;所述车辆轨迹选择模块用于在将所述鸟瞰图映射到底层的连续动作时,同时生成多条轨迹,基于相邻车道的碰撞风险,选择车辆轨迹;车辆轨迹包括:保持车道、变道以及优先选择变换的车道;相邻车道的碰撞风险的表达式为:
[0018]
[0019] 其中,Fp为碰撞风险,v为目标车辆速度,V为减速目标速度,Δv为目标车辆与前车的速度差,d为安全最小距离,t为驾驶员响应时间,D为目标车辆与前车的距离;Tp为驾驶员换道响应时间,所述换道响应时间为从驾驶员反应换道到换道完成的时间。
[0020] 本申请实施例提供的技术方案至少具有以下优点:
[0021] 本申请实施例提供一种基于偏好的拟人化自动驾驶模型设计系统,包括:依次连接的鸟瞰图感知模块、深度强化学习模块以及模型训练模块;其中,鸟瞰图感知模块包括鸟瞰图转化单元,以自动驾驶车辆信息作为鸟瞰图感知模块的输入,通过鸟瞰图转化单元将自动驾驶车辆信息转化为鸟瞰图,并得到自动驾驶车辆周围的环境状态信息;其中,自动驾驶车辆信息通过采集模块获取;深度强化学习模块包括映射单元,以鸟瞰图作为深度强化学习模块的输入,通过映射单元将鸟瞰图的特征映射到底层的连续动作,生成驾驶员模型;模型训练模块包括动作偏好设置模块、训练模块以及动作选择器;动作偏好设置模块通过设定不同的动作偏好来表示不同驾驶员的驾驶风格;训练模块根据不同的驾驶风格,对驾驶员模型进行训练,生成多个备选动作;动作选择器通过选择与设定的动作偏好接近的备选动作作为最终动作,得到基于偏好的拟人化驾驶员模型。
[0022] 本申请实施例主要解决现有的自动驾驶模型偏向于同质化,无法提供不同偏好驾驶风格的技术问题。本申请提出基于偏好的拟人化驾驶员模型训练框架,使用分层思想,可以把多传感器高维数据通过融合方法降低,再与低维的连续动作进行映射对应,有利于提高模型训练速度,并更容易收敛并提高模型的泛化能力。本申请还提出一组用于描述驾驶员风格的偏好动作,使模型在训练过程中有参考,训练出来的模型更加拟人化,更加趋向于不同驾驶员的驾驶风格。设计一个动作选择器,用来评判模型选择动作,使得选择的动作更加合理。本申请旨在通过鸟瞰图(BEV)感知技术和偏好强化学习,学习人类驾驶员的不同个性驾驶特征,生成基于偏好的拟人化驾驶员模型,包括激进型驾驶员模型、保守型驾驶员模型、普通型驾驶员模型。不同驾驶风格的乘客可以选择合适的驾驶员模型,有效提高自动驾驶车辆的驾乘风格接受度和乘坐舒适度。

法律保护范围

涉及权利要求数量10:其中独权1项,从权-1项

1.一种基于偏好的拟人化自动驾驶模型设计系统,其特征在于,包括:依次连接的鸟瞰图感知模块、深度强化学习模块以及模型训练模块;其中,
所述鸟瞰图感知模块包括鸟瞰图转化单元,以自动驾驶车辆信息作为所述鸟瞰图感知模块的输入,通过所述鸟瞰图转化单元将所述自动驾驶车辆信息转化为鸟瞰图,并得到自动驾驶车辆周围的环境状态信息;其中,所述自动驾驶车辆信息通过采集模块获取;
所述深度强化学习模块包括映射单元,以所述鸟瞰图作为所述深度强化学习模块的输入,通过所述映射单元将所述鸟瞰图的特征映射到底层的连续动作,生成驾驶员模型;
所述模型训练模块包括动作偏好设置模块、训练模块以及动作选择器;
所述动作偏好设置模块通过设定不同的动作偏好来表示不同驾驶员的驾驶风格;
所述训练模块根据不同的驾驶风格,对所述驾驶员模型进行训练,生成多个备选动作;
所述动作选择器通过选择与设定的动作偏好接近的备选动作作为最终动作,得到基于偏好的拟人化驾驶员模型。
2.根据权利要求1所述的基于偏好的拟人化自动驾驶模型设计系统,其特征在于,所述采集模块包括多个传感器;所述传感器包括多个相机和雷达;所述自动驾驶车辆信息包括相机图像和雷达图像。
3.根据权利要求2所述的基于偏好的拟人化自动驾驶模型设计系统,其特征在于,所述鸟瞰图感知模块还包括:BEV特征生成模块和特征融合模块;
所述BEV特征生成模块包括相机端的BEV特征生成模块和雷达端的BEV特征生成模块;
所述相机端的BEV特征生成模块用于采用鸟瞰图感知方法,并基于相机图像生成BEV特征,得到相机端的BEV特征;
所述雷达端的BEV特征生成模块用于采用3D卷积从所述雷达图像中提取BEV特征,得到雷达端的BEV特征;
所述特征融合模块用于将所述相机端的BEV特征与所述雷达端的BEV特征进行融合,得到鸟瞰图。
4.根据权利要求1所述的基于偏好的拟人化自动驾驶模型设计系统,其特征在于,所述环境状态信息,包括:前后车的距离和车速、相邻车道的车辆距离和速度以及判定是否具有超车条件的状态信息;其中,是否具有超车条件通过车辆的加速度来判定;所述车辆的加速度通过车速和距离计算获取。
5.根据权利要求1所述的基于偏好的拟人化自动驾驶模型设计系统,其特征在于,所述深度强化学习模块包括映射连接模块和输出模块;
所述映射连接模块用于采用基于偏好选择的深度强化学习方法,将所述鸟瞰图和自动驾驶车辆底层控制映射连接;
所述输出模块用于以所述鸟瞰图作为卷积神经网络的输入,采用卷积神经网络对所述鸟瞰图进行特征提取,经过全连接层,最终输出底层的连续动作,生成驾驶员模型。
6.根据权利要求1所述的基于偏好的拟人化自动驾驶模型设计系统,其特征在于,所述动作偏好包括:激进型动作、普通型动作和保守型动作;
所述驾驶风格包括:激进型风格、普通型风格和保守型风格;
所述动作偏好与所述驾驶风格一一对应。
7.根据权利要求1所述的基于偏好的拟人化自动驾驶模型设计系统,其特征在于,所述模型训练模块还包括:与所述训练模块相连接的驾驶风格分类模块;
所述驾驶风格分类模块用于根据驾驶的碰撞风险对驾驶风格进行分类,得到不同驾驶员的驾驶风格,并将不同的驾驶风格输出至所述训练模块。
8.根据权利要求7所述的基于偏好的拟人化自动驾驶模型设计系统,其特征在于,所述碰撞风险的表达式为:
其中,F为碰撞风险,v为目标车辆速度,V为减速目标速度,Δv为目标车辆与前车的速度差,d为安全最小距离,t为驾驶员响应时间,D为目标车辆与前车的距离;
当F=1时,驾驶员风格为普通型;
当F<1时,驾驶员风格为保守型;
当F>1时,驾驶员风格为激进型。
9.根据权利要求1所述的基于偏好的拟人化自动驾驶模型设计系统,其特征在于,所述动作选择器用于执行拟人化操作,所述拟人化操作包括:保持车道、变道和超车动作;其中,在动作选择时,根据当前车道碰撞风险公式进行动作选择。
10.根据权利要求1所述的基于偏好的拟人化自动驾驶模型设计系统,其特征在于,所述深度强化学习模块还包括:车辆轨迹选择模块;所述车辆轨迹选择模块用于在将所述鸟瞰图映射到底层的连续动作时,同时生成多条轨迹,基于相邻车道的碰撞风险,选择车辆轨迹;
所述车辆轨迹包括:保持车道、变道以及优先选择变换的车道;
所述相邻车道的碰撞风险的表达式为:
其中,Fp为碰撞风险,v为目标车辆速度,V为减速目标速度,Δv为目标车辆与前车的速度差,d为安全最小距离,t为驾驶员响应时间,D为目标车辆与前车的距离;Tp为驾驶员换道响应时间,所述换道响应时间为从驾驶员反应换道到换道完成的时间。

当前第2页 第1页 第2页 第3页