技术领域
[0001] 本申请实施例涉及智能交通技术领域,特别涉及一种基于偏好的拟人化自动驾驶模型设计系统。
相关背景技术
[0002] 随着人工智能和机器学习技术的不断发展,自动驾驶汽车已经成为汽车行业的热点和发展趋势。现有的研究主要针对自动驾驶汽车的控制精度、安全性等问题开展,虽然目前自动驾驶车辆在控制精度和安全性等方面具有较大的进展,但忽略了不同乘客对自动驾驶汽车的个性化舒适性需求。乘客作为车辆的最终用户,其主观感受对于自动驾驶汽车的安全性、舒适性等评价至关重要,成为决定自动驾驶汽车能否被广泛接受的关键因素。个性化驾驶员模型的发展代表了自动驾驶技术领域的一项重要进展。它将使汽车更加智能化、人性化,更好地满足用户的需求,提高驾驶体验的质量,推动自动驾驶汽车的广泛应用。
[0003] 随着机器视觉和激光雷达等感知技术的不断进步,自动驾驶车辆能够更加准确地感知周围环境,包括道路状况、交通流等,为个性化驾驶员模型提供了丰富的信息。鸟瞰图(BEV)感知技术能够实时获取并更新环境数据。这意味着模型可以随着时间的推移不断获取新的数据,以更准确地了解周围环境的变化,为个性化驾驶员模型提供了更多的感知数据和决策支持,使驾驶员模型能够更好地适应不同用户的需求和偏好。
[0004] 目前,现有技术中建立的驾驶员模型都是基于理想条件下的决策,没有与环境建立实时性的交互,驾驶决策时也没有考虑邻近车辆的状态,导致得出的驾驶员模型缺乏泛化性。而且,现有技术中建立的个性化驾驶员模型主要用来评价驾驶员模型的激进程度或者用来生成驾驶员模型的测试场景,在实际应用中的驾驶员模型,对于驾驶员的个性化特征考虑都相对较少。
具体实施方式
[0028] 由背景技术可知,现有的驾驶员模型存在着缺乏泛化性,且对驾驶员的个性化特征考虑相对较少的技术问题。
[0029] 鸟瞰图(BEV)感知技术能够实时获取并更新环境数据。这意味着模型可以随着时间的推移不断获取新的数据,以更准确地了解周围环境的变化,为个性化驾驶员模型提供了更多的感知数据和决策支持,使驾驶员模型能够更好地适应不同用户的需求和偏好。为了实现基于偏好的拟人化驾驶员模型,相关技术采用了不同的技术方案对不同的驾驶员的偏好特征进行提取,一相关技术公开了一种基于模型预测控制的拟人化控制器设计技术,涉及智能交通技术领域,其技术方案要点是设计基于模型预测控制的路径跟踪控制器,采用不同驾驶员个性化的视觉预瞄‑反馈控制‑比例增益‑神经肌肉延迟行为对路径跟踪控制器进行拟人化改进。然而,该技术存在的缺点:该技术主要通过建立基于曲线坐标系的车辆‑道路模型,使得路径跟踪控制器能够为不同的驾驶员提供个性化的操作方式。此技术主要是用来提高驾驶员在驾驶过程中的操纵方式,无法提取驾驶员的偏好特征。
[0030] 还有一相关技术公开了一种基于两点预瞄驾驶员模型的自动驾驶决策技术,通过结合实时车速与全局参考路径的曲率信息动态确定预瞄点位置,实现两点预瞄理论与纯追踪算法的深度融合。基于两点预瞄模型的决策方法将驾驶员的驾驶特征融入自动驾驶技术中,通过分析并模仿人类驾驶员在开车过程中的行为,能够为自动驾驶提供良好的决策依据,有效减少自动驾驶车辆在大曲率弯道处的横向偏移。动态计算近点预瞄结果与远点预瞄结果在最终决策结果中的比例关系。通过动态比例因子计算,可以得到稳定的横向转角决策结果;通过结合预瞄点之间的道路曲率变化情况与期望车速,输出纵向速度决策结果,降低智能车辆在大曲率弯道处的偏移误差。然而,该技术存在的缺点:该技术主要解决智能车辆在大曲率弯道处的偏移误差,驾驶员模型没有融入人类驾驶员的驾驶特征。
[0031] 还有一相关技术公开了一种基于标准化驾驶行为和相空间重构的驾驶风格定量评价技术,通过该技术消除行车环境的影响,提出通过基于个性化驾驶员模型进行标准工况测试以实现驾驶行为的标准化,然后定量评价不同的驾驶风格,对标准化驾驶行为进行相空间重构,提出一种基于关联维数的驾驶风格指数,用于定量评估驾驶激进程度。然而,该技术存在的缺点:该技术通过消除行车环境的影响,然后定量评价不同的驾驶风格,对标准化驾驶行为进行相空间重构,提出一种基于关联维数的驾驶风格指数,用于定量评估驾驶激进程度。该技术主要用来评价驾驶员模型,无法得出基于偏好的驾驶员模型。
[0032] 还有一相关技术公开了一种基于个性化驾驶员模型的自动驾驶测试场景生成技术,包括:基于遗传与进化思想、结合强化学习,模拟人类驾驶员在驾驶经历中的各个阶段,逐级训练得到不同成长阶段的驾驶员模型,包括新手驾驶员模型、经验驾驶员模型和熟练驾驶员模型;基于不同成长阶段的驾驶员模型,根据人类驾驶员的不同个性化驾驶特性,进一步训练得到个性化驾驶员模型,包括激进型驾驶员模型、保守型驾驶员模型、挑衅型驾驶员模型和合作型驾驶员模型;根据测试需求,将不同成长阶段的驾驶员模型和不同的个性化驾驶员模型按对应的需求比例,组合生成相应的目标测试场景。然而,该技术存在的缺点:该技术基于遗传与进化思想和强化学习结合,在强化学习训练过程中模拟不同驾驶经历的驾驶员模型,再根据不同驾驶经历时期的人类驾驶员的不同个性化驾驶特征,进一步训练得到个性化驾驶员模型。此技术,要用来生成一个基于个性化的驾驶员模型测试场景,没有与环境进行一个很好的交互,得到的个性化驾驶员模型也没有考虑到乘客的舒适性问题。
[0033] 为了解决上述技术问题,本申请实施例提供了一种基于偏好的拟人化自动驾驶模型设计系统,包括:依次连接的鸟瞰图感知模块、深度强化学习模块以及模型训练模块;其中,鸟瞰图感知模块包括鸟瞰图转化单元,以自动驾驶车辆信息作为鸟瞰图感知模块的输入,通过鸟瞰图转化单元将自动驾驶车辆信息转化为鸟瞰图,并得到自动驾驶车辆周围的环境状态信息;其中,自动驾驶车辆信息通过采集模块获取;深度强化学习模块包括映射单元,以鸟瞰图作为深度强化学习模块的输入,通过映射单元将鸟瞰图的特征映射到底层的连续动作,生成驾驶员模型;模型训练模块包括动作偏好设置模块、训练模块以及动作选择器;动作偏好设置模块通过设定不同的动作偏好来表示不同驾驶员的驾驶风格;训练模块根据不同的驾驶风格,对驾驶员模型进行训练,生成多个备选动作;动作选择器通过选择与设定的动作偏好接近的备选动作作为最终动作,得到基于偏好的拟人化驾驶员模型。
[0034] 本申请旨在通过鸟瞰图(BEV)感知技术和偏好强化学习,学习人类驾驶员的不同个性驾驶特征,生成基于偏好的拟人化驾驶员模型,包括激进型驾驶员模型、保守型驾驶员模型、普通型驾驶员模型。不同驾驶风格的乘客可以选择合适的驾驶员模型,有效提高自动驾驶车辆的驾乘风格接受度和乘坐舒适度。
[0035] 下面将结合附图对本申请的各实施例进行详细的阐述。然而,本领域的普通技术人员可以理解,在本申请各实施例中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施例的种种变化和修改,也可以实现本申请所要求保护的技术方案。
[0036] 参看图1,本申请实施例提供了一种基于偏好的拟人化自动驾驶模型设计系统,包括:依次连接的鸟瞰图感知模块、深度强化学习模块以及模型训练模块;其中,鸟瞰图感知模块包括鸟瞰图转化单元,以自动驾驶车辆信息作为鸟瞰图感知模块的输入,通过鸟瞰图转化单元将自动驾驶车辆信息转化为鸟瞰图,并得到自动驾驶车辆周围的环境状态信息;其中,自动驾驶车辆信息通过采集模块获取;深度强化学习模块包括映射单元,以鸟瞰图作为深度强化学习模块的输入,通过映射单元将鸟瞰图的特征映射到底层的连续动作,生成驾驶员模型;模型训练模块包括动作偏好设置模块、训练模块以及动作选择器;动作偏好设置模块通过设定不同的动作偏好来表示不同驾驶员的驾驶风格;训练模块根据不同的驾驶风格,对驾驶员模型进行训练,生成多个备选动作;动作选择器通过选择与设定的动作偏好接近的备选动作作为最终动作,得到基于偏好的拟人化驾驶员模型。
[0037] 本申请主要提出一种基于偏好的拟人化自动驾驶模型设计系统,解决现有的自动驾驶技术偏向于同质化,无法向乘车人员提供不同偏好驾驶风格的技术问题。本申请旨在通过鸟瞰图(BEV)感知技术和偏好强化学习,根据人类驾驶员的不同个性驾驶特征,训练得到基于偏好的拟人化驾驶员模型,包括激进型驾驶员模型、保守型驾驶员模型、普通型驾驶员模型。不同驾驶风格的乘客可以选择合适的驾驶员模型,有效提高乘坐人员的接受度和乘坐舒适度以及驾驶员模型的泛化性。
[0038] 本申请提供的基于偏好的拟人化自动驾驶模型设计系统框图主要如图2所示,系统以相机、雷达等传感器数据作为输入,通过现有的BEV(鸟瞰图)感知技术,将传感器数据转化为鸟瞰图;再利用鸟瞰图作为深度强化学习输入,把鸟瞰图特征映射到底层的连续动作,生成驾驶员模型。在动作选择过程中,加入保持车道、变道、超车等条件,使驾驶员模型更具泛化能力,能够适应不同车流环境。为实现基于人类驾驶员的不同驾驶风格,设定不同的动作偏好来代表不同驾驶员风格,包括:激进型动作、保守型动作、普通型动作,在驾驶员模型训练中的动作选择阶段,生成多个备选动作,通过与设定的动作进行对比,最终生成的动作,与设定的动作偏好相似,最终得到基于偏好的拟人化驾驶员模型。
[0039] 本发明的技术方案主要内容分为三部分,第一部分主要通过现有的鸟瞰图(BEV)感知技术,把相机、雷达等传感器输入,转化成鸟瞰图,并得到车辆周围的环境的状态信息,包括:前后车的距离和车速、相邻车道的车辆距离和速度等,并通过车速和距离计算车辆的加速度,用来判定是否具有超车条件。
[0040] 第二部分主要通过强化学习将鸟瞰图(BEV)图像映射到连续的底层动作(油门、刹车、转向角),生成多条轨迹,通过轨迹选择机制,决定是否执行保持车道、超车、变道等动作。
[0041] 第三部分设定不同的动作偏好来代表不同驾驶员风格,包括:激进型动作、保守型动作、普通型动作。在驾驶员模型训练中的动作选择部分,跟设定好的动作进行对比,使其训练出来的模型选择的动作跟设定的动作更加接近,最终得到基于偏好的驾驶员模型。
[0042] 在一些实施例中,采集模块包括多个传感器;传感器包括多个相机和雷达;自动驾驶车辆信息包括相机图像和雷达图像。
[0043] 在一些实施例中,鸟瞰图感知模块还包括BEV特征生成模块和特征融合模块;BEV特征生成模块包括相机端的BEV特征生成模块和雷达端的BEV特征生成模块;相机端的BEV特征生成模块用于采用鸟瞰图感知方法,并基于相机图像生成BEV特征,得到相机端的BEV特征;雷达端的BEV特征生成模块用于采用3D卷积从所述雷达图像中提取BEV特征,得到雷达端的BEV特征;特征融合模块用于将所述相机端的BEV特征与所述雷达端的BEV特征进行融合,得到鸟瞰图。
[0044] 在一些实施例中,环境状态信息包括:前后车的距离和车速、相邻车道的车辆距离和速度以及判定是否具有超车条件的状态信息;其中,是否具有超车条件通过车辆的加速度来判定;所述车辆的加速度通过车速和距离计算获取。
[0045] 在一些实施例中,深度强化学习模块包括映射连接模块和输出模块;映射连接模块用于采用基于偏好选择的深度强化学习方法,将所述鸟瞰图和自动驾驶车辆底层控制映射连接;输出模块用于以所述鸟瞰图作为卷积神经网络的输入,采用卷积神经网络对所述鸟瞰图进行特征提取,经过全连接层,最终输出底层的连续动作,生成驾驶员模型。
[0046] 在一些实施例中,动作偏好包括:激进型动作、普通型动作和保守型动作;驾驶风格包括:激进型风格、普通型风格和保守型风格;动作偏好与所述驾驶风格一一对应。
[0047] 在一些实施例中,模型训练模块还包括:与所述训练模块相连接的驾驶风格分类模块;驾驶风格分类模块用于根据驾驶的碰撞风险对驾驶风格进行分类,得到不同驾驶员的驾驶风格,并将不同的驾驶风格输出至所述训练模块。
[0048] 具体的,设定三种动作偏好来表示三种驾驶风格;所述三种驾驶风格分别为:激进型风格、普通型风格和保守型风格;根据驾驶的碰撞风险对驾驶风格进行分类,得到不同驾驶员的驾驶风格;基于不同的驾驶风格,对所述驾驶员模型进行训练,生成多个备选动作。
[0049] 在一些实施例中,碰撞风险的表达式为:
[0050]
[0051] 其中,F为碰撞风险,v为目标车辆速度,V为减速目标速度,Δv为目标车辆与前车的速度差,d为安全最小距离,t为驾驶员响应时间,D为目标车辆与前车的距离;当F=1时,驾驶员风格为普通型;当F<1时,驾驶员风格为保守型;当F>1时,驾驶员风格为激进型。
[0052] 在一些实施例中,动作选择器用于执行拟人化操作,所述拟人化操作包括:保持车道、变道和超车动作;其中,在动作选择时,根据当前车道碰撞风险公式进行动作选择。
[0053] 在一些实施例中,深度强化学习模块还包括:车辆轨迹选择模块;所述车辆轨迹选择模块用于在将所述鸟瞰图映射到底层的连续动作时,同时生成多条轨迹,基于相邻车道的碰撞风险,选择车辆轨迹;车辆轨迹包括:保持车道、变道以及优先选择变换的车道;相邻车道的碰撞风险的表达式为:
[0054]
[0055] 其中,Fp为碰撞风险,v为目标车辆速度,V为减速目标速度,Δv为目标车辆与前车的速度差,d为安全最小距离,t为驾驶员响应时间,D为目标车辆与前车的距离;Tp为驾驶员换道响应时间,换道响应时间为从驾驶员反应换道到换道完成的时间。
[0056] 需要说明的是,本申请提供了一种基于偏好的拟人化自动驾驶模型设计系统架构,系统架构中各模块中所用的方法均可以采用现有的方法实现其模块功能。
[0057] 本申请的技术方案,可以应用于通过基于偏好的拟人化自动驾驶模型设计方法,该方法的具体实现流程如图3所示,主要分为六个步骤:
[0058] 步骤1:在自动驾驶车辆周围,布置多个传感器,如相机、雷达等,用来实时采集自动驾驶车辆周围状态,将采集数据作为系统数据输入。
[0059] 步骤2:通过现有的BEV(鸟瞰图)感知技术,将来自不同传感的数据融合到一个鸟瞰图中表示。例如:现有的BEVFusion技术(多传感器融合技术),可以通过LSS(Lift,Splat,Shoot)、BEVformer视觉感知算法,将相机图像生成BEV特征;雷达端使用3D卷积提取BEV特征,与相机端采用通道注意力方法融合起来,得到最终的鸟瞰图。
[0060] 步骤3:通过使用深度强化学习(如:SAC(柔性动作‑评价)、PPO(近端策略优化))将鸟瞰图和自动驾驶车辆底层控制映射连接,输入为鸟瞰图,输出为转向角∈[‑1,1]、油门∈[0,1]、刹车∈[0,1];使用卷积神经网络对鸟瞰图进行特征提取,经过全连接层,最终输出连续动作。
[0061] 步骤4:驾驶员风格主要分为三种,激进型、普通型、保守型;根据驾驶的碰撞风险公式进行驾驶员风格分类。
[0062] 步骤5:车辆在生成轨迹时,会同时生成多条轨迹,基于邻道碰撞风险的公式,通过计算相邻车道的碰撞风险大小来决定是否变道,变换成那条车道。
[0063] 如图4所示,当P1,P2轨迹的碰撞风险都小于1时,优先选择P3轨迹。
[0064] 步骤6:不同驾驶员的驾驶风格,需要分别训练;在设计动作选择器是,根据当前车道碰撞风险公式进行选择。例如,需要训练激进型驾驶员风格,则把动作通过碰撞风险进行比较,都选择碰撞风险F>1的动作。
[0065] 与现有技术相比,本申请的优势在于:本申请提出一种基于偏好的拟人化驾驶员模型训练框架,采用分层思想将多传感的高维输入映射到底层的低维连续动作,第一层:使用现有的BEV感知技术将多传感数据融合得到鸟瞰图,将高维信息降低;第二层:使用深度强化学习将其映射到低维的连续动作。本申请通过使用分层思想,可以把多传感器高维数据通过融合方法降低,再与低维的连续动作进行映射对应。本申请提出一种基于偏好的拟人化驾驶员模型训练框架,有利于提高模型训练速度,并更容易收敛并提高模型的泛化能力。本申请还提出一组用于描述驾驶员风格的偏好动作,使模型在训练过程中,使模型在训练过程中有参考,训练出来的模型更加拟人化,更加趋向于不同驾驶员的驾驶风格。此外,本申请还设定一个动作选择器,用来执行拟人化操作,包括:保持车道、变道、超车等动作,通过动作选择器来评判模型选择动作,使得选择的动作更加合理。此外,本申请已通过高速场景的拟人化驾驶等实验,部分验证了该系统的可行性。
[0066] 由以上技术方案,本申请实施例提供一种基于偏好的拟人化自动驾驶模型设计系统,包括:依次连接的鸟瞰图感知模块、深度强化学习模块以及模型训练模块;其中,鸟瞰图感知模块包括鸟瞰图转化单元,以自动驾驶车辆信息作为鸟瞰图感知模块的输入,通过鸟瞰图转化单元将自动驾驶车辆信息转化为鸟瞰图,并得到自动驾驶车辆周围的环境状态信息;其中,自动驾驶车辆信息通过采集模块获取;深度强化学习模块包括映射单元,以鸟瞰图作为深度强化学习模块的输入,通过映射单元将鸟瞰图的特征映射到底层的连续动作,生成驾驶员模型;模型训练模块包括动作偏好设置模块、训练模块以及动作选择器;动作偏好设置模块通过设定不同的动作偏好来表示不同驾驶员的驾驶风格;训练模块根据不同的驾驶风格,对驾驶员模型进行训练,生成多个备选动作;动作选择器通过选择与设定的动作偏好接近的备选动作作为最终动作,得到基于偏好的拟人化驾驶员模型。。
[0067] 本申请实施例主要解决现有的自动驾驶模型偏向于同质化,无法提供不同偏好驾驶风格的技术问题。本申请提出基于偏好的拟人化驾驶员模型训练框架,使用分层思想,可以把多传感器高维数据通过融合方法降低,再与低维的连续动作进行映射对应,有利于提高模型训练速度,并更容易收敛并提高模型的泛化能力。本申请还提出一组用于描述驾驶员风格的偏好动作,使模型在训练过程中有参考,训练出来的模型更加拟人化,更加趋向于不同驾驶员的驾驶风格。设计一个动作选择器,用来评判模型选择动作,使得选择的动作更加合理。本申请旨在通过鸟瞰图(BEV)感知技术和偏好强化学习,学习人类驾驶员的不同个性驾驶特征,生成基于偏好的拟人化驾驶员模型,包括激进型驾驶员模型、保守型驾驶员模型、普通型驾驶员模型。不同驾驶风格的乘客可以选择合适的驾驶员模型,有效提高自动驾驶车辆的驾乘风格接受度和乘坐舒适度。
[0068] 本领域的普通技术人员可以理解,上述各实施方式是实现本申请的具体实施例,而在实际应用中,可以在形式上和细节上对其作各种改变,而不偏离本申请的精神和范围。任何本领域技术人员,在不脱离本申请的精神和范围内,均可作各自更动与修改,因此本申请的保护范围应当以权利要求限定的范围为准。