技术领域
[0001] 本发明涉及自动驾驶控制技术领域,具体为一种基于博弈论的超车决策方法。
相关背景技术
[0002] 随着近些年来科学技术的进步,自动/自主/智能/无人驾驶系统正成为汽车行业的重要发展方向之一;此种驾驶系统通过先进的人工智能、视觉计算、雷达、监控装置和全球定位系统等的协同作用,可以实现无人工主动干预下的自动驾驶。然而,实际的驾驶环境中存在着多种不同的驾驶行为,自动驾驶系统需要具备应对各种驾驶行为的能力,才能够实现安全高效的驾驶效果。其中,超车行为就是常见的驾驶行为之一,由于这种行为具备一定的事故风险,所以需要自动驾驶系统具备良好的超车决策方法。
[0003] 对于执行超车决策,现有技术中通常采用的是由图像到决策的深度学习端到端决策方法;例如公开号为CN115359683A的中国专利,提供了一种基于深度学习的车辆轨迹检测方法,可以在车辆超车时通过深度学习技术预先分析超车条件。但是,这种基于深度学习的超车决策方法需要依赖大量数据的长期训练,所以需要很高的算力成本,因此进行大规模推广使用的经济负担较重;另外,深度学习技术中还存在着不可解释性这一缺点,会使得对决策方法的改进受到较大限制,可能会影响决策的稳定性。
[0004] 综上所述,本发明提出一种基于博弈论的超车决策方法。
具体实施方式
[0057] 为清楚说明本发明中的方案,下面结合附图做进一步说明:
[0058] 实施例1
[0059] 请参照图1,本实施例提供一种基于博弈论的超车决策方法,包括如下步骤:
[0060] 步骤S1:建立超车决策方法使用的行驶场景。其中,
[0061] 行驶场景中设置有如图3所示的三辆车,分别为记为A的决策主车、记为B的主车车道前方障碍车和记为C的目标车道后方车;决策主车为自动驾驶车辆,主车车道前方障碍车和目标车道后方车均为环境车辆;决策主车可接入所设计的超车决策方法的算法,并且决策主车上设置有车载传感器。
[0062] 本实施例中,决策主车在超车时按照“左换道——跟随——右换道”的逻辑动作,也就是说:决策主车先从主车车道向左换道至目标车道后方车所在的目标车道,此时决策主车的横向位置位于主车车道前方障碍车和目标车道后方车之间;随后决策主车在目标车道继续驾驶一段时间,待决策主车的横向位置超过主车车道前方障碍车一定距离后,再向右换道至回到主车车道,至此完成超车动作。
[0063] 步骤S2:基于博弈论理论建立超车决策模型。其中,
[0064] 请参照图2(图中自车即为决策主车、前车即为主车车道前方障碍车、后车即为目标车道后方车),步骤S2包括如下子步骤:
[0065] 步骤S2‑1:获取周围车辆信息。具体地,
[0066] 利用决策主车上的车载传感器来获取周围车辆信息,所获取的周围车辆信息作为博弈收益函数的输入,根据动态的信息可实时更新收益函数并进行博弈。
[0067] 该周围车辆信息包括SB,C、SA,B、LB、LC、vA、vB、vC,其中SB,C代表主车车道前方障碍车与目标车道后方车之间的距离,SA,B代表决策主车与主车车道前方障碍车之间的距离,LB代表主车车道前方障碍车的车身长度,LC代表目标车道后方车的车身长度,vA、vB、vC分别为决策主车、主车车道前方障碍车、目标车道后方车的速度。
[0068] 步骤S2‑2:作出初步决策。具体地,
[0069] 设计安全阈值模型和速度不满意度累计模型共同作为决策主车是否进行超车行为的初步判据,根据此初步判据来作出初步决策,若初步决策结果为不满足初步判据的要求,则无需进行后续博弈。
[0070] 安全阈值模型为:
[0071]
[0072] 其中,DA.B代表决策主车与主车车道前方障碍车之间的安全距离,vrel=vA‑vB代表决策主车与主车车道前方障碍车之间的相对车速;
[0073] 速度不满意度累计模型为:
[0074]
[0075] 其中,Dt代表速度不满意度累计,vA(k)代表k时刻的决策主车的速度,vB(k)代表k时刻的主车车道前方障碍车的速度,Ts代表采样周期,,vA(k‑1)代表k‑1时刻的决策主车的速度,n代表经历的周期个数。
[0076] 步骤S2‑3:设置收益函数。具体地,
[0077] 将收益函数写成收益矩阵的方式以便于进行博弈,基于决策主车与目标车道后方车的收益函数组合来确定用于博弈的收益矩阵。收益函数具体如下:
[0078] 决策主车超车时的效率收益函数为 决策主车不超车时的效率收益函数为0;
[0079] 目标车道后方车不避让时的效率收益函数为 目标车道后方车避让时的效率收益函数为0;其中,LA代表决策主车的车身长度;
[0080] 决策主车超车时的安全收益函数为 决策主车不超车时的安全收益函数为0;其中,SA,C代表决策主车与目标车道后方车之间的距离;
[0081] 目标车道后方车不避让时的安全收益函数为 目标车道后方车避让时的安全收益函数为0。
[0082] 本实施例中所采用的示例策略以及相对应的收益函数请参照表1,具体为:决策主车(即A车)采用的策略为{超车(a1),跟驰(a2)},目标车道后方车(即C车)采用的策略为{不避让(c1),避让(c2)};则,UA(a2,c1)=0+0、
UA(a2,c2)=0+0、UC(a2,c2)=0+0。
[0083] 表1:用于博弈的收益矩阵表
[0084]
[0085] 步骤S2‑4:根据车辆行驶场景确定博弈方式。具体地,
[0086] 使用车载传感器获取周围车信息的方式对应到博弈方式;如表2所示,在人机混驾环境中,决策主车只能估计目标车道后方车(即C车)的策略和收益,感知信息存在时间上的先后,且两车无法通信,因此本决策方法中采用的博弈方式为不完全信息非合作动态博弈,求解目的为完美贝叶斯纳什均衡。
[0087] 表2:博弈类型对应表
[0088]
[0089] 根据所确定的博弈方式,需要确定虚拟自然来分配概率,虚拟自然具体为为驾驶激进度,驾驶激进度描述为:
[0090] q=sigmod.(vC(k)‑vC(k‑1)),
[0091] 其中,sigmod描述为
[0092] 完美贝叶斯纳什均衡的求解过程如下:
[0093] 第一步:使用贝叶斯法则更新驾驶激进度q:
[0094]
[0095] 其中,S(ai,bi)代表两辆车的策略组合,P代表概率;q包括(q)and(1‑q),其概率值用自身值代替,即q<0.5,P(q)=q;q>=0.5,P(q)=1‑q。
[0096] 第二步:基于当前驾驶激进度改选择分支类型,将不完全信息动态博弈拆分成两个完全信息动态博弈;本实施例中,请参照图7所示的博弈类型转换图,当q<0.5时选择左侧分支进行博弈,反之选择右侧分支进行博弈。
[0097] 第三步:求解完美贝叶斯纳什均衡(PBE),在严格占优策略组合中选择收益最大的策略,其中PBE=max{S(a1,b1),S(a1,b2),S(a2,b1),S(a2,b2)}。
[0098] 步骤S2‑5:建立车辆轨迹预测模型。具体地,
[0099] 车辆轨迹预测模型采用由HighD数据集训练出的深度学习模型;并且,由于传统的长短期记忆递归神经网络(LSTM)对特征提取能力欠佳,所以本实施例中使用改进的卷积‑全连接长短期记忆递归神经网络(CNN‑Linear‑LSTM)来实现使用历史2s轨迹预测未来3s轨迹的效果。
[0100] CNN‑Linear‑LSTM模型输入为x,y,vx,vy,ax,ay, 分别为历史2s的车辆位置横坐标、车辆位置纵坐标、车辆横向速度、车辆纵向速度、车辆横向加速度车辆纵向加速度、车辆纵向速度与车辆横向速度的比值(通过该比值可加强特征差异化);将x,y,vx,vy输入CNN层可得到特征向量1,将ax,ay, 输入Linear层可得到特征向量2,将特征向量1和2拼接,输入LSTM,便可输出为未来3s的x,y。
[0101] 步骤S2‑6:进行区域风险度验证。具体地,
[0102] 根据车辆姿态建立影响区域来进行区域风险度验证。车辆姿态建立影响区域使用椭圆方程 确立,将该公式按照如下方式对应到车辆参数:以车辆的几何中心作为车身坐标系原点,
其中La,Lb分别为车辆的长度和宽度,ax,ay分别为车辆
的横向加速度和纵向加速度,
[0103] 验证时,先求得当前时刻决策主车自身匀速行驶连续影响区域和主车车道前方障碍车未来3s轨迹连续影响区域之间的重合面积,再计算该重合面积与决策主车自身风险区域之间的比值,具体公式为:
[0104]
[0105] 其中,Sr为风险区域重合面积、SA为决策主车风险区域面积、SB为主车车道前方障碍车风险区域面积;本实施例中限定若P>0.5,则结束右换道过程。
[0106] 步骤S2‑7:确定博弈开始条件,作出超车决策。具体地,
[0107] 博弈开始条件为:
[0108]
[0109] 其中,DA,C代表决策主车与目标车道后方车之间的安全距离,vrel1=vA‑vC代表决策主车与目标车道后方车之间的相对车速。
[0110] 步骤S3:测试所建立的超车决策模型。其中,
[0111] 本实施例中通过模拟软件对超车决策模型进行测试:首先,在模拟软件中设置车辆的行驶场景,使决策主车与主车车道前方障碍车之间的纵向距离为150m、与目标车道后方车之间的纵向距离为100m,三辆车之间的相对横向位置如图2所示;然后,将超车决策模型接入决策主车,将主车车道前方障碍车和目标车道后方车设置为自动驾驶车辆;随后开始测试,会输出如图4‑图6所示(图中的主车即为决策主车、前车即为主车车道前方障碍车、博弈车即为目标车道后方车)的结果。综合来说,根据图4‑图6可知:决策主车(即A车)的速度一直大于主车车道前方障碍车(即B车)的速度,当初步决策结果为大于速度不满意度阈值和超车安全阈值,产生超车意愿;决策主车与目标车道后方车(即C车)之间的距离触发博弈开始条件,所以需要进行博弈以实现安全超车;在8s时刻上决策主车与目标车道后方车满足安全换道距离的前提下,决策主车驶入目标车道;当决策主车超越主车车道前方障碍车一定距离(由实时的两车速度和距离差决定)时,决策主车返回原车道(即主车车道),至此完成超车决策。
[0112] 综上所述,本实施例所提供的基于博弈论的超车决策方法,通过设定合理的收益函数可以实现稳定的决策策略,并且输出的决策能够根据交通参与者的信息进行实时调整,另外还可以充分考虑到超车过程中多辆车之间的交互作用,以此实现车辆之间的动态博弈并解释竞争与合作的规则。
[0113] 需要特别说明的是,上述方案中未详细或展开描述的部分均为现有技术,不属于本发明针对现有技术所做的改进,亦不属于本发明技术方案的保护范围,因此本文中不再进行赘述。
[0114] 当然,上述内容仅为本发明的较佳实施例,不能被认为用于限定对本发明的实施例范围。本发明也并不仅限于上述举例,本技术领域的普通技术人员在本发明的实质范围内所做出的均等变化与改进等,均应归属于本发明的专利涵盖范围内。