技术领域
[0001] 本发明涉及智能船舶自主航行技术领域,具体而言,尤其涉及一种混合航行环境下的船舶交互避让决策方法。
相关背景技术
[0002] 近年来,智能船舶技术研发强国均在实际海域的特定会遇场景下进行实船测试,未来很长一段时间内海上将处于不同自主程度的海上自主水面船舶与传统有人驾驶船舶混合航行的状态。目前国内外对于船舶避碰问题研究大多忽略了周围船舶的影响,其主要是将周围的船舶视为恒速恒向的障碍,并未考虑周围船舶的意图变化,没有涉及自主船舶与周围船舶之间的交互,因此不适用于混行环境下的船舶避碰问题。
[0003] 船舶避碰过程本质是在一个竞争与合作并存的利益冲突过程中寻求自身或集体利益最大化的过程,博弈论是研究在利益冲突格局下理性决策者的策略行为相互作用的理论,因此运用博弈理论研究混行环境下智能船舶与有人驾驶船舶间的安全交互避碰具有重要意义。
[0004] 本发明针对混行环境下的船舶避碰问题,考虑周围其他船舶的航行状态,分析船舶之间的合作与竞争机理,构建马尔科夫博弈过程让整个避碰过程中船舶均能够实时地与他船进行决策交互,实现混行场景下多船的安全避让。
具体实施方式
[0054] 为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
[0055] 需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0056] 本发明提供了一种混合航行环境下的船舶交互避让决策方法,包括如下步骤:
[0057] S1、定义混合航行环境下的船舶驾驶员操船风格,获取会遇态势参数;
[0058] 混合航行场景下的船舶避碰决策机理在本发明中被划分为三个阶段,包括:会遇场景下的船舶进行信息共享和避碰风险计算的碰撞风险感知阶段;依据避碰规则进行合理避让的避让决策阶段;依据避让决策进行避碰操纵的决策执行阶段。同时为充分考虑混合航行环境下有人驾驶船舶的驾驶员个体差异,依据驾驶员对最小安全会遇距离的不同认知将其操船风格划分为激进型、正常型、保守型三类驾驶风格,其激进型最小安全会遇距离阈值为1海里,正常型最小安全会遇距离阈值为1.5海里,保守型最小安全会遇距离阈值为2海里。会遇态势参数包括所述驾驶员操船风格类型、船舶航向、航速、方位以及船舶与船舶间的DCPA、TCPA、相对距离、相对方位等信息。
[0059] S2、依据会遇态势参数将船舶避碰决策阶段过程建模为阶段博弈交互模型;
[0060] 船舶交互避碰过程在本发明中被看作是在一个竞争与合作并存的利益冲突过程中通过博弈寻求利益最大化的过程。博弈参与者为不同智能程度的船舶;策略集合为船舶避让行动集,依据航海实践其为船舶可选转向幅度;博弈收益为参与者依据合法性、安全性、经济性等评判指标所采取的不同避让策略所得的不同收益值;Nash均衡状态为所有参与者所采取的能取得驾驶收益最大时的最优策略组合。
[0061] 所述博弈交互模型表示为{N,A,U,A*},N为博弈参与者、A为策略集合、U为博弈收*益、A 为纳什均衡状态,其中,博弈参与者为不同智能程度的船舶;策略集合为船舶避让行动集;博弈收益为参与者依据评判指标所采取的不同避让策略所得的不同收益值;纳什均衡状态为所有参与者所采取的能取得驾驶收益最大时的最优策略组合。
[0062] 基于博弈论对船舶交互避让行为进行表述与建模,还包括:合法性收益:
[0063]
[0064]
[0065] 其中,Ai∈A'i为合乎避碰规则, 为船舶i与船舶j在阶段博弈t时的合法性收益, 为船舶i在阶段博弈t时刻中的合法性收益均值;
[0066] 安全性收益为:
[0067]
[0068] 其中, 为船舶i与船舶j的最近安全会遇距离,qi为船舶i的驾驶风格,d(qi)为船舶i的心理安全预期。
[0069] 经济性收益为:
[0070]
[0071] 其中,Δψ为决策航向改变量。
[0072] 驾驶收益为:
[0073]
[0074] 其中,ρ为权重系数,ρ1+ρ2+ρ3=1。
[0075] S3、制定船舶避让序惯行动优先级表,求解阶段博弈交互模型的纳什收益均衡策略;
[0076] 根据不同会遇局面以及参与者的自身属性制定避让行动顺序,具体为:
[0077]
[0078] 将博弈过程表示为为G={N,M,U},N代表博弈的局中人;M代表局中人进行避碰博弈时,交互式行动集合,U代表局中人采取相应行动的收益。
[0079] 阶段博弈交互纳什收益均衡策略求解过程为:
[0080] p(A)=(EA)‑1eA(ai,t)∈[0,1]
[0081] p(B)=(EB)‑1eB(bj,t)∈[0,1]
[0082] 式中,E为未来船舶行动总收益,e为船舶采取避碰行动的收益,a为船舶基础行动集,在阶段博弈中,两船采取p(A)、p(B)最大值所对应的策略(a*,b*)即为阶段博弈的纳什均衡。
[0083] S4、依据纳什收益均衡策略将船舶交互避碰过程建模为马尔科夫博弈模型;
[0084] 基于马尔科夫博弈过程将船舶交互避碰过程表示为:
[0085] {n,S,A1,...,An,T,γ,R1,...,Rn}
[0086] 其中,n表示参与船舶的数量;S是船舶的状态集;Ai是第i个船舶的行动集合;T是状态转移概率,表示当前状态采取联合行动(a1,...an)时下一个状态的概率分布;γ为折扣因子,γ∈[0,1];Ri是第i个船舶的收益;
[0087] 定义纳什Q值为所有船舶在下一阶段保持均衡策略时获得的期望折扣回报的综合。定义 船舶i的纳什Q函数,并在所有船舶都遵循纳什均衡策略时,在(s,a1,...an)上定义船i的纳什Q函数为船i当前的避碰回报加上其未来回报的总和,即:
[0088]
[0089] 其中,p(s′∣s,a1,…,an)表示在状态s下船舶采取联合避碰行动(a1,...an)后转移到状态s′的概率, 为船舶联合纳什均衡策略,ri(s,a1,…,an)表示船舶i在状态s和联合避碰行动(a1,...an)下的阶段回报, 表示当所有船舶都遵循均衡避碰策略时船舶i从状态s′开始的无限次阶段博弈的折扣回报总和。
[0090] 由于Q表只适用于目前的时刻,因此根据下式更新Q值:
[0091]
[0092] 其中:
[0093] S5、将会遇态势参数输入至马尔科夫博弈模型进行Nash‑Q学习,得到各船的最优避让动作。
[0094] 船舶可以采取的避碰动作离散为相应转向角度,分别用A1,...,An来表示船舶1,2,...n可能采取的避碰行动集合。在船舶避碰过程中的每个阶段t,船舶i根据本船和他船在上一避碰阶段t‑1的避碰行动来决定当前阶段的避碰行动。在阶段t,船舶会遇状态处于
1 n
s,船舶1,2,...n采取的均衡避碰策略用(π (s)...π (s))表示。如果将船舶1,2,…n在阶段t的避碰行动分别用a1,…an表示,那么在会遇状态s下,船舶i的期望收益可以用表示。之后运用Nash‑Q学习算法以船舶避碰行动序列,船舶避碰行动集,船舶收益函数作为输入,以经过数次阶段博弈后得到的船舶最优均衡避碰策略作为输出得到最终的均衡避碰策略序列,船舶最优均衡避碰策略即为船舶最优避让动作。
[0095] 如图1为一种混合航行环境下的船舶交互避让决策方法流程图,将本发明分为5个步骤:一是量化混合航行下的船舶避碰机理和驾驶员操船风格;二是基于博弈论对船舶交互避让行为进行表述与建模;三是制定避碰序惯行动,求解博弈纳什均衡;四是基于多智能体强化学习构建和船舶交互避让表达范式;五是基于Nash‑Q学习求解各船的最优避让动作。
[0096] 如图2为本发明驾驶员风险认知不同对避碰决策影响几何图解;具体的,在相同的会遇局面下,不同驾驶员对于碰撞危险的认知不同,所采取的避碰行动也会不一样。三名驾驶员有着相同的安全会遇距离认知,即都想距离他船2n mile安全驶过,但他们对于碰撞风险有着不同的认知,从而导致采取避让行动的时机不一致。船1驾驶员在A点感知到碰撞风险,需要采取幅度为a的转向角度便可实现2n mile的安全会遇;船2在B点感知到碰撞风险,需要采取幅度为b的转向角度即可实现2n mile的安全会遇;船3在C点感知到碰撞风险,需要采取幅度为c的转向角度才可实现2n mile的安全会遇。由此可见,船舶驾驶员对于碰撞风险感知的不同会导致避让幅度的差异。为充分考虑混合航行环境下有人驾驶船舶的驾驶员个体差异,依据驾驶员对避碰风险的不同认知将其操船风格划分为激进型、正常型、保守型三类驾驶风格,其划分依据是对最小安全会遇距离的不同认知,阈值为:1海里、1.5海里、2海里。
[0097] 如图3为船舶交互博弈避碰示意图,人类驾驶员能够评估当前的碰撞危险,预测其他船舶对自身行动的反应,从而在避碰规则的约束下采取当前的最优策略;其他船舶能够通过雷达、AIS等设备观察到先行动船舶驾驶员的行动,例如航速变化及航向变化,以及航速和航向变化的程度,在此基础上做出对自身最有利的决策。无论是先行动船舶还是后行动船舶,驾驶风格不同会造成博弈交互结果的不同,例如保守型的A船舶与激进型的B船舶博弈交互的结果可能会是A船舶在遵守规则的前提下以较大的转向角实现与船B以更大的距离安全会遇,船舶B则直航以实现更大的经济性收益。举例说:船A是保守型的船舶,在船舶A的行动集中可以选择行动1、行动2和行动3,船A作为让路船首先要采取避碰行动,在考虑到船舶B会对自身行动做出相应动作,所以船A会评估相应收益,采取对自己最有益的行动,船舶B后采取行动,可以从其行动集中选择行动一、行动二和行动三对船舶A所采取的行动做出反应,可以用图3中的动态博弈树来描述这个过程。博弈树的末端是两船每个行动序列对应的收益,上、下分别是船A、船B在此行动序列下得到的收益。所有船舶驾驶员均是理性的,因此所有船舶均以收益最大为目标进行行动。当船舶A选择行动1时,船舶B会选择行动二来应对,此时两船的收益为(0.41,0.75),当船舶A选择行动2时,船舶B会选择行动一来应对,此时两船的收益为(0.35,0.45),当船舶A选择行动3时,船舶B会选择行动二来应对,此时两船的收益为(0.74,0.75)。最先行动的船舶A能够理性地预测到后行动的船舶B对自己所做出的行动的反应,所以先行动的船舶A会选择行动3来作为此时的最优行动策略,此时选择行动3的收益均大于行动1和行动2。综上所述,(行动3,行动二)是两船在此轮博弈交互中的最优行动组合,是一种均衡的结果。
[0098] 如图4为多智能体强化学习框架图,具体的说:在多智能体博弈中,每个智能体的行动都会影响其他智能体的奖励,这种相互依赖关系使得问题更加复杂,因为每个智能体都需要考虑其他智能体的行动对自己的影响。Nash‑Q学习算法通过维护每个智能体的Q值函数来解决这个问题。每个智能体的Q值函数都是一个关于自己行动和其他智能体行动的函数。在每个时间步骤,每个智能体使用其Q值函数来选择其下一步行动,并根据其选择获得奖励。智能体的Q值函数会根据其自己的行动和其他智能体的行动进行更新,以反映新的奖励和环境状态。在实际的交通环境中,同一场景下的船舶均是智能体,他们都有着自己的决策过程和利益想法。船舶的避碰决策过程不仅受到环境的影响,而且受到其他船舶行为的影响。本发明将他船与本船的交互行行为考虑进马尔可夫决策过程。
[0099] 如图5为Nash‑Q学习算法流程图,算法以船舶避碰行动序列,船舶避碰行动集,船舶收益函数作为输入,以经过数次阶段博弈后得到的船舶最优均衡避碰策略作为输出。首先,设定船舶会遇的初始状态,即t=0时船舶会遇状态为s0,并初始化船舶i的期望收益接下来,在船舶会遇的每个阶段t,船舶1,2,…n从A1,…,An中随机选择避碰行动,各船根据选择的避碰行动a1,…an,可以得到下一阶段的状态s′,船舶1,2,…n可以依据船舶交互避碰决策收益函数分别计算自己获得的即时回报。同时,根据船舶i在下一状态s′的收益函数1 n
可以计算出该阶段船舶所采取避碰行动的纳什均衡,得到的策略记为(π(s')...π(s')),并计算对应的收益 已知各船的即时回报,均衡策略和对应的收益,通过公式(4.11)更新其Q值和均衡避碰策略,其中0≤γ<1是折扣因子,其值越接近0,即时回报占总收益的权重越大,相反,其值越接近于1,越看重未来回报。在接下来的会遇阶段t+1,t+
2,...,不断重复上述避碰行动变化和学习过程,直到各船的收益函数收敛,得到最终的均衡避碰策略序列。
[0100] 最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。