技术领域
[0001] 本发明涉及智能船舶自主航行技术领域,具体地,涉及一种高可靠性船舶自主避碰模型的构建方法。
相关背景技术
[0002] 近年来,面向自主航行的智能船舶相关技术蓬勃发展,自主避碰作为自主航行过程的核心需求,是保障智能船舶海上安全航行的关键技术。各类自主避碰算法和模型被相继提出,成果十分丰富。但海上交通场景复杂多变,导致自主避碰模型在面对不确定环境时存在自适应能力差、搜索能力不足的问题。同时,模型难以量化国际海上避碰规则、海员通常做法以及良好船艺,使得生成的自主避碰模型缺乏领域知识约束,不符合专业避碰过程。
[0003] 此外,船舶自主避碰决策生成是一个典型的马尔科夫决策过程,使得深度强化学习算法与自主避碰技术高度契合,但深度强化学习黑盒特性降低了避碰决策的可解释性,使得系统难以维持较高的可信度。因此,如何在不确定的海上环境下,合理量化避碰规则,并在模型决策过程引入符合领域知识的解释,实现高可靠、恒稳定、易理解的船舶自主避碰是当前需要解决的一大技术问题。
具体实施方式
[0025] 下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
[0026] 具体地,图1为本发明实施例提供的高可靠性船舶自主避碰模型的构建方法流程框图,图2为本发明实施例提供的高可靠性船舶自主避碰模型的构建方法详细流程图,如图1和图2所示,所述方法包括以下步骤:
[0027] S1:构建船舶自主避碰决策模型,训练船舶自主提供避碰决策;
[0028] 针对复杂环境下多船会遇的自主避碰决策问题,采用Actor‑Critic优化算法构建自主避碰决策模型,该模型首先需要根据复杂海上交通环境为船舶自主避碰提供决策,利用专家经验指导模型训练,使得模型在面向无人驾驶和传统有人驾驶船舶共存的海上场景下依然保持良好的可靠性。
[0029] 具体实现过程如下:
[0030] 采用Actor‑Critic优化算法构建自主避碰决策模型,其中Actor策略生成网络根据状态感知生成船舶操纵避碰策略,Critic价值评价网络根据状态感知和决策向量对每个决策进行评价,监督Actor策略生成网络,二者同时训练以获取更有效的船舶自主避碰决策。
[0031] 为使生成的船舶自主避碰决策更适配海上航行环境,利用海上大规模人类自然驾驶数据(海量交通流数据)作为先验知识融合模型训练,通过在Actor策略生成网络目标函数中加入可解释的正则约束,利用专家经验指导模型训练,提高模型决策学习效率及可靠性。
[0032] S2:采用正则化贝叶斯深度神经网络对模型输入与不确定性进行评估,根据评估后的置信度高低,决定是否提示人工操纵参与决策,并输出自主避碰策略;
[0033] 由于自然驾驶环境相比强化学习环境具有不确定性、不可重复性和不可预测性等特征,针对步骤S1中船舶自主提供的避碰决策,采用正则化贝叶斯深度神经网络,利用贝叶斯定理对模型与输入的不确定性进行评估,根据评估后的置信度,提示人工操纵参与决策,最终输出自主避碰策略。
[0034] 具体实现过程如下:
[0035] 针对模型与决策不确定性问题,利用贝叶斯定理对模型输入和不确定性进行建模,采用Dropout变分推断法捕获模型不确定性,采用最大后验估计法捕获输入不确定性,获取Actor策略生成和Critic价值评价网络模型输出的不确定度,建立正则化贝叶斯深度学习网络,对生成策略的置信度进行评估和优化。
[0036] 根据模型不确定度评估结果,在Actor策略生成和Critic价值评价函数更新时加入“不确定项”,对网络模型进行正则优化,即求解:其中PD是经
验池采样数据集,Q函数的集合,而Unc就是Q集合的不确定值,在不确定值大的时候策略趋于保守。
[0037] 同时,根据决策置信度评估结果,融入人类监督,当决策置信度低于一定的可信阈值时,提示人工操作参与决策,保证后续推理过程的可靠性。
[0038] S3:基于提出的自主避碰策略,构建船舶自主避碰自我博弈奖励机制,根据采取的策略与对应的奖励进行自我博弈,通过自我博弈生成船舶自主避碰模型。
[0039] 具体地,基于提出的自主避碰策略,采用规则量化解析模型与逆强化学习算法,设计船舶自主避碰自我博弈奖励机制,根据采取的策略与对应的奖励进行自我博弈,直至船舶能在复杂环境下实现自主避碰,由此构建增强可靠性的具有可解释性的船舶自主避碰模型。
[0040] 具体实现过程如下:
[0041] 基于船舶运动物理模型,利用OpenAI Gym平台搭建船舶自主避碰强化学习环境。
[0042] 船舶自主避碰自我博弈奖励机制构建主要包括以下两个部分:
[0043] 1、基于模糊理论结合会遇局面辨识模型和碰撞危险度评估模型,根据国际海上避碰规则与海员通常做法构建规则量化解析模型。
[0044] 2、利用海上大规模人类自然驾驶数据的专家样本,采用逆强化学习算法推理专家样本(成功避碰的案例)隐含的回报函数,用于不断优化和验证自主避碰模型中的奖励机制。
[0045] 船舶自主避碰模型在构建的自主避碰强化学习环境中,根据采取的策略与对应的奖励进行自我博弈,直至船舶能在复杂环境实现自主避碰,由此构建增强可靠性的具有可解释性的船舶自主避碰模型。
[0046] 以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。