技术领域
[0001] 本发明属于网络交通控制技术领域,具体涉及一种可实时补全缺失观测的强适应性路网级交通信号控制方法。
相关背景技术
[0002] 网络交通信号控制(NTSC)作为能够最直接地改善区域整体交通状况的技术,在全球范围内得到了迅速发展。深度强化学习(DRL)因其处理复杂环境下协作控制任务的突出性能,近几年被广泛应用于NTSC领域。在典型的DRL方法中,路网中的每个交叉口都被视为一个智能体,通过与交通环境的交互来学习最优策略,智能体之间以一定的模式合作地来完成NTSC任务,目标是显著提高全局交通效率。
[0003] 由于在现实环境中训练成本高昂,通常在交通仿真软件创建的虚拟环境中训练DRL智能体,然后将其部署到现实世界路网中执行信号控制任务。尽管DRL方法已被证明比传统方法更有效,但目前在现实世界中它们并没有得到广泛的落地应用。一方面是因为难以适应动态变化的交通状况,大多数DRL方法由于算法性能限制,难以在交通状况复杂多变的训练场景中收敛至理想的控制效果,因此通常在单一交通流模式下进行训练,这可能导致控制器面临过拟合问题,在显著的交通流变化下不能表现出良好的适应性。另一方面,难以预料的环境干扰,尤其是由于交通传感器故障导致的智能体观测缺失,对DRL方法的可靠性造成严重隐患,可能导致严重的交通混乱甚至系统性崩溃。
[0004] 因此,利用创新的、高效的算法机制促进DRL智能体在复杂训练环境中学习到丰富控制策略并收敛至理想性能,并配置实时观测补全功能,减少环境不确定干扰,对推动DRL方法从仿真走向现实,实现精准、自适应的交通信号控制具有重大的意义。
具体实施方式
[0031] 下面结合附图对本发明一种可实时补全缺失观测的强适应性路网级交通信号控制方法作进一步说明。
[0032] 本实施例针对浙江省杭州市滨江区某4×4道路网络进行交通信号控制,该实施例包括16个设有信号灯的路口。根据该路网结构,设计一套密集、时变的交通流,将其构建为SUMO车流文件,用于仿真训练及测试。该方法涉及到的操作参数和变量如表1,表2所示:
[0033] 表1(某路网交通信号控制器操作参数表):
[0034]
[0035]
[0036] 表2(某路网交通信号控制变量表):
[0037]变量名 变量单位
仿真时间 s
智能体观测缺失率 %
车辆速度 m/s
车辆延误时间 s
停车次数 freq
拥堵指数
车辆排队长度 veh
[0038] 如图1和图2所示,一种可实时补全缺失观测的强适应性路网级交通信号控制方法,具体实施步骤如下:
[0039] (1)在OpenStreetMap平台获取本实施例路网文件,将原始路网文件转化为SUMO路网文件,包括道路结构数据、信号灯数据及车道探测器数据等,作为后续训练及测试的路网场景。
[0040] (2)根据步骤1所得路网结构,为本实施例设计一套密集、时变的交通流,模拟现实世界中随机、复杂的交通状况构建一个具有挑战性的交通场景,如图3所示,在3600秒的仿真过程中,0‑3200秒是交通流输入阶段,在此阶段我们设置了四种不同的交通流条件,且分布明显不同,旨在测试DRL算法的鲁棒性和最优性。
[0041] (3)仿真训练阶段,基于步骤2中构建的训练环境,在SUMO交通模拟器中进行DRL信号控制器训练。基于DRL的信号控制建模为一个马尔科夫决策过程(MDP),分别对智能体的观测、动作和奖励作出科学、有效的定义。
[0042] 在每一时间步t,MAT编码器以一系列智能体的观测 为输入,计算智能体i在时间步t观测得到的路口状态为: (ln为智能体i
所在路口的进口车道总数, 分别为进口车道l在时间步t由车道级交通传感器t
测量得到的车辆队列长度、平均车速和道路占用率),并将o编码为一系列潜在表示,然后将其传递给解码器,生成每个智能体的最优动作,并由各智能体执行。即基于路口的可选信号相位设计对应智能体的动作;基于阻抗指数设计奖励函数,确保算法向改善综合交通指标的方向收敛。智能体i在执行动作后(时间步t)获得的即时奖励计算如下:
其中σ用于衡量车速对奖励的影响程度;记录仿真过程中每个时间
步一系列智能体的观测、动作、奖励等信息,用于在每个回合结束后更新一次神经网络参数,分别采用Bellman损失函数和PPO‑Clip损失函数来训练编码器与解码器。如:在仿真环境中训练200个回合,每个回合时长为3600s,控制间隔为5s。
[0043] (4)构建实时观测补全模块。
[0044] 首先,根据步骤1所得路网结构,构建一个车道级交通传感器组成的无向图G=(V,E),节点集V中每一个节点代表路网中的一个车道级交通传感器,由车道之间的邻接关系确n×n定邻接矩阵A∈{0,1} ,并计算其扩散矩阵 (D为A的对角矩阵),n为V中的节点数(即路网中的车道级交通传感器数量),E为表示节点之间关联的边所组成的集合,D为A的对角矩阵。
[0045] 然后,基于FP算法构建实时观测补全模块,在每一个时间步t, 保持不变,通过一t n×d系列传感器的实时测量确定路网全局状态x∈R ,d为特征维度(即传感器测量的交通指t
标数),以x和 为输入快速、准确地迭代补全,重构存在缺失观测的全局状态,输出补全后的完整全局状态 并将输出结果 转换成一系列智能体各自对应路口的完整观测。FP模块在应用阶段与DRL模块组合使用。
[0046] (5)应用阶段时,结合按步骤3训练好的MAT控制器和按步骤4构建的实时观测补全模块FP,形成图2所示的FP‑MAT联合框架,将其投入对应路网执行信号控制任务。t
[0047] 在每一个控制时间步t,实时观测补全模块以路网全局状态x 和扩散矩阵 作为输入,判断是否存在观测缺失并完成补全,然后将其输出分配到每一个路口智能体(信号控制器)作为输入,据此实时输出当前状态下最优的信号相位选择。每隔一定的控制间隔,控制器计算出当前最优相位并判断是否执行。通过设置最大信号相位时长Gmax以及最小信号相位时长Gmin,避免可能由于控制器频繁切换信号相位造成的交通混乱。该交通信号控制方法的评价指标为控制过程中整个路网的平均车速、平均车辆行驶时间、平均路口停车次数或其它可收集并计算得到的交通性能指标。
[0048] 为了显示FP‑MAT在高传感器故障率(即高观测缺失率)下的承受能力,以整个过程中车辆延误的变化为评价指标进行测试。本实施例中,分别在0,0.2,0.3,0.4,0.5的缺失率下进行测试,在每个缺失率下测试10个回合。在每个回合中,随机选择一定数量的传感器并掩盖其测量数据来模拟传感器故障的交通环境。图4为性能测试结果图,图中实线表示所有测试回合的平均值,而阴影部分表示标准差。该结果表明即使在密集、时变交通流和严重观测缺失的极端情况下,该方法也能够保持稳定、理想的交通效率,显示出优异的鲁棒性和有效性,证明它在实际NTSC任务中的应用潜力。
[0049] 综上可知,本方法主要包括获取路网结构及构建交通流,计算扩散矩阵,仿真环境训练DRL模块,构建实时观测补全模块,形成最终框架,现实场景应用等环节。如图4所示为本发明实施例中控制器在不同观测缺失率下的性能测试结果图,测试结果显示,该发明在密集、时变交通流和严重观测缺失的极端情况下能够取得稳定且优异的表现,证明其适应性、可靠性和高效性,显示出应用潜力和价值。
[0050] 本方法基于目标路网的结构数据以及人为构造的密集、时变的交通流训练数据,在仿真环境中对目标路网进行深度强化学习训练,经过充分训练使控制器模型学习到丰富的、最优的控制策略,保证该控制器模型在任何交通状况下都展示出良好的适应性且做出有效的决策,最终部署到相应的现实路网场景中,结合实时观测补全模块,确保所有路口信号智能体接收完整且准确的路口观测,并自适应地完成动态交通环境下的信号控制任务。
[0051] 最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。