一种混合车流环境下双层生态城市车路协同控制方法与系统

一种混合车流环境下双层生态城市车路协同控制方法与系统实质审查发明

技术领域

[0001] 本发明涉及交通数据处理技术领域，特别涉及一种混合车流环境下双层生态城市车路协同控制方法与系统。

具体实施方式

[0022] 下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号为相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。

[0023] 参照下面的描述和附图，将清楚本发明的实施例的这些和其他方面。在这些描述和附图中，具体公开了本发明的实施例中的一些特定实施方式，来为实施本发明的实施例的原理的一些方式，但是应当理解，本发明的实施例的范围不受此限制。

[0024] 请参阅图1，本发明实施例提出混合车流环境下双层生态城市车路协同控制方法，该方法包括如下步骤：步骤1、将每个交叉口的信号灯视为一个智能体，智能体通过车与基础设施通信获取车辆的实时行驶信息。

[0025] 步骤2、智能体根据所获取的车辆的实时行驶信息，以识别车辆与车辆之间的车头间距，并根据车头间距将不同车辆划分为不同的车队，以计算得到车队内的车辆数与行驶速度。

[0026] 请参阅图2，在步骤2中，根据车头间距将不同车辆划分为不同的车队，以计算得到车队内的车辆数与行驶速度具体包括如下子步骤：智能体计算识别区内的车头间距，根据计算结果对车辆在车队的归属进行判断以得到判断结果；
其中，计算识别区内的车头间距对应过程存在的关系式为：
；
其中，表示当前道路上自动化车辆的存在比率，表示最大车头间距, 表示
车头间距。

[0027] 需要说明的是，如果两个相邻网联自动驾驶汽车之间的车头间距小于或等于，则这两个网联自动驾驶汽车被视为属于同一个车队；否则，它们属于不同的车队；混合车队识别完成后，通过设置跟车模型来合理控制车队内部的人工驾驶车辆。

[0028] 判断结果通过智能体设置的智能驾驶员模型，以模拟人类驾驶员的驾驶行为；基于智能驾驶员模型，结合判断结果以得到车队内的车辆数与行驶速度；
在基于智能驾驶员模型，结合判断结果以得到车队内的车辆数与行驶速度的步骤中，智能驾驶员模型模的定义式如下：
；
其中，表示车辆在时间的加速度，表示车辆的最大加速度，表示车
辆的期望速度；表示在时间时刻车辆的速度；表示车辆与前车之间的期望车头间距，表示实际车头间距；表示最小车头间距；表示安全时间间隔；
表示车辆与前车之间的速度差异，表示与舒适度相关的可接受减速度，表示车辆的速度。

[0029] 步骤3、将得到车队内的车辆数与行驶速度输入至多层感知机中，以获得预测车队到达交叉口停止线所需要的时间。

[0030] 在步骤3中，将得到车队内的车辆数与行驶速度输入至多层感知机中，以获得预测车队到达交叉口停止线所需要的时间，具体包括如下子步骤：获取车队在预设时间的速度、位置与车队规模，并输入全连接层中进行特征组合，以得到组合的特征向量；
其中，对应过程存在的关系式为：
；
其中，表示特征向量，表示车队在时间的速度，表示车队在时间的
位置，表示车队在时间的车队规模。

[0031] 将组合的特征向量输入LSTM层，以预测车队到达交叉口停止线所需要的时间。

[0032] 进一步的，智能体通过与车道内的车队进行通信，获取车队在预设时刻的速度、位置与车队规模。将得到的信息输入到全连接层组合为一个特征向量。然后，将所有隐藏单元组合并输入到LSTM层。在LSTM中包含三个门单元分别是：输入门、遗忘门与输出门。单元接收输入数据、前一时间步的输出数据与前一时间步的状态数据，通过获取之前的预测时间、预测状态和当前的车队数据，将它们作为输入，输入到输入门单元中。遗忘门根据前一步的到达时间预测效果决定了前一时间步的记忆单元中有多少信息会被保留到当前时间步。输出门决定了当前时间步的隐藏状态的值。最终通过隐藏状态输出给智能体得到的准确的车队到达时间。在智能体决策过程最开始加入了车队到达时间预测模块，智能体可以得到比普通观测更精确的状态数据，为智能体决策提供了更稳定和符合当前路网环境的车路协同控制能力。

[0033] 步骤4、将预测车队到达交叉口停止线所需要的时间输入智能体的策略网络，策略网络生成车队中各个车辆的状态，并通过智能体获取由车队的加速度变化与信号相位变化，并对车队的加速度变化与信号相位变化进行处理以生成执行动作；价值网络根据策略网络生成的执行动作以生成延迟反馈奖励，并利用正负反馈对策略网络进行策略更新以得到更新后的策略网络。

[0034] 在所述步骤4中，将预测车队到达交叉口停止线所需要的时间输入智能体的策略网络，策略网络生成车队中各个车辆的状态，并通过智能体获取由车队的加速度变化与信号相位变化，并对车队的加速度变化与信号相位变化进行处理以生成执行动作；价值网络根据策略网络生成的执行动作以生成延迟反馈奖励具体包括如下子步骤：将预测结果输入智能体的策略网络中以获得网联自动驾驶汽车的状态、人工驾驶汽车的状态、领航网联自动驾驶汽车的状态，以及交通信号灯的交通信号相位和持续时间；
通过获得的网联自动驾驶汽车的状态、人工驾驶汽车的状态、领航网联自动驾驶汽车的状态，以及交通信号灯的交通信号相位和持续时间以获取车队的加速度变化与信号灯的信号相位变化，并利用车队的加速度变化与信号灯的信号相位变化以生成网联自动驾驶汽车的动作、人工驾驶汽车的动作、领航网联自动驾驶汽车的动作以及交通信号灯的变化，以整体组成动作选择；
价值网络执行动作选择，并生成延迟反馈奖励，当车队通过路口后，智能体获得延迟反馈奖励。

[0035] 在将预测结果输入智能体的策略网络中以获得网联自动驾驶汽车的状态、人工驾驶汽车的状态、领航网联自动驾驶汽车的状态，以及交通信号灯的交通信号相位和持续时间的步骤中，过程中对应存在的关系式如下：；
其中，表示、、和的状态信息，表示网联自动驾驶汽车状态，
表示人工驾驶汽车的状态，表示领航网联自动驾驶汽车的状态，表示交通信号灯的交通信号相位和持续时间，表示网联自动驾驶汽车在时间时刻到下游交叉口停止线之间的距离，表示网联自动驾驶汽车在时间时刻的速度，表示第辆车在时间时刻的速度，表示车队在时间时刻中第辆车到停止线的距离，表示当前时间时刻的热编码，表示当前交叉口时间时刻相位的剩余时间。

[0036] 在通过网联自动驾驶汽车的状态、人工驾驶汽车的状态、领航网联自动驾驶汽车的状态，以及交通信号灯的交通信号相位和持续时间，以获取车队的加速度变化与信号灯的信号相位变化，并利用车队的加速度变化与信号灯的信号相位变化以生成网联自动驾驶汽车的动作、人工驾驶汽车的动作、领航网联自动驾驶汽车的动作以及交通信号灯的变化，以整体组成动作选择的步骤中，车队的加速度变化计算，对应过程存在的关系式为：；
；
其中，代表车辆的最大减速, 代表车辆的最大加速，表示速度变化
的动作，表示原始加速度，表示时间时刻由计算的加速度。

[0037] 需要说明的是，通过这种方式，可以将网联自动驾驶汽车状态的加速度动作空间稳定在安全范围内。

[0038] 在价值网络执行动作选择，并生成延迟反馈奖励，当车队通过路口后，智能体获得延迟反馈奖励的步骤中，延迟反馈奖励的计算，对应过程存在的关系式为：；
其中，表示延迟反馈奖励，表示通过路口的车辆总数，表示车辆的总燃油消耗，与均表示权重参数，表示训练阶段的结束，表示车辆的旅行延误。

[0039] 在价值网络执行动作选择，并生成延迟反馈奖励，当车队通过路口后，智能体获得延迟反馈奖励的步骤中，车辆的旅行延误的计算，通过如下关系式计算：；
其中，表示车队最后一辆车到达时间，表示车队长网联自动驾驶汽车的到达时间，表示路口的长度，表示车辆的最大速度。

[0040] 需要说明的是，只有当时间等于某个特定的时间时，才会计算出与燃油消耗和延误相关的值；在其他时间点，奖励函数的结果为零。

[0041] 进一步的，车道上所有的混合车队以及单个车辆都应该被视作状态的一部分，同时，需要考虑车队与其他车辆的安全距离，并预测前方的交通状况。为了降低车队在行驶过程中的频繁加减速，智能体还需要获取邻近交叉口交通信号的信息。

[0042] 各个智能体充当中央处理单元，通过收集可观测和预测的状态信息进行处理并选择动作，动作由车队的加速度的变化与信号相位的变化组成。

[0043] 强行的加速和减速作为动作容易造成交通事故，这在训练中经常发生。此外，随着速度的增加，车辆还容易超速，将速度变化的动作进行修改。

[0044] 请参阅图6，信号相位变化的动作空间有四种，分别对应图4所示：东西向左转（第一相位, ）、东西向直行（第二相位, ）、南北向左转（第三相位, ）和南北向直行（第四相位, ）。由于右转可以不受交通信号灯控制自由通行，右转信号相位在本实施例中一直为绿灯。热编码由“0”和“1”组成，分别表示信号为“红灯”和“绿灯”。

[0045] 例如，在时间，动作，代表着第一相位，被智能体编码为，在这种情况下，对应每个车道的交通信号序列可以表示为“101100101100”，在交叉口处，有12个进口车道。该序列“110100110100”可以分割为3个字符一组的子序列。前三个字符“110”表示东方向的直行右转为绿灯，左转为红灯。“100”表示北方向的右转为绿灯，其余为红灯，具体如下表1所示：表1：信号交叉口动作、相位与热编码之间的关系
；
优化目标包含等待时间、行驶速度、污染排放和旅行延误，会在奖励函数中得到反馈。然而，旅行延误只能在车辆通过交叉口时计算。将延迟奖励分配到各个训练阶段是一项复杂的问题。其他研究采用了累加能耗与行驶距离作为延迟奖励的两个部分。但是累加的行驶距离不能准确表示车队的旅行延迟。更直观的方式是采用延迟奖励，它可以直接反映优化目标。

[0046] 与其他定义相比，这种延迟奖励值的定义与状态和行动相关，并同时强调了行程延迟和燃油消耗，在提高交通效率的同时，也达到了节能环保的目的，为生态交通信号控制提供了重要的帮助。

[0047] 步骤5、利用更新后的策略网络生成优化的执行动作，智能体根据优化的执行动作生成建议行驶速度，并发送给车队车头以动态优化车队行驶轨迹；智能体通过持续与环境交互学习，获得响应交通流动态特性的最优协同控制策略，以缓解路网拥堵和减少污染物排放。

[0048] 请参阅图3，本发明还提供一种混合车流环境下双层生态城市车路协同控制系统，所述系统包括：交叉口智能体构建模块，用于：
将每个交叉口的信号灯视为一个智能体，智能体通过车与基础设施通信获取车辆的实时行驶信息；
车队识别划分模块，用于：
智能体根据所获取的车辆的实时行驶信息，以识别车辆与车辆之间的车头间距，并根据车头间距将不同车辆划分为不同的车队，以计算得到车队内的车辆数与行驶速度；
车队到达时间预测模块，用于：
将得到车队内的车辆数与行驶速度输入至多层感知机中，以获得预测车队到达交叉口停止线所需要的时间；
模型训练模块，用于：
将预测车队到达交叉口停止线所需要的时间输入智能体的策略网络，策略网络生成车队中各个车辆的状态，并通过智能体获取由车队的加速度变化与信号相位变化，并对车队的加速度变化与信号相位变化进行处理以生成执行动作；价值网络根据策略网络生成的执行动作以生成延迟反馈奖励，并利用正负反馈对策略网络进行策略更新以得到更新后的策略网络；
车路协同控制模块，用于：
利用更新后的策略网络生成优化的执行动作，智能体根据优化的执行动作生成建议行驶速度，并发送给车队车头以动态优化车队行驶轨迹；
智能体通过持续与环境交互学习，获得响应交通流动态特性的最优协同控制策略，以缓解路网拥堵和减少污染物排放。

[0049] 请参阅图4仿真路网实验设置的示意图，为了验证本发明所提出模型的有效性，在交通仿真模拟器上构建了一个5×5的大规模网络级路网。该路网由25个信号交叉口组成，东西向为双车道，南北向为单车道。为了模拟安全行驶环境，将单车道和双车道分别限速为45km/h和70km/h。不同于大多数研究中的单条直线交通流，本发明构建了包含6条混合交通流的复杂交通环境，这些交通流包含直行、左转和右转。且包含了一些重叠的交通流，以增加训练任务挑战性。

[0050] 请参阅图5仿真路网车流量的热力图，在实验中，增大路网中的车流量更能考验本发明所提出模型的稳定性。因此，将每小时车流量设置为单车道400 和双车道800。图5展示了路网中一小时内的总车流量相关性热力图。该热力图能够直观地反映出不同道路在高车流量条件下的相互影响和交通分布情况，从而验证本发明所提出模型在复杂交通环境下的稳定性和可靠性。

[0051] 请参阅图7五种基于RL的车路协同控制模型的训练曲线图所示，为了更好地观察模型性能的长期趋势，本节将训练次数设置为一百万次，这有助于评估模型的收敛能力。随着训练次数的增加，模型通过累积经验学习，以达到最优奖励。图中的实线代表平均训练奖励曲线，而阴影部分则代表该模型奖励值的标准差。通过对比可以看出，本发明所提出模型随着训练次数的增加，其平均奖励曲线也随之稳定上升，并在训练结束时取得了最优的训练效果，充分展现了本发明所提出模型在大规模路网环境下的有效性和优越性。相比之下，其他强化学习模型在相同的训练次数下未能表现出同样的稳定性和收敛性，从而验证了本发明所提出模型在处理复杂混合交通流场景中的优势。

[0052] 请参阅图8本发明所提出的混合车流环境下双层生态城市车路协同控制方法的模型训练稳定性曲线图所示，为了验证本发明所提出模型的稳定性，通过设置不同的随机种子进行了5次独立的训练，以评估本发明所提出模型在不同初始条件下的稳定性，图8展现了这些独立训练的结果曲线。通过奖励曲线可以看出奖励曲线最后都收敛在‑400左右。因此，可以证明本发明所提出模型具有较优的稳定性与鲁棒性。

[0053] 请参阅图9六种基于RL的车路协同控制模型在仿真路网中交叉口的平均队列长度曲线图所示，路网中的平均排队长度能够很好地反应整体拥堵情况，因此本节选用平均排队长度作为模型评估的关键指标。如图9所示，图中展示了强化学习模型MDPPO、MA2C、IA2C、PPO和DQN模型，以及传统算法GLOSA在仿真路网环境下车辆随时间变化的平均排队长度曲线。结果表明，本发明所提出框架内的算法展现了卓越的优化控制能力。与其他模型相比，本发明所提出模型在缓解交通拥堵方面表现更为优异。其他模型的平均排队长度随着时间的增加也逐渐上升，而本发明所提出模型在1800秒后能过够保持一个稳定的排队长度，显示出其在长时间运行中的稳定性和有效性，其他参数指标如表2所示：表2：其他指标评估结果
；
请参阅图10和图11，本发明所提出的混合车流环境下双层生态城市车路协同控制方法的模型在不同网联自动驾驶汽车存在率的时空轨迹图所示，为了研究不同网联自动驾驶汽车状态的存在比率对交通拥堵状况的影响，在三种不同的实验环境下进行了测试，这些环境分别为：存在20%网联自动驾驶汽车和存在60%网联自动驾驶汽车。具体结果如图10和图11所示。

[0054] 在以上三种环境中，仅存在人工驾驶汽车的情况下，由于无法与中央控制器进行信息交互，因此难以准确预测车辆到达时间，导致停车等待时间过长和交通拥堵。当路网中有20%网联自动驾驶汽车状态时，可以看到混合车辆形成一个个车队。由于网联自动驾驶汽车状态具有较强的通信能力，能够与中央控制器进行交互，并合理预测车队到达时间进行轨迹控制，从而减少车队的停车等待时间，提高了通行效率。相比之下，当路网上有更多网联自动驾驶汽车状态时，本发明所提出的模型展现出卓越的控制能力，能够极大地控制车队的行驶轨迹，使更多车辆在一个信号周期内通过，避免了车辆长时间的停车等待。

[0055] 请参阅图12不同模块在模型中表现的柱状图所示，分别移除本发明所提出的模型中不同的模块，形成三种不同的变体：不形成车队也不进行控制、形成车队但不进行协同控制、进行协同控制但不形成车队，以及本发明所提出的完整模型，即形成车队并进行协同控制。将第一种变体设为本次实验的基准线，并以此为参考。在不同网联自动驾驶汽车状态存在的比率下，评估这些变体的旅行延迟，从而验证车队识别、到达时间预测和车路协同控制模块的在本发明所提出的模型中的重要性。

[0056] 从图中发现，随着网联自动驾驶汽车状态存在比率的升高，路网中整体旅行延迟也随之降低。与基准线相比，P‑NC通过将混合车辆划分为若干车队，获得了一定的旅行延迟优化效果。相比之下，虽然NP‑C不将车辆划分为车队进行控制，但同样也得到了不小的优化。然而，包含完整模块的本发明所提出的模型在旅行延迟优化方面表现最佳。由此可见，本发明所提出的模型通过将车辆划分为车队进行到达时间预测，再进行车路协同控制的方法可行的，并且具有出色的协同控制能力。

[0057] 应当理解的，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

[0058] 在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、 “示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

[0059] 以上所述实施例仅表达了本发明的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对本发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干变形和改进，这些都属于本发明的保护范围。因此，本发明专利的保护范围应以所附权利要求为准。

查看完整全部详细技术资料

当前第1页第1页第2页第3页