基于客流数据和强化学习的综合客运交通枢纽客流疏散方法

基于客流数据和强化学习的综合客运交通枢纽客流疏散方法实质审查发明

技术领域

[0001] 本发明涉及综合客运枢纽运营管理技术领域，具体涉及一种基于实时客流数据和多智能体强化学习的智能客流疏散方法。

具体实施方式

[0096] 以下结合附图和具体实施例对本发明作进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。

[0097] 本发明提供一种基于客流数据和强化学习的综合客运交通枢纽客流疏散方法，针对某一站点A，实施的具体流程图如附图1所示，包括以下步骤：

[0098] S1. 数据采集；具体包括：

[0099] S101. 采集实时客流量数据；实时客流量数据包括列车到达站点A的时刻表、其在站点A下车乘客数和其在站点A滞留时间；

[0100] S102. 采集相关站点数据：包括与站点A相关的公交和地铁站点的最大乘客容量、与站点A相关的公交和地铁站点候车乘客人数；

[0101] S103. 采集相关智能体运行数据：包括各相关公交和地铁到达站点A的时间、发车时间以及剩余可用运力；其中如果站点A为始发站，运力等于站点A的最大承载量。

[0102] 其中智能体包括公交车和地铁；根据上述采集到的数据构建用于后续分析计算和建模的规范样本数据并进行数据预处理。

[0103] S2. 将综合客运交通枢纽客流疏散问题描述为马尔可夫博弈过程；马尔可夫博弈过程模型用于建模多个智能体在客流疏散过程中的决策和互动。以下是关键要素的定义：

[0104] S201：全局状态空间定义：

[0105] 根据综合客运交通和枢纽的客流疏散特点和需求，其全局状态空间主要包括乘客状态、相关站点状态和相关智能体运行状态三要素，由向量表示，表示疏散过程中涉及环境中所有智能体（公交车和地铁）共享的状态空间；

[0106] 乘客状态用向量表示；其中为相邻决策点时间内火车h到达站点A的时间，为相邻决策点时间内火车h到达站点A后下车的乘客数；为乘客j在站点A滞留时间；其中相邻决策点时间=前车结束服务时间‑当前车开始服务时间；

[0107] 相关站点状态用向量表示；其中为相邻决策点时间内相关站点z的乘客拥挤度；为相邻决策点时间内相关站点z的候车乘客数，为相关站点z的最大乘客容量；

[0108] 相关智能体运行状态用向量表示；其中为相邻决策点时间内智能体i的发车时间间隔；为相邻决策点时间内智能体i的剩余运力；和分别智能体i的发车时间和到达时间；

[0109] S202：局部状态空间定义；

[0110] 每个智能体（公交车和地铁）的局部状态是其自身感知到的环境信息（也可以称为观测空间），主要包括站点乘客拥挤度、当前发车时间间隔和其剩余运力，由向量表示；

[0111] S203：动作空间定义；

[0112] 为了更好地建模智能体在客流疏散过程中的决策和互动，以优化公交车、地铁列车的发车时间间隔，提高交通枢纽的客流疏散效率和乘客出行体验。将动作空间定义为一个连续的范围[0,1]，与最大发车时间间隔的乘积即为智能体的发车时间间隔。

[0113] 动作空间定义为：，其中每个动作表示智能体i选择的发车时间间隔的比例；智能体i的发车时间间隔表示为：
，其中表示智能体i的最大可能发车时间间隔；

[0114] S204：奖励函数设计

[0115] 在多智能体强化学习中，考虑完全合作的情况下，设计奖励函数时需要平衡整体系统的性能和个体智能体的贡献，以促进智能体之间的合作和协调。本实施例旨在通过动态调整公交车和地铁的发车时间间隔，提高综合客运交通枢纽的客流疏散效率和运营效率。因此，在综合客运交通枢纽客流疏散的模型中，智能体之间（公交车和地铁）为完全合作。提升客流疏散效率和运营效率，即为降低乘客在站点的滞留时间，因此，奖励函数与乘客滞留时间直接相关，对于智能体i奖励函数定义为：

[0116] （1）；

[0117] （2）；

[0118] 其中，为状态下在智能体i执行动作后获得的奖励，奖励值是1减去的平均乘客滞留时间，平均乘客滞留时间越小奖励值越大；为一个决策周期内的乘坐智能体i的总乘客数；为较大的正整数；为I个智能体的总奖励；公式（1）可以评估某个智能体的动作对整个整个综合客运交通枢纽客流疏散效率的贡献；

[0119] S3：构建交通枢纽客流疏散模型，交通枢纽客流疏散模型由Actor网络和Critic网络组成；

[0120] 采用Actor‑Critic（AC）框架来建立多智能体的决策模型，采用多层感知器（MLP）和Self‑Attention机制建立Actor网络和Critic网络的函数逼近器，模型可以处理不同规模的综合客运交通枢纽客流疏散问题；如图2包含以下几个关键组件：

[0121] （1）Actor网络设计:

[0122] 输入层: 智能体的观测状态（局部状态空间）作为输入；

[0123] 隐藏层: 使用多层感知器（MLP）和Self‑Attention机制作为隐藏层结构，具体参数如下：

[0124] ‑ MLP隐藏层1: 256个神经元，激活函数为ReLU；

[0125] ‑ Self‑Attention层: 128个头，每个头的维度为64；

[0126] ‑ MLP隐藏层2: 128个神经元，激活函数为ReLU；

[0127] 输出层: 输出层对应智能体的动作空间，使用sigmoid激活函数（适用于连续动作空间）。

[0128] （2） Critic网络设计:

[0129] 输入层: 智能体的全局状态空间和动作空间作为输入；

[0130] 隐藏层: 同样使用多层感知器（MLP）和Self‑Attention机制作为隐藏层结构，具体参数如下：

[0131] ‑ MLP隐藏层1: 256个神经元，激活函数为ReLU；

[0132] ‑ Self‑Attention层: 128个头，每个头的维度为64；

[0133] ‑ MLP隐藏层2: 128个神经元，激活函数为ReLU；

[0134] 输出层: 输出层为值函数，表示对应状态和动作的Q值。

[0135] 请注意，这只是一个示例，实际应用中的参数设置可能会根据具体的任务和场景集进行调整和优化。

[0136] 网络结构如图2所示：每个智能体都拥有各自的在线Actor网络，参数和目标 Actor 网络，；每个智能体都拥有各自的在线 Critic网络，参数和目标Critic网络；因此，如果有N个智能体，则交通枢纽客流疏散模型共有4N个网络结构，详细的网络参数分别是：

[0137] 在线Actor网络参数：；

[0138] 在线Critic网络参数：；

[0139] 目标Actor网络参数：；

[0140] 目标Critic网络参数：；

[0141] S4. 在交通枢纽客流疏散模型中引入异步动作协同机制并通过训练得到稳定的交通枢纽客流疏散模型；

[0142] 使用集中式训练分布式执行（CTDE）框架进行模型训练，智能体通过拿到其他智能体的信息即全局状态空间以优化自己的局部策略；在分布式执行过程中，智能体仅使用自己的局部状态空间进行决策。每个智能体根据 Actor网络进行决策；另一方面，每个智能体 Critic网络评估状态的值函数用以指导更新优化 Actor网络；

[0143] 具体训练过程如图3所示：

[0144] S401. 随机初始化所有状态；初始化Actor网络和Critic网络的所有参数；初始化超参数：学习率、折扣因子、软更新参数和随机采样经验样本大小b；初始化经验回放池D；

[0145] S402. 每个智能体与环境交互，将当前观测到的局部状态空间输入在线Actor网络，得到动作，对应的Actor网络内的参数为，具体如公式（3）所示；执行选择的动作，观察环境反馈的奖励和下一个状态；经过n次迭代后、和共同组成经验样本B；

[0146] （3）；

[0147] 其中为噪声项（使用高斯噪声）；

[0148] S403. 将经验样本存储到经验回放池中，每条经验样本由组成，具体如公式（4）所示；

[0149] （4）；

[0150] 其中表示所有智能体对当前环境状态的观测向量，表示其他全局状态；表示所有智能体对环境下一状态的观测向量；当经验样本数量达到阈值D时，从经验回放池中随机采样若干经验样本b，用于训练Actor网络和Critic网络；
指第1到第I个智能体获得的奖励；指第1到第I个智能体执行的动
作；

[0151] S404. “集中式训练”：从经验回放池中随机采样一批经验样本b，使用和分别作为在线Critic网络和目标Critic网络的输入，分别输出状态值函数和，其中表示所有智能体动作，由目标Actor网络计算输出的；利用环境中智能体的全局状态空间和动作空间来中心化训练自身的Critic网络；以时序差分误差构建二者的MSE损失函数，然后利用梯度下降更新参数。具体的损失函数及梯度如公式（5）和（6）所示：

[0152] （5）；

[0153] （6）；

[0154] 其中b为采样经验样本的大小，α表示学习率，表示梯度运算；

[0155] S405. “分布式执行”：在计算自身的Actor网络的前向传播时，每个智能体只将自身的局部状态空间作为在线 Actor网络的输入，输出一个确定性动作，即；计算时序差分误差的MSE损失函数并计算关于参数的梯度，然后利用梯度下降更新参数。损失函数及梯度如公式（7）和（9）所示：

[0156] （7）；

[0157] 其中，I为智能体的数量；

[0158] = = （8）；

[0159] （9）；

[0160] S406. 对目标Actor网络和Critic网络进行软更新，如公式（10）和（11）所示：

[0161] （10）；

[0162] （11）；

[0163] 其中，为Actor网络的损失函数，为软更新后Critic网络的参数；为软更新后Actor网络的参数；

[0164] S407. 重复S404‑S406，直到Actor网络和Critic网络训练稳定，完成交通枢纽客流疏散模型的训练。

[0165] 具体的：

[0166] 在基于多智能体强化学习的交通枢纽客流疏散模型中，公交车和地铁的运载能力的不同以及班次不同，不同站点乘客的数量的不一，导致各智能体的发车时间间隔会有差异；而在同步设置中，只有当全部智能体每执行完成一次动作后才能进行传输数据和网络参数更新，模型执行速度受到最长动作执行时间的智能体的限制；因此，不同的智能体决策的时间步不一致，需要设计一种异步动作协同机制；

[0167] 在异步动作协同机制中，每个智能体在完成自己的动作后，可以立刻向其他智能体请求数据，并立即网络参数更新。这种异步设置对于多智能体探索任务来说更省时，不会因为智能体脱机阻塞，异步操作可以提高模型的训练效率和并行性；具体过程如下：

[0168] 假设智能体的第x次决策的动作未完成，得不到第x次的奖励，其他智能体在当前时间步决策时，只能请求到智能体第x‑1次决策的完整数据，来完成自己策略的更新，如公式（12）所示：

[0169] （12）；

[0170] 其中，表示第x‑1次智能体i的局部状态空间，表示第x‑1次智能体i的动作，表示第x‑1次智能体i的奖励。

[0171] 以两个智能体为例进行说明，如图4所示：在同步动作中，和均执行完成一次动作后才能进行传输数据和新的决策，在其回放池中的数据是对等的状态。在异步动作中，和在完成自己的动作后，就可以向其他智能体请求数据，并立即进行新的决策在，其回放池中的数据是不对等的状态，只能请求2组的数据，而可以请求3组的数据。这种异步设置对于多智能体探索任务来说更省时，不会因为智能体脱机阻塞。

[0172] S5. 基于稳定的交通枢纽客流疏散模型实现对站点A的客流疏散。

[0173] 基于多智能体强化学习的客流疏散模型训练稳定后，通过动态调整公交车和地铁的发车时间间隔，提高综合客运交通枢纽的客流疏散效率和运营效率。具体的实时决策过程如图5所示：

[0174] S501：采集综合客运交通枢纽的实时状态数据，进行数据预处理，形成规范的数据样本向量；

[0175] S502：提取当前决策周期t内的乘客、列车和站点相关数据，生成全局状态空间和局部状态空间；

[0176] S503：提取当前决策周期t内的智能体数量；

[0177] S504：当前决策周期t内所有全局/局部状态空间数据和动作状态数据传输到训练稳定的客流疏散模型中，输出各智能体最优发车时间间隔，动作执行后收集反馈数据；

[0178] S505：重复S501‑S504，直到相应决策周期T结束。

[0179] 本发明的实施例还提供一种基于客流数据和强化学习的综合客运交通枢纽客流疏散系统，包括：

[0180] 数据采集模块，用于采集站点A的实时状态数据并进行数据预处理，实时状态数据包括实时客流量数据、相关站点数据和相关智能体数据，所述智能体包括公交车和地铁；

[0181] 马尔可夫博弈模块，用于将综合客运交通枢纽客流疏散问题描述为马尔可夫博弈过程；包括定义全局状态空间、定义局部状态空间、定义动作空间和设置奖励函数；所述全局状态空间包括乘客状态、相关站点状态和相关智能体运行状态；局部状态空间包括站点乘客拥挤度、当前发车时间间隔和其剩余运力；动作空间定义为一个连续的范围[0,1]与最大发车时间间隔的乘积

[0182] 模型构建模块，用于构建交通枢纽客流疏散模型，所述交通枢纽客流疏散模型由Actor网络和Critic网络组成；

[0183] 模型训练模块，用于在交通枢纽客流疏散模型中引入异步动作协同机制并通过训练得到稳定的交通枢纽客流疏散模型；

[0184] 疏散模块，用于通过稳定的交通枢纽客流疏散模型实现对站点A的客流疏散。

[0185] 优选地，本申请的实施例还提供能够实现上述实施例中的基于客流数据和强化学习的综合客运交通枢纽客流疏散方法中全部步骤的一种电子设备的具体实施方式，电子设备具体包括如下内容：

[0186] 处理器(processor) 、存储器(memory) 、通信接口(Communications Interface) 和总线；

[0187] 其中，处理器、存储器、通信接口通过总线完成相互间的通信；通信接口用于实现服务器端设备、计量设备以及用户端设备等相关设备之间的信息传输。

[0188] 处理器用于调用存储器中的计算机程序，处理器执行计算机程序时实现上述实施例中的基于客流数据和强化学习的综合客运交通枢纽客流疏散方法中的全部步骤。

[0189] 本申请的实施例还提供能够实现上述实施例中的基于客流数据和强化学习的综合客运交通枢纽客流疏散方法中全部步骤的一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序，该计算机程序被处理器执行时实现上述实施例中的基于客流数据和强化学习的综合客运交通枢纽客流疏散方法的全部步骤。

[0190] 本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于硬件+程序类实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

[0191] 上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

[0192] 虽然本申请提供了如实施例或流程图的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的装置或客户端产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行（例如并行处理器或者多线程处理的环境）。

[0193] 本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD‑ROM、光学存储器等）上实施的计算机程序产品的形式。

[0194] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

[0195] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

[0196] 本发明并不限于上文描述的实施方式。以上对具体实施方式的描述旨在描述和说明本发明的技术方案，上述的具体实施方式仅仅是示意性的，并不是限制性的。在不脱离本发明宗旨和权利要求所保护的范围情况下，本领域的普通技术人员在本发明的启示下还可做出很多形式的具体变换，这些均属于本发明的保护范围之内。

查看完整全部详细技术资料

当前第1页第1页第2页第3页