基于时序残差堆叠网络的数字孪生辅助无线资源分配方法

基于时序残差堆叠网络的数字孪生辅助无线资源分配方法实质审查发明

技术领域

[0001] 本发明涉及无线通信技术领域，特别涉及一种基于时序残差堆叠网络的数字孪生辅助无线资源分配方法。

具体实施方式

[0043] 下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，旨在用于解释本发明，而不能理解为对本发明的限制。

[0044] 图1为根据本发明实施例提供的一种基于时序残差堆叠网络的数字孪生辅助无线资源分配方法的流程图。

[0045] 如图1所示，该基于时序残差堆叠网络的数字孪生辅助无线资源分配方法包括以下步骤：

[0046] 步骤S101，初始化网络环境，利用强化学习算法初步与真实网络环境交互，收集训练数字孪生体所需的数据。

[0047] 在本发明的实施例中，基于软件定义网络的系统模型，初始化用于在下行传输场景中动态无线接入网切片分配场景，场景设计为单基站N切片移动场景，并把优化目标考虑为兼顾带宽利用率和不同切片场景的服务水平协议满足情况，在每个时间‑频率帧中被授予预定义的带宽资源子集，在一个观测周期内，软件定义网络控制系统根据切片的观测变量和切片业务的质量指标，对下一个观测周期的带宽资源分配进行性能监控，并更新带宽资源分配；优化目标如下：

[0048]

[0049]

[0050]

[0051] xn,k∈{0,1},

[0052] 其中，T为时间长度，α和βn为调整频谱效率和每个切片服务满足率权重的系数，xn,k标志第n个切片中第k个用户接收数据包是否成功，为第t个时间窗口内第n个切片的被分配的带宽，W为系统总带宽，为第t个时间窗口内由基站发送到用户k的由第n个切片提供服务的流量包的集合，是发送的流量包的数量，为第n个切片中到达的数据包的总数，为第n个切片上所有用户的集合；

[0053] 由于每个时刻的通信需求会发生变化以及的变化空间是巨大的，不知道先验概率的情况下难以求得精确解。在这个问题上，强化学习是目前常用的方法，可以把优化问题转化为一个马尔可夫决策过程(MDP)，表示为(S,A,P,γ ,R)，S是状态空间，描述每一步所跨时间内的到达包的数量，A表示动作空间，描述分配给每个切片的带宽，P为状态转移函数P(s′∣s,a)，奖励函数R(s,a)由频带利用率和服务满足率的加权和经过处理进行描述，γ表示折扣因子。强化学习算法不需要知道转移概率模型，通过探索和试错来优化策略，但是实际场景中探索过程需要很大的试错成本，并且在较大动作空间下很可能陷入局部最优，因此构建一个数字孪生体来辅助强化学习智能体的训练是非常有必要的。训练数字孪生体所需的数据包括：输入状态st，动作at，输出是智能体所需的反馈，包括下一时刻的状态st+1以及奖励rt。

[0054] 在本发明的实施例中，收集的切片资源配置数据在强化学习体系中即为动作，在基站收集的网络状态参数在强化学习体系中即为状态，切片的性能需求参数用于带入到强化学习体系中的奖励计算。根据时间窗口作为每一步的时间分割线计算每一步的奖励，采用训练数字孪生体所需的数据构建基于数据驱动的数字孪生体，作为一个虚拟的预验证模型，以有监督的方式进行训练，通过深度神经网络从真实系统的动态中学习真实网络环境的变化特征，数字孪生体包括两个模块分别用于通过给定的动作序列和状态序列预测下一个时间窗口的状态和系统给出的奖励：

[0055]

[0056] 其中，st+1是下一个时间窗口的状态，rt是给定上一个时间窗口的动作和状态得到的奖励，表示前L+1条状态序列和动作序列st‑L,at‑L,st‑L‑1,at‑L‑1,…,st,at到st+1的状态转移函数，是前L+1条状态序列和动作序列st‑L,at‑L,st‑L‑1,at‑L‑1,…,st,at到rt的转移概率，st‑L为当前时刻前L个时间窗口之前的状态，at‑L为当前时刻前L个时间窗口之前的动作。L是超参数。

[0057] 在本发明的实施例中，基于时序残差块堆叠网络的数字孪生体的构建为：

[0058] 对于一个时间长度为T，特征维度为C的一维时间序列由时间维度的快速傅里叶变换得到周期性：

[0059] A＝Avg(Amp(FFT(X1D)))

[0060] f1,…,fk＝argTopk(A)

[0061]

[0062]

[0063] 其中，FFT(·)表示对变量进行傅里叶变换，Amp(·)表示取幅度值，Avg(·)表示平均，代表了平均了特征维度C之后每个频率分量的强度，Topk(·)表示对向量A中取幅度最大的k个频域分量对应的频率赋值给f1,…,fk，p1,…,pk代表f1,…,fk对应的周期长度，基于周期对X1D进行折叠：

[0064]

[0065] Padding(·)表示沿着时间维度进行零扩展，Reshapepi,fi(·)将填充后的数据整形为对k个频率都进行是折叠后得到一组二维张量 pi代表着周期长度，第l层堆叠的时序残差块的输入为经过二维卷积后：

[0066]

[0067] 其中，一维到二维的变化以及最后转化为一维都是在TimesBlock中完成，通过二维卷积提取二维时序变化特征，进行自适应融合后得到传给l+1层，多个时序残差块堆叠组成时序残差块堆叠网络，用来组建数字孪生体。

[0068] 具体地，利用数字孪生体可以预测，模拟现实系统的功能，让强化学习智能体在数字孪生体中进行迭代训练，同时达到孪生无线接入网分配系统以及训练切片分配算法的目的。

[0069] 首先，针对相应优化目标，建立优化问题。考虑建立经典的单基站不同切片，d对于的第n个网络切片为一组用户提供服务。基于软件定义网络的无线带宽动态分配分层网络切片系统，系统的总带宽W由个切片共享。根据不同服务将一个时隙内的带宽分配给不同的切片，系统可以根据用户的需求周期性的更新切片决策。分配给第n个的带宽记为wn，第n个切片中的用户的速率由香农公式给出：

[0070] rn,k＝wnlog(1+SNRn,k)

[0071] 其中， SNRn,k是这个用户的信噪比，gn,k是信道增益，Pn,k为发射功率，N0为单边带噪声功率谱密度。频谱效率(SE)可以用s表示如下：

[0072]

[0073] 对于网络切片来说，除了频谱效率的另一个关键指标是SLA服务满足率(SSR)，用成功传输数据包的总数除以到达的数据包的总数，定义是在一个时隙内由基站发送到用户k的由第n个切片提供服务的流量包的集合，是发送的流量包的数量。定义xn,k∈{0,1}来指示是否成功被接收，其中xn,k＝1代表接收成功。接收成功需要同时满足SLA定义的时延要求和速率要求即且可以用μn表示SSR：

[0074]

[0075] 建立上述的优化目标：

[0076]

[0077]

[0078]

[0079] xn,k∈{0,1},

[0080] 其中，是切片n中到达的数据包的总数，α和β是调节SE和SSR重要性的系数。由于上述问题中会发生变化，由于不知道网络环境背后的概率分布模型，且的取值空间巨大，随着划分粒度的变小，取值空间呈指数上升，计算复杂度也呈指数级别上升。因此直接求解的方法是不适宜的，因此采用强化学习的方法,把问题转化为适合强化学习算法求解的形式，五元组为(S,A,P,γ ,R)。S是状态空间，描述每一步所跨时间内的到达包的数量，A表示动作空间，描述为系统分配给每个切片的带宽，P为状态转移函数P(s′∣s,a)，定义由频带利用率和服务满足率的加权得到的系统效用J，奖励函数R由J经过处理得到。具体如下：

[0081]

[0082] 奖励函数rt：

[0083]

[0084] γt以及γmax是阈值，采用阈值截断而不是直接用效用函数当作奖励，是为了更好的训练强化学习智能体，除此之外一个时间窗口设置为200个时隙宽度，一个时隙宽度为0.5ms。即0.1s进行一次资源调度。强化学习算法采用经典的DQN算法。由于DQN在训练时需要与环境进行大量的探索，因此本发明提出基于时序残差块堆叠网络的数字孪生辅助DQN智能体训练的框架。

[0085] 步骤S102，利用收集到的状态，动作，奖励数据来训练数据驱动的数字孪生体。

[0086] 步骤S103，将真实网络环境中的智能体放入到训练好的数字孪生体中进行迭代训练，并在迭代训练到预设次数后把智能体放回到真实网络环境中运行优化。

[0087] 在本发明的实施例中，在真实网络环境中强化学习智能体从一个随机策略选择的初始状态开始，从环境中获得当前时间窗口的状态st后输出一个动作at，然后将状态和动作反馈给训练好的虚拟环境孪生体，孪生体预测下一个状态以及根据给定状态获得奖励，如此反复，直到强化学习智能体收敛或者达到预先设定的迭代次数，其中，虚拟环境孪生体预训练系统包含网络状态预测模块、奖励预测模块、配置动作生成模块，其中网络状态预测模块、奖励预测模块是数字孪生体所具有的功能，配置动作生成模块则是强化学习智能体所具有的功能，而在预训练模块中训练的强化学习智能体在训练之初是在真实环境中运行中的强化学习智能体迁移过来，当强化学习智能体在预训练环境中训练完毕时，要迁移到真实网络环境中上线运行。

[0088] 步骤S104，利用智能体在真实网络环境中运行产生的新数据重新训练和迭代数字孪生体。

[0089] 通过不断重复步骤S103个步骤S104，进一步实现在线运行、环境自适应、同时可以捕捉短期环境变化特性的目标，建立具有自我完善，自我优化的智能无线接入网切片分配系统。

[0090] 在本发明的一个实施例中，在把虚拟环境中训练完毕的强化学习智能体赋能到并行在真实网络环境中运行的智能体上，强化学习智能体与真实网络环境继续交互微调，继续学习实时的真实网络环境的数据特征，并生成新的用于微调训练孪生体的数据，在强化学习算法中采用贪婪策略选择动作，并生成新的用于微调训练孪生体的数据，同时也继续训练强化学习智能体。

[0091] 下面结合附图和具体实施例对本发明的基于时序残差堆叠网络的数字孪生辅助无线资源分配方法进行详细说明。

[0092] 本发明一个实施例的基于时序残差堆叠网络的数字孪生辅助无线资源分配方法具体步骤如图2所示，具体包括：

[0093] 步骤1：利用构建仿真环境，仿真环境的参数如表1和表2所示。建立通信系统模型。本案例包括三种切片分别为VoLTE，Video，URLLC，如图3所示。

[0094] 表1无线网络仿真参数设置

[0095]

[0096] 三种切片流量关键参数：

[0097] 表2无线接入网流量参数设置

[0098]

[0099]

[0100] 建立仿真环境后，初始化DQN智能体参数，清空缓冲区。使用DQN智能体与通信环境交互收集数据以及初步训练DQN。

[0101] 步骤1.1：构建数据采集模块，从基站收集切片配置资源数据，如总带宽，SLA需求。

[0102] 步骤1.2：收集网络状态参数，如各类业务切片包括数据包数量，以及数据包大小。

[0103] 步骤1.3：收集切片配置动作数据，即当前时间窗口内分配给各个不同切片的物理资源块(PRB)的数量。在本实验，粒度设置为0.2Mbps，即总共100个PRB参与分配。

[0104] 步骤1.4：收集计算网络效用的参数，如吞吐量、时延、速率以及每个用户信道的信干噪比SINR等,来获得各切片的统计平均SSR以及频谱效率。计算得到该次分配下的奖励。采用时间窗口统计方法，以时间窗为时间分割线。对切片性能进行计算量化。时间窗口为
0.1s，强化学习智能体1使用策略π1初步运行T步，收集到一条长度为T的序列数据。每一条数据包括状态st，配置动作at，奖励rt，以及下一步状态st+1。

[0105] 步骤2：利用收集到的状态，动作，奖励数据训练数据驱动的数字孪生体。数字孪生体的核心任务便是时序预测，以有监督的模式进行：

[0106]

[0107] 如图4所示，通过时序残差块堆叠网络来进行状态转移模型和奖励模型的拟合，学习真实环境的变化模型，基于模型实现对状态和奖励的预测，序列长度可以设置为L，由于后续的训练只需要单步进行，因此预测的长度可以设置为1。

[0108] 步骤2.1：状态转移模型的训练是先把st,at聚合成一条数据Ct，每次训练所需的一条序列为Ct‑L,Ct‑L+1,…,Ct,状态转移模型所需要拟合的数据是下一时间窗口的状态st+1，奖励模型所需要拟合的数据是rt。损失函数采用MSE：

[0109]

[0110] 其中，T表示样本数量，表示网络对下一个时间窗口状态的预测值，表示对奖励的预测值。

[0111] 步骤2.2：训练过程中采用mixup方法进行数据增强。可以从数据层面解决过拟合，提高模型的泛化性。

[0112]

[0113]

[0114] 其中，xi,xj是样本，yi,yj是样本的标签值。

[0115] 步骤2.3：训练数字孪生体的过程采用早停策略EarlyStopping，当状态预测以及奖励预测的验证集损失加权和连续P次没有下降时结束训练，并保留损失最低的模型参数用于赋能孪生体。

[0116] 步骤3：把强化学习智能体2在孪生体中进行训练。

[0117] 步骤3.1：根据强化学习智能体1的参数初始化强化学习智能体2。在第k步孪生体中训练的强化学习智能体2根据sk执行π2获得动作ak,孪生体根据当前的sk,ak生成下一步的状态sk+1和当前奖励rk。按照以上过程不断与孪生体交互。

[0118] 步骤3.2：按照DQN算法的经验回放方法，不断把历史数据放入经验池，不断从经验池中获得数据迭代优化，更新智能体参数。直到达到设定的步数或者收敛。

[0119] 步骤4：把在孪生体中完成训练的强化学习智能体2，按照一下规则传递给强化学习智能体1：

[0120] θ1＝λθ1+(1‑λ)θ2

[0121] θ1是强化学习智能体1的参数，θ2是强化学习智能体2的参数。参数λ是调节权重的参数。智能体1在被更新之后，放回现网中运行，执行更新后的策略，按照更新后的后的策略训练以及收集数据，能够更好的收集变化后现网的动态环境数据，进而使得后面进行的孪生体训练步骤能够及时的学习到现网的变化特征。收集到一条长度为T的变化后的序列数据。

[0122] 步骤5：根据收集到的更新后的智能体与环境交互的数据，不断重复步骤3到步骤5，可以使孪生体持续的适应环境，同时也使得智能体1能够快速收敛。

[0123] 在原有强化学习算法上引入数字孪生体辅助之后，由图5中描述的经过放缩处理的总的奖励和这一数据可以直观看到基于时序残差块堆叠网络的数字孪生体辅助无线接入网分配方法相比无数字孪生体辅助的情况可以更快达到收敛，在特定步数经过数字孪生体的赋能后能够更好的学习到环境特征，奖励和快速增加超过并领先没有经过孪生体赋能算法，且20000步内总奖励收益也要高于原方法接近1/3。

[0124] 根据本发明实施例提出的基于时序残差堆叠网络的数字孪生辅助无线资源分配方法，通过用时序残差块堆叠网络神经网络对无线接入网环境进行仿真建模构建基于数据驱动的数字孪生体，使得目前广泛运用于无线接入网切片分配场景的强化学习算法可以自由的在孪生体中执行贪婪策略进行探索，仿真结果表明，该发明可以有效减少强化学习算法在真实环境中的试错性探索，同时获得更加良好的控制策略，还可以使得资源分配算法更快收敛以及带来明显的性能提升。

[0125] 在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或N个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

[0126] 此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中，“N个”的含义是至少两个，例如两个，三个等，除非另有明确具体的限定。

[0127] 流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或N个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

[0128] 应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，N个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如，如果用硬件来实现和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

[0129] 本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

查看完整全部详细技术资料

当前第1页第1页第2页第3页