技术领域
[0002] 各种示例实施例总地涉及通信系统,并且更具体但不排他地涉及通信系统中的网络管理。
相关背景技术
[0003] 各种通信网络可以支持各种类型的通信。随着通信网络扩展以满足各种类型的通信的日益增长的需求,可以对此类通信网络的管理进行适配,以确保通信网络继续可靠且高效地处置此类通信。
具体实施方式
[0010] 给出了用于支持通信网络管理的各种示例实施例。用于支持通信网络管理的各种示例实施例可被配置为支持可以针对各种类型的通信网络执行的各种类型的管理(例如,资源管理、服务管理等,以及它们的各种组合)的通信网络管理,所述通信网络例如有线通信网络(例如,互联网协议(IP)网络、以太网网络等)、无线通信网络(例如,第三代(3G)无线网络、第四代(4G)无线网络、长期演进(LTE)网络、第五代(5G)网络等)等等,以及它们的各种组合。
[0011] 用于支持通信网络管理的各种示例实施例可被配置为基于各种网络管理策略支持通信网络管理。用于支持通信网络管理的各种示例实施例可被配置为基于各种资源管理策略支持通信网络管理。用于支持通信网络管理的各种示例实施例可以被配置为基于各种策略支持通信网络管理,这些策略可以包括一个或多个基于静态规则的策略(例如,一个或多个基于规则的资源管理策略)和一个或多个基于机器学习(ML)的策略(例如,一个或多个基于ML的资源管理策略)。用于支持通信网络管理的各种示例实施例可以被配置为基于要应用于支持通信网络管理的策略的评估和选择来支持通信网络管理。用于支持通信网络管理的各种示例实施例可被配置为基于在将网络管理动作应用于通信网络之前对基于所选策略生成的网络管理动作的调节来支持通信网络管理。各种示例实施例可被配置为以风险控制的方式在基于静态规则的资源管理策略的使用和基于ML的资源管理策略的使用之间动态切换。将理解,至少一些这样的功能可以被配置为支持在通信网络中使用基于ML的资源管理策略,同时减少或消除通常与在通信网络中使用基于ML的资源管理策略相关联的风险(例如,违反客户的服务水平协定(SLA))、违反通信网络的网络约束等)。
[0012] 用于支持通信网络管理的各种示例实施例可以被配置为基于对基于规则的资源管理策略和基于ML的资源管理策略的评估来支持通信网络管理。用于在基于规则的资源管理策略和基于ML的资源管理策略的使用之间动态切换的各种示例实施例可被配置为基于对基于规则的资源管理策略和基于ML的资源管理策略的评估,在基于规则的资源管理策略和基于ML的资源管理策略的使用之间动态切换。评估可以基于各种度量(例如,奖励,诸如平均奖励和奖励偏差;成本,诸如平均成本和成本偏差等,以及它们的各种组合)、功能(例如,配置为生成资源管理策略的各种奖励和成本度量值的回归,配置为生成资源管理策略的各种奖励和成本度量值的神经网络架构,等等)等以及它们的各种组合的使用。
[0013] 用于支持通信网络管理的各种示例实施例可以被配置为基于要应用于网络的所选资源管理策略的选择支持通信网络管理,所述选择基于对基于规则的资源管理策略和基于ML的资源管理策略的评估结果。用于在基于规则的资源管理策略和基于ML的资源管理策略的使用之间动态切换的各种示例实施例可被配置为基于要应用于网络的所选资源管理策略的选择在基于规则的资源管理策略和基于ML的资源管理策略的使用之间动态切换,所述选择基于对基于规则的资源管理策略和基于ML的资源管理策略的评估结果。要应用于网络的所选资源管理策略(例如,基于规则的资源管理策略或基于ML的资源管理策略)的选择可以基于各种度量、功能等的使用,以及它们的各种组合。要应用于网络的资源管理策略的选择可以基于以下各项的使用:各种度量(例如,诸如平均奖励和奖励偏差的奖励、诸如平均成本和成本偏差的成本等,以及它们的各种组合)、功能(例如,配置为在特定网络条件下(例如,当认为在网络中使用基于ML的资源管理策略进行资源管理的风险过高时)倾向于选择基于规则的资源管理策略的功能、配置为在特定网络条件下(例如,考虑到在网络中使用基于ML的资源管理策略进行资源管理的潜在好处或奖励,当认为在网络中使用基于ML的资源管理策略进行资源管理的风险是可接受的时)倾向于选择基于ML的资源管理策略的功能等等,以及它们的各种组合。
[0014] 用于支持通信网络管理的各种示例实施例可以被配置为基于使用动作调节来控制和微调由所选策略生成的资源管理动作来支持通信网络管理。用于在基于规则的资源管理策略和基于ML的资源管理策略的使用之间动态切换的各种示例实施例可被配置为基于使用动作调节来控制和微调由所选策略(例如,即时约束、长期约束等,以及它们的各种组合)生成的资源管理动作来在基于规则的资源管理策略和基于ML的资源管理策略的使用之间动态切换。使用动作调节来控制和微调由所选策略生成的资源管理动作可以包括确定基于所选策略生成的动作是否将违反通信网络的任何网络约束,是否具有可能或将违反通信网络的网络约束的相关联风险,等等。
[0015] 将理解,用于基于各种网络管理策略来支持通信网络管理的各种示例实施例可以被配置为减少或消除与基于ML的策略的使用相关联的风险(例如,可能导致网络状况(诸如降级和错误)并因此可能对客户产生负面影响或导致违反客户的SLA的动作的执行),同时仍允许在各种条件下使用基于ML的策略,从而实现了由于使用基于ML的策略、基于使用基于ML的策略的反馈收集等等而产生的改进的网络管理,所述反馈收集可用于进一步细化基于ML的策略。
[0016] 将理解,支持通信网络管理的这些和各种其他示例实施例以及优点或潜在优点可以通过参考各附图和各附图的相关联描述来进一步理解。
[0017] 如上所述,随着移动网络规模的迅速增加,网络资源管理变得越来越复杂,以满足不断增长的移动业务需求。传统的方法,例如基于静态规则的策略,无法有效地处置网络状态和资源管理在性能和智能方面的巨大维度。例如,现代移动网络可以部署数百万个分布式无线电基站、传输光纤链路和计算机服务器,为全国数亿人提供服务。网络管理需要分配各种网络资源,例如带宽和物理资源块(PRB),并在高网络动态(例如空间和时间业务)下配置大量装备设置,例如调度优先级和传输模式选择。同时,无线资源管理应维持与移动用户制定的SLA,该SLA规定了移动用户连接到网络时的最低性能要求(例如,上行链路和下行链路传输二者中的最低无线数据速率、到达公共数据网络(PDN)的最大网络延迟等,以及它们的各种组合)。
[0018] 机器学习(ML)技术由于能够通过利用先进的人工神经网络架构处理高维问题,在解决困难的控制和管理问题方面吸引了广泛关注。ML技术提供了一种无模型的解决方案,其不需要网络管理的先验数学模型。通过与移动网络的大量交互,收集了大量数据。收集的数据用于训练神经网络(NN)模型,并可以导出资源管理策略,该策略可以保证比现有方法更好的网络性能,例如吞吐量、延迟和利用率。
[0019] 通过使用机器学习技术获得资源管理策略通常需要与真实移动网络进行大量交互。特别是,基于ML的策略观察移动网络的网络状态,生成对网络的资源管理动作,并相应地获得奖励(系统性能)。然而,在交互期间,可能生成不期望的资源管理动作,这可能导致显著的性能降级,例如基站吞吐量的性能降级,以及违反移动用户SLA,例如违反最小数据速率和最大可容忍延迟。这主要归因于无约束的训练探索以及不可预测的训练探索,所述无约束的训练探索随机探索新的资源管理动作,所述不可预测的训练探索使用基于梯度的下降方法更新策略神经网络的数百万个参数。因此,仅仅依靠机器学习策略来管理移动网络通常无法保证移动用户的SLA。本文呈现的各种示例实施例可被配置为以降低在使用机器学习技术时违反移动用户SLA的风险的方式在移动网络中启用风险感知资源管理解决方案。
[0020] 各种示例实施例可被配置为在移动网络中启用具有机器学习技术的在线风险感知资源管理系统。各种示例实施例可被配置为允许网络运营商理解违反用户和租户的SLA的潜在风险,选择适当的策略(例如,基于静态规则的策略或基于ML的策略)来控制网络以维护用户和租户的SLA(例如,长期SLA),基于所选策略为网络生成控制动作,并细化控制动作以满足网络中的即时约束。
[0021] 各种示例实施例可以被配置为提供模块,该模块被配置为根据控制网络的长期奖励和成本来评估不同策略(例如,基于规则的策略和/或基于ML的策略)的性能。该模块可以基于神经网络架构,该架构被配置为对于要评估的资源管理策略,将网络状态作为输入,并为资源管理策略生成用户和租户的估计奖励和成本。
[0022] 各种示例实施例可以被配置为提供模块,该模块被配置为基于估计的长期性能来选择适当的策略来控制网络。如果未选择基于ML的策略,则基线策略于是可以此时接管移动网络的管理。基线策略可从正在现有移动网络中运行的现有基于规则的策略导出,并且这些策略与资源管理相结合来保证违反SLA的低风险。
[0023] 各种示例实施例可以被配置为提供模块,该模块被配置为细化由不同策略生成的控制动作,以确保能够满足移动网络的即时约束,例如资源容量、功率预算等,以及它们的各种组合。
[0024] 各种示例实施例可被配置为基于各种策略(包括基于静态规则的策略和基于ML的策略)使用上述模块的各种组合来动态控制网络管理,同时满足SLA的性能要求,并确保继续满足各种网络约束。这允许在特定条件下(例如,当确定在网络上使用基于ML的策略的风险相对较低时,当确定在网络上使用基于ML的策略的相关联奖励成本比或风险满足条件时,等等)将基于ML的策略应用于网络,从而使得网络能够从基于ML的策略用于资源管理中受益,同时也使得基于ML的策略能够基于与真实网络的交互来学习,使得基于ML的策略可以随着时间的推移而被细化和改进(例如,改进奖励(例如,较低资源利用率)、降低成本等等,以及它们的各种组合)。
[0025] 各种示例实施例可被配置为支持以下各项中的一个或多个:系统和方法,用于使用在线机器学习技术实现移动网络的风险感知资源管理;风险评估模块,用于估计针对不同策略类型(包括基线策略和基于机器学习的策略)对真实移动网络采取资源管理动作的风险(其中,风险评估模块可包括一个或多个策略评估模块,配置为评估一个或多个策略类型,以确定可用于量化风险的估计奖励和成本);策略选择模块,用于确定网络中使用的是基线策略还是基于机器学习的策略;动作调节模块,其避免网络中的即时动作的明确违反;或者它们的各种组合。
[0026] 图1描绘了包括通信网络和被配置为执行通信网络的管理功能的管理系统的通信系统的示例实施例。
[0027] 通信系统100包括通信网络110,该通信网络110包括分别支持资源112‑1到112‑N(统称为资源112)的一组网络元件111‑1到111‑N(统称为网络元件111)。通信系统100还包括管理系统120,其被配置为提供通信网络110的管理功能。
[0028] 通信网络110可以是基于各种通信技术(例如以太网、互联网协议(IP)、多协议标签交换(MPLS)等,以及它们的各种组合)的有线网络(例如,数字用户线(DSL)网络、电缆网络、光纤网络等)、无线网络(例如,第三代(3G)蜂窝网络、第四代(4G)蜂窝网络、4G长期演进(LTE)蜂窝网络、第五代(5G)蜂窝网络、WiFi网络、无线局域网(WLAN)等)等,以及它们的各种组合。网络元件111可包括各种类型的网络元件,其可包括在通信网络110中,这可取决于通信网络110的网络类型。例如,网络元件111可以包括接入设备、路由器、交换机、网关、数据平面元件、控制平面元件、服务器等,以及它们的各种组合。资源112可包括可在通信网络110内被支持并由管理系统120管理的各种类型的资源,这可取决于通信网络110的网络类型。例如,资源112可以包括处理器资源、存储器资源、会话资源、带宽资源、访问接口资源、空中接口资源、物理资源块等,以及它们的各种组合。通信网络110被配置为支持为清楚起见而省略的各种元件(例如各种通信端点)的通信。例如,此类通信端点可包括最终用户设备(例如,智能手机、膝上型计算机、台式计算机、打印机、智能电视、游戏系统等)、物联网(IoT)设备(例如,传感器、执行器、电器、恒温器等)等,以及它们的各种组合。
[0029] 管理系统120被配置为提供通信网络110的各种管理功能(例如,网络供应功能、网络资源管理功能等,以及它们的各种组合)。管理系统120可被配置为根据本文呈现的各种示例实施例(例如,基于使用基于静态规则的资源管理策略和基于机器学习的资源管理策略,基于对基于静态规则的资源管理策略和基于机器学习的资源管理策略的基于风险的评估以控制在任何给定时间哪个策略用于通信网络110的网络资源管理,基于用于支持使用基于静态规则的资源管理策略和基于机器学习的资源管理策略二者用于通信网络110的网络资源管理的风险缓解等等,以及它们的各种组合),来支持网络资源管理。将理解,可以通过参考图2 – 9来进一步理解根据本文呈现的各种示例实施例由管理系统120和通信网络110支持的用于支持网络资源管理的各种功能。
[0030] 将理解,尽管主要针对具有元件的特定类型、数量和布置的特定通信网络来呈现,但本文呈现的各种示例实施例可用于管理各种其他类型的通信网络,本文呈现的各种示例实施例可用于管理具有元件的其他类型、数量和/或布置等等以及它们的各种组合的通信网络。
[0031] 图2描绘了被配置为支持移动网络的网络资源管理的系统的系统架构的示例实施例。
[0032] 如图2所描绘,系统200包括移动网络201和配置为支持移动网络201的资源管理的多个其他元件和信息,包括网络状态准备模块210、基线策略220、基于ML的策略230、训练方法231、转变数据集232、策略评估模块240、策略选择模块250和动作调节模块260。
[0033] 在至少一些示例实施例中,移动网络的在线资源管理的一般过程可以如下执行。
[0034] 1) 在配置时,移动网络201暴露大量运行状态和度量,例如,移动用户的数据使用和延迟,以及基站的工作负载和资源使用。网络运营商能够检索这些信息以决定移动网络201的下一时隙配置。
[0035] 2) 网络运营商使用策略根据此信息生成资源管理动作。该策略可以是基于静态规则的策略、基于认知功能的策略、基于ML的策略等。网络运营商的动作可以结合无线资源在接入网络中的资源分配和计算资源在核心网中的资源分配。
[0036] 3) 该动作被实现到移动网络201中,并且网络运营商可以获得一些性能信息,例如,平均资源利用率、移动用户的平均数据速率、切片租户的平均满意度等等。
[0037] 各种示例实施例可被配置为基于各种透视图、参数、度量等以及它们的各种组合来评估资源管理策略。例如,可以关于系统性能(例如,平均资源利用率等)和用户SLA(例如,最小数据速率等)的违反来执行策略的评估。因此,网络运营商的目标可以是多方面的,例如,最小化支持移动用户或网络切片的资源使用,同时维持SLA限定的它们的性能要求。在现有移动网络中,假设网络运营商已经有基线策略,例如基于静态规则的策略,该策略可以获得可接受的系统性能,并实现违反移动用户的SLA的低风险。
[0038] 各种示例实施例可以被配置为支持在线资源管理系统,并且支持用于移动网络管理的安全在线学习方法。系统200,如图2所示,可以由组件组成,这些组件包括:一些组件,被配置为实现用于支持系统和方法的特定功能(例如,基于网络状态准备模块210的网络状态准备、用于基线策略220的基线策略采用、用于使用转变数据集232基于训练方法231训练基于ML的策略230的基于ML的策略训练,等等);以及一些组件,被配置成控制如何管理此类策略(包括基于规则的策略和基于ML的策略)用于在线资源管理,例如,基于策略评估模块240的风险估计,策略选择模块250基于风险(例如,基于策略评估模块240生成的估计奖励和成本信息)的策略选择,基于动作调节模块260用于风险规避或缓解的动作修改,等等,以及它们的各种组合。
[0039] 网络状态准备模块210被配置为在一个时隙从移动网络201中的大量参数准备网络状态。在基站、交换机和服务器的大规模部署下,移动网络201可以从物理层到网络层暴露数以百万计的度量和状态指示器,例如,基站的平均吞吐量、网络链路的利用率和服务器的工作负载。这些度量在重要性方面可能并不相同。例如,当优化移动用户的延迟性能时,基站的发射功率可能不会贡献足够的信息。用于递送移动用户的分组的单个网络交换机的传输延迟没有该移动用户的每个网络域中的统计延迟那么显著。当更多参数暴露于资源管理策略时,这些参数的处理时间会延长,并且需要更复杂的策略设计来从这些参数中提取有用信息。因此,该网络状态准备模块210用于预处理该大量网络参数,并提取整个移动网络201的状态的简明表示。该网络状态准备模块210可以通过统计工具箱(例如,移动平均,其输出跨先前数据流的移动窗口的平均值;以及回归,其相对于给定分布回归数据集)或其他合适机制来完成。
[0040] 基线策略220可以由基线策略模块提供。基线策略220可以从网络运营商的现有资源管理策略中采用。基线策略220被配置为获取从网络状态准备模块210准备的网络状态,并生成资源管理动作。基线策略220可以主要基于通过人类经验设计的静态规则。例如,接入网络中的媒体接入控制(MAC)层中的移动用户的调度优先级可以基于用户在最后一小时的历史吞吐量来调整。当为移动用户选择服务用户平面功能时,可以设置工作负载阈值以评估服务器的可用性。这些基线策略可以获得可接受的系统性能,并实现违反移动用户SLA的低风险。然而,这些基线策略是静态的,并且不能智能地适应复杂的网络动态。由于这些基线策略主要是基于人类在有限洞察力下的观察导出的,因此有很大的空间利用先进的机器学习技术来提高系统性能,这些技术能够处理高维网络资源管理问题。基线策略220可被标示为pb,其在本文中也可被称为基于静态规则的策略或更简单地称为基于规则的策略。
[0041] 基于ML的策略230可以由基于ML的策略模块提供。基于ML的策略230可以基于具有机器学习技术的神经网络架构来设计。例如,可以使用深度强化学习(DRL)算法来导出基于ML的策略,该策略旨在最大化从网络系统获得的长期奖励。基于ML的策略230被配置为观察由网络状态准备模块210组织的网络状态,并生成资源管理动作。基于ML的策略230的状态空间可定义为网络状态准备模块210准备的状态,其可包括不同技术域中的网络业务,例如,无线接入网(RAN)基站的资源使用、移动用户的信道条件(例如信噪比(SNR)/调制编码方案(MCS))、网络基础设施(例如软件定义联网(SDN)交换机和核心网络虚拟网络功能(VNF))的现有配置,等等。基于ML的策略230的动作空间可被设计为控制移动网络201的网络管理。例如,动作空间可以定义为无线资源分配、传输带宽和核心网络计算资源等。基于ML的策略230可以由数百万个神经网络参数来参数化,这些神经网络参数可以在下一个时隙利用大量关于转变的训练步骤来优化,这些参数例如网络状态、资源管理动作、系统性能、网络状态等等。利用先进的神经网络架构,基于ML的策略230可以有效地处理大规模移动网络中的高维资源管理问题。基于ML的策略230在本文中可称为pm。
[0042] 策略评估模块240可被配置为评估策略的性能和成本。
[0043] 策略评估模块240可以被配置为以各种方式评估一组潜在策略中的策略,这些策略包括一个或多个基于规则的策略(例如,基线策略220)和一个或多个基于ML的策略(例如,基于ML的策略230)。策略评估模块240可被配置为基于各种参数、功能等以及其各种组合来评估基于规则的策略和基于ML的策略。
[0044] 到策略评估模块240的输入可以包括由网络状态准备模块210生成的当前配置时隙处的网络状态。配置时隙t处的网络状态标示为St。
[0045] 来自策略评估模块240的输出可以包括关于策略的性能和成本的多个估计分布。具体来说,考虑到网络状态St,策略评估模块240可以生成 ,其
中,给定的策略评估模块可被视为由 标示的函数。在这里,rm和rv分别是预期累计奖励的平均值和偏差,这意指该策略预期(例如,从现在到资源管理结束)获得的奖励量。在这里,cm和cv分别是预期累计成本的平均值和偏差,这意指该策略预期(例如,从现在到资源管理结束)引起的成本量。这些估计值可用于从不同角度确定策略是好是坏。
[0046] 策略评估模块240提供的函数、在当前网络状态St下生成策略的性能和成本的估计的函数 可通过各种方式来实现。
[0047] 在至少一些示例实施例中,在当前网络状态St下生成策略的性能和成本的估计的函数 可以是回归模型。例如,可建立两个数学回归模型(例如,线性、多项式或其他非线性内核等),并且其中一个回归模型可用于估计奖励和成本的平均值,而另一个回归模型可用于估计奖励和成本的偏差。回归模型将网络状态St作为变量,并通过利用大数据集最小化均方误差(MSE)进行更新。该方法适用于具有高收敛速率的低维问题。
[0048] 在至少一些示例实施例中,在当前网络状态St下生成策略的性能和成本的估计的函数 可以是神经网络架构。图3中示出了示例。如图3所示,神经网络架构300包括以大型神经网络形式的策略评估网络310,其可被实例化以接受网络状态305(例如,网络参数,其可以潜在地包括大量参数)作为输入,并提供策略评估信息315(例如,平均奖励和成本以及奖励和成本的偏差)作为输出(例如,同时输出四个值)作为输出。可以在大规模数据集下使用基于随机梯度下降(SGD)的方法训练策略评估网络310。数据集可包括经验网络状态、即时奖励和成本,以及下一网络状态。培训的目标可以是最小化奖励和成本的估计分布和实际分布之间的差异。该方法不仅输出奖励和成本的平均值,而且还输出奖励和成本的偏差,从而为策略选择模块250提供更多信息。这可以防止策略选择模块250选择高奖励和高成本策略(例如,基于ML的策略230而不是基于规则的基线策略220),高奖励和高成本策略可能容易违反用户SLA要求。
[0049] 策略评估模块240可以被配置为支持用于评估策略的性能和成本的各种其他功能。
[0050] 策略选择模块250可以被配置为选择用于控制移动网络201的资源管理的策略。
[0051] 策略选择模块250可以被配置为从包括一个或多个基于规则的策略和一个或多个基于ML的策略的一组潜在策略中选择策略。策略选择模块250可被配置为在各种条件下在基于规则的策略(例如,基线策略220)和基于ML的策略(例如,基于ML的策略230)的使用之间进行选择。策略选择模块250可以被配置为在各种条件下(例如,与基于ML的策略的使用相关联的奖励/风险比率相对较低,基于ML的策略的使用预计不会导致违反用户SLA或违反任何网络约束等,以及它们的各种组合),相对于基于静态规则的策略,优选选择基于ML的策略。
[0052] 策略选择模块250可以被配置为基于移动网络201的当前网络状态和累积成本来选择用于控制移动网络201的资源管理的策略。
[0053] 到策略选择模块250的输入可以包括当前网络状态St、到目前为止的累积成本、以及策略评估模块240生成的估计奖励和成本。
[0054] 策略选择模块250的输出可以包括用于移动网络201的资源管理的策略的决定。
[0055] 策略选择模块250提供的功能可以以各种方式实现。
[0056] 在至少一些示例实施例中,策略选择模块250可以基于以下等式:这里,标示为i*的最优策略是基于不同的函数选择的,这取决于到目前为止的累
计成本是否超过定义为C的给定成本阈值。
[0057] 如果累计成本不超过成本阈值(例如,用户SLA定义的SLA要求),则在随后的配置时隙中选择具有最高奖励成本比率的策略。换言之,优选的是,所选策略具有较高奖励和较低成本。通过这种方式,有可能在策略可能违反SLA要求之前实现较高奖励。在至少一些示例实施例中,函数Hi可定义为 ,使得从平均奖励中减去奖励的偏差,并将成本的偏差加到平均成本中。此操作将防止选择具有高奖励和高成本的策略,该策略将倾向于违反SLA要求。将理解,可基于平均奖励和成本以及奖励和成本的偏差以其他方式定义函数Hi。
[0058] 如果累计成本确实超过了成本阈值(例如,用户的SLA定义的SLA要求),则在随后配置时隙中选择具有最低预期成本的策略。通过这种方式,有可能当SLA要求已经被违反时最小化SLA违反的强度。在至少一些示例实施例中,函数Gi可定义为 ,使得将成本偏差加到平均成本中,以过滤任何低平均但高偏差成本的策略。将理解,可基于平均成本和成本偏差以其他方式定义函数Gi。
[0059] 在至少一些示例实施例中,正参数α可用于适应不同的风险偏好。例如,如果α=0,则在决定策略选择时不考虑奖励和成本的偏差。相反,α=5意味着偏差对于选择策略更为重要,换句话说,网络运营商不愿意冒违反SLA的风险而具有更好的奖励,例如低资源利用率。
[0060] 将理解,以上述设计的标准,选择具有更好预期奖励的策略同时最小化违反SLA要求的机会成为可能。
[0061] 策略选择模块250可被配置为支持用于从一组潜在策略(包括一个或多个基于规则的策略和一个或多个基于ML的策略)中选择策略的各种其他功能。
[0062] 动作调节模块260可被配置为微调由所选择来控制移动网络201的资源管理择的策略生成的资源管理动作。动作调节模块260可被配置为避免违反移动网络中的即时动作约束。例如,基站中的整体无线资源是固定的,并且不能被所有连接的移动用户过度请求,因为过度请求的资源需求可能导致无法预测的行为,例如,移动用户调度和许可失败、系统故障等。
[0063] 到动作调节模块260的输入可以包括由所选策略生成的动作at、当前网络状态St,以及移动网络201在最后配置时隙中的资源使用ut‑1。
[0064] 来自动作调节模块260的输出可以包括经修改动作,标示为 。
[0065] 动作调节模块260提供的功能可以以各种方式实现。在至少一些示例实施例中,动作调节模块260可以使用神经网络来细化生成的动作。动作模块260的目标可以是多方面的。例如,动作调节模块260的目标可以包括减少或最小化违反网络的即时约束的机会,同时维持动作的预期即时成本。为此,其可以通过根据网络的资源使用减少部分动作来完成。然而,直接修改动作可能会立即损害性能和成本,因为如关于策略选择模块250所讨论的,由策略生成的动作具有更好的奖励和更低的成本。因此,可以将神经网络设计为最小化目标 ,其中 是如果动作违反网络的即时约束(例如资源容量、功率预算等)
时的即时违反函数。具体而言,动作调节模块260可能需要网络状态,因为即时成本函数可能与网络状态以及动作相关。神经网络可以通过利用基于SGD的方法最小化上述目标来训练。
[0066] 动作调节模块260可被配置为支持各种其他功能,这些功能用于支持微调由所选择来控制移动网络201的资源管理择的策略生成的资源管理动作。
[0067] 如上所述,将理解,基于ML的策略230可以使用转变数据集232基于训练方法231进行训练。转变数据集232记录策略和移动网络201之间的所有交互,例如,网络状态、资源管理动作、系统性能和下一时隙的网络状态。该信息用于更新神经网络参数和改进基于ML的策略230。同时,用于基于ML的策略230的训练方法231可以采用现有算法,例如近端策略优化(PPO)和深度确定性策略梯度(DDPG)。换句话说,各种示例实施例可被配置为在维持安全在线学习属性的同时接纳另外的ML算法。
[0068] 将理解,图2的系统架构可以以各种方式进行适配或修改,同时继续支持移动网络的网络资源管理。
[0069] 将理解,尽管图2的系统架构主要在支持移动网络的网络资源管理的上下文中呈现,但其可用于或适于用于支持各种其他类型的通信网络的网络资源管理。
[0070] 本文呈现的各种示例实施例可被配置为支持在线策略学习。
[0071] 本文呈现的各种示例实施例可被配置为通过控制真实网络系统的网络管理来允许安全在线策略学习。
[0072] 图4描绘了结合基于资源管理策略的资源管理的在线策略学习过程的示例实施例。如图4所示,在线策略学习的过程400可以利用以下步骤实现。
[0073] 1.在框410,准备来自移动网络的网络状态。可以由网络状态准备模块从移动网络提取网络状态。
[0074] 2.在框420,基于当前网络状态,评估候选策略。如框425所示,被评估的候选策略可以包括基于规则的策略、基于ML的策略、一个或多个其他策略等。候选策略可以由策略评估模块进行评估。相应地生成预期奖励和成本的统计信息。
[0075] 3.在框430,从候选策略中选择期望策略,并从期望策略中选择动作。可以由策略选择模块基于所提出的标准从候选策略中选择期望策略,以便以较少的成本(例如,低SLA违反)具有更好的奖励(例如,低资源利用率)。该动作可以由所选策略或基于所选策略在当前网络状态下生成。
[0076] 4.在框440,动作被调节。动作调节模块可以使用当前网络状态和最后网络资源利用率的信息修改动作,以最小化对网络约束的即时违反。
[0077] 5.在框450,对真实网络系统(例如,对移动网络)采取经修改动作。
[0078] 6.在框460,可从移动网络获得奖励和费用。奖励和成本可在一段时间(例如一分钟、两分钟等)后由网络系统反馈。
[0079] 7.在框470,可以执行各种更新。根据训练算法的设计,基于ML的策略可以用转变数据进行更新。可以基于通信网络的资源管理动作的执行(例如,初始资源管理动作的执行或经修改资源管理动作的执行),基于从通信网络接收的网络状态信息来修改基于ML的策略。策略评估模块和动作调节模块也可以用新获得的转变进行更新,以便适配变化的网络系统。
[0080] 将理解,上述步骤可以以其他方式执行(例如,至少一些可以同时执行、以与所呈现的不同顺序执行,等等)。
[0081] 将理解,通过智能地选择不同的策略(例如,基于规则的策略和基于ML的策略),本文呈现的各种示例实施例可以提供用于在线资源管理的更好的系统性能(例如,高奖励和低成本),同时还使得能够用通过与真实网络系统交互收集的转变数据更新基于ML的策略。
[0082] 将理解,可以执行各种其他功能以支持在线策略学习。
[0083] 本文呈现的各种示例实施例可被配置为支持离线策略学习。
[0084] 本文呈现的各种示例实施例可被配置为支持基于离线模拟学习的离线策略学习。
[0085] 图5描绘了结合基于资源管理策略的资源管理的离线策略学习过程的示例实施例。
[0086] 考虑到有可能基于ML的策略可能在一开始不能很好地执行(因为基于ML的策略没有很好地学习),可以使用模拟学习来允许基于ML的策略模拟基于规则的基线策略的行为。它可以设计为通过使用基于ML的策略来模拟基线策略,而不直接与真实的移动网络交互。
如图5所描绘,从移动网络501获得网络状态510。基线策略520用于通过从网络状态准备模块获取网络状态510并基于网络状态510采取资源管理动作来管理移动网络501。同时,基于ML的策略530观察网络状态510并生成动作。基于基线策略520采取的动作和由基于ML的策略530生成的动作,执行损失计算540。损失计算540可以包括基于基线策略520采取的动作和基于ML的策略530生成的动作之间的欧几里得距离来计算损失函数。基于ML的策略530的神经网络基于损失函数在训练方法550(例如,使用基于梯度的方法)下进行更新。在大量训练步骤之后,在不同网络状态下,基于ML的策略530将生成与基线策略520非常相似的动作。
将理解,当可以利用大量真实系统数据训练风险评估模块以准确预测任何网络状态的累积成本时,可以收集基线策略的转变(例如,状态、动作、奖励和成本)来构建训练数据集,该训练数据集可以由风险评估模块(例如,一个或多个策略评估模块)使用。
[0087] 将理解,可以执行各种其他功能以支持离线策略学习。
[0088] 通过考虑基于系统原型对各种示例实施例的评估,可以进一步理解本文中呈现的各种示例实施例。
[0089] 图6描绘了系统原型的示例实施例,该系统原型被配置用于评估资源管理的各种示例实施例(其中至少一些可在本文中称为OnSlicing实施例)。
[0090] 在图6中,系统原型600包括配置为提供无线电接入网络和核心网络功能以及各种相关联功能的各种元件。
[0091] 在系统原型600中,无线电接入网络是基于OpenAirInterface(OAI)项目开发的,支持FlexRAN。该原型使用两台英特尔i7计算机,其中Ubuntu18.04的低延迟内核作为演进节点B(eNB)和下一代节点B(gNB),并且ETTUS通用软件无线电外围装置(USRP)B210作为射频(RF)前端。eNB和gNB分别在带宽为20MHz的频带7和频带78处操作。为了消除外部无线电干扰,使用法拉第笼来包含eNB和gNB天线。ETTUS Octo‑时钟用于为eNB和gNB二者提供外部10MHz参考信号。
[0092] 在系统原型600中,使用了三部5G智能手机。5G智能手机是POCO F2 Pros,支持LTE和5G非独立(NSA)演进的通用移动电信服务(UMTS)地面无线电接入网络(E‑UTRAN)新的无线电‑双连接(EN‑DC)能力二者,以仿真三个网络切片的业务,三个网络切片即移动增强现实(MAR)、高清视频(HVS)和远程遥控(RDC)。
[0093] 在系统原型600中,传输网络基于OpenDayLight(ODL)项目,支持OpenFlow 1.30,包括使用RUCKUS ICX 7150‑C12P交换机作为SDN交换机,以连接eNB/gNB和核心网络,其中每个端口具有1Gbps带宽。
[0094] 在系统原型600中,核心域管理器(CDM)基于OpenAir‑CN项目。一台具有6核心和Ubuntu 18.04的英特尔 i7计算机被用来托管CN的虚拟化网络功能(VNF),例如家庭订户服务器(HSS)、移动管理实体(MME),以及被称为SPGW的组合服务网关(SW)和分组数据网络(PDN)网关(PGW)元件(例如,SPGW控制平面元件(SPGW‑C)和SPGW用户平面元件(SPGW‑U))。特别是,这些VNF是用Docker容器技术实现的。
[0095] 在系统原型600中,边缘域管理器(EDM)被提供在核心网络计算机内。每个单独切片的边缘服务器共同位于相应的SPGW‑U容器中。
[0096] 在系统原型600中,利用PyTorch 1.5基于近端策略优化(PPO)DRL算法开发了编排代理。在所有策略网络中使用了一个具有ReLU激活函数的三层全连接神经网络,即128x64x32。策略网络的输出激活函数是Sigmoid,以确保动作介于0和1之间。
[0097] PPO代理可以设计如下。更具体地说,PPO代理的状态、动作、奖励和成本元素可以如下配置。
[0098] 状态被设计为向策略网络揭示全面的切片统计和信息网络状态。状态空间可以定义为包括当前时间、最后业务切片、切片用户的平均信道条件、RAN中的平均无线电资源使用、VNF和边缘服务器的平均工作负载、最后切片性能和成本、切片性能要求、当前时间的累积成本等。在状态空间中,它提供有关下一时间的预期业务的信息,提供有关资源利用率的网络状态,示出最后时间以来的潜在持续影响,指示有关性能要求的切片状态,等等。对于每个配置间隔,从OnSlicing虚拟化中的接口检索所需的状态信息。
[0099] 动作空间定义为端到端域中每个网络切片的虚拟资源分配。它包括上行链路虚拟无线电带宽、上行链路MCS和上行链路调度算法、下行链路虚拟无线电带宽、下行链路MCS和下行链路调度算法、TN中的虚拟传输带宽和预留链路、同址VNF和边缘服务器的CPU和RAM分配等。
[0100] 奖励定义为端到端资源利用率。目的是以最低的资源利用率为多个端到端网络切片提供服务。
[0101] 成本被定义来评估网络切片的性能要求。换句话说,如果在最后配置时隙中违反了切片SLA,则成本为正。
[0102] 以下讨论基于使用本文中呈现的各种示例实施例的各种结果,包括用于离线模拟学习的结果(例如,图7中呈现)和用于在线安全学习的结果(例如,图8中呈现)。
[0103] 在离线模拟学习中,基于ML的策略被离线训练以模仿基线策略的行为。例如,图7示出了OnSlicing和基线的资源利用率。可以看出,随着离线训练期数的增加,OnSlicing的行为接近于基线策略。这验证了本文呈现的支持基于ML的策略的训练的各种示例实施例的有效性。
[0104] 在在线安全学习中,基于ML的策略通过与真实网络系统交互来更新其神经网络。通过这种安全学习机制,即风险评估和策略切换,本文所呈现的各种示例实施例可以实现比基线策略更好的性能,同时维持最小的SLA违反。例如,在图8中可以看到,本文中呈现的各种示例实施例将资源利用率降低了50%以上,同时平均少于0.05%SLA违反。
[0105] 在至少一些示例实施例中,装置、计算机可读介质和/或方法可被配置为:基于通信网络的网络状态来确定基于规则的资源管理策略的第一组策略评估参数和基于机器学习的资源管理策略的第二组策略评估参数;基于对第一组策略评估参数和第二组策略评估参数的基于风险的分析来确定,是选择基于规则的资源管理策略还是基于机器学习的资源管理策略作为通信网络的所选策略;基于所选策略生成用于通信网络的资源管理动作;基于通信网络的网络状态和资源使用修改通信网络的资源管理动作,以形成通信网络的经修改资源管理动作;以及发起通信网络的经修改资源管理动作的执行。
[0106] 在至少一些示例实施例中,装置、计算机可读介质和/或方法可被配置为:针对通信网络确定通信网络的网络状态和与通信网络相关联的累积成本;识别一组策略,至少包括基于规则的资源管理策略和基于机器学习的资源管理策略;基于网络状态针对该组策略中的每个策略,确定相应策略的相应策略评估,所述相应策略评估包括指示将相应策略应用于通信网络的风险的相应一组评估参数,其中相应策略的相应一组评估参数包括平均奖励参数、奖励偏差参数、平均成本参数和成本偏差参数;以及基于策略的相应一组策略评估参数从该组策略中选择用于执行通信网络的资源管理的所选策略。
[0107] 在至少一些示例实施例中,装置、计算机可读介质和/或方法可被配置为:针对包括基于规则的资源管理策略和基于机器学习的资源管理策略的一组策略中的每个策略来确定相应策略评估,所述相应策略评估包括指示将相应策略应用于通信网络的风险的一组评估参数;以及基于对策略的相应策略评估的分析从该组策略中选择用于执行通信网络的资源管理的所选策略,所述分析基于从基于通信网络的累积成本的一组风险分析函数中选择的风险分析函数的使用。
[0108] 在至少一些示例实施例中,装置、计算机可读介质和/或方法可被配置为:根据基于机器学习的资源管理策略,生成用于通信网络的资源管理动作;使用神经网络并基于通信网络的网络状态和通信网络的资源使用,修改资源管理动作以形成用于通信网络的经修改资源管理动作,其中所述神经网络被配置为减少基于资源管理动作违反网络的约束的可能性,并维持资源管理动作的预期即时成本;以及发起用于通信网络的经修改资源管理动作的执行。
[0109] 在至少一些示例实施例中,装置、计算机可读介质和/或方法可被配置为:根据基于机器学习的资源管理策略,生成用于通信网络的资源管理动作;基于通信网络的网络状态和通信网络的资源使用,修改资源管理动作以形成用于通信网络的经修改资源管理动作;发起用于通信网络的经修改资源管理动作的执行;基于用于通信网络的经修改资源管理动作的执行,从通信网络接收通信网络的网络状态信息;以及基于通信网络的网络状态信息修改基于机器学习的资源管理策略。
[0110] 图9描绘了适合用于执行本文所呈现的各种功能的计算机的示例实施例。
[0111] 计算机900包括处理器902(例如,中央处理单元(CPU)、处理器、具有一组处理器核心的处理器、处理器的处理器核心等)和存储器904(例如,随机存取存储器、只读存储器等)。处理器902和存储器904可以通信连接。在至少一些示例实施例中,计算机900可以包括至少一个处理器和包括计算机程序代码的至少一个存储器,其中至少一个存储器和计算机程序代码被配置为利用至少一个处理器使计算机执行本文呈现的各种功能。
[0112] 计算机900还可以包括协作元件905。协作元件905可以是硬件设备。协作元件905可以是可以被加载到存储器904中并由处理器902执行的进程,用于实现本文所呈现的各种功能(在这种情况下,例如,协作元件905(包括相关联的数据结构)可以存储在非暂时性计算机可读存储介质上,例如存储设备或其他合适类型的存储元件(例如,磁驱动器、光驱动器等))。
[0113] 计算机900还可以包括一个或多个输入/输出设备906。输入/输出设备906可以包括以下各项中的一个或多个:用户输入设备(例如,键盘、小键盘、鼠标、麦克风、相机等)、用户输出设备(例如,显示器、扬声器等)、一个或多个网络通信设备或元件(例如,输入端口、输出端口、接收器、发射器、收发器等)、一个或多个存储设备(例如,磁带驱动器、软盘驱动器、硬盘驱动器、光盘驱动器等)等,以及它们的各种组合。
[0114] 将理解,计算机900可以表示适于实现本文所述功能元件、本文所述功能元件的部分等以及它们的各种组合的一般架构和功能。例如,计算机900可以提供适合于实现本文所呈现的一个或多个元件的一般架构和功能,所述一个或多个元件例如网络元件111或其一部分、管理系统120或其一部分、网络状态准备模块或其一部分、风险评估模块或其一部分、策略评估模块或其一部分、策略选择模块或其一部分、动作调节模块或其一部分等,以及它们的各种组合。
[0115] 将理解,本文中呈现的至少一些功能可以在软件中实现(例如,通过在一个或多个处理器上软件的实现,用于在通用计算机上执行(例如,通过一个或多个处理器执行)以便提供专用计算机等),和/或可在硬件中实现(例如,使用通用计算机、一个或多个专用集成电路和/或任何其他硬件等效物)。
[0116] 将理解,本文中呈现的至少一些功能可以在硬件内实现,例如,作为与处理器协作以执行各种功能的电路。本文描述的功能/元件的部分可以实现为计算机程序产品,其中计算机指令当由计算机处理时适配计算机的操作,使得调用或以其他方式提供本文描述的方法和/或技术。用于调用各种方法的指令可以存储在固定或可移动介质(例如,非暂时性计算机可读介质)中,经由广播或其他信号承载介质中的数据流传输,和/或存储在根据指令操作的计算设备内的存储器中。
[0117] 将理解,本文中使用的措辞“或者”指的是非排他性的“或者”,除非另有说明(例如,使用“或者要么”或“或者在可替代方案中”)。
[0118] 将理解,尽管已经在本文中详细地示出和描述了结合本文中呈现的教导的各种实施例,但本领域技术人员可以容易地设计仍然结合这些教导的许多其他变化的实施例。