首页 / 决策方法和决策装置

决策方法和决策装置实质审查 发明

技术领域

[0001] 本申请涉及无线通信领域,尤其涉及一种决策方法和决策装置。

相关背景技术

[0002] 随着无线通信技术的发展,无线通信系统的任务从单一的语言传输任务,发展到执行检测、协作、控制、决策和优化等任务,因此,无线通信系统中存在大量的决策类任务,例如,无线资源调度、功率控制等。解决无线通信系统中的决策任务,通常将决策问题建模成优化问题,通过解优化的方法,得到决策动作,也可以将决策问题建模成马尔科夫决策过程,通过人工智能的方式进行求解,得到决策动作。
[0003] 现有技术中,采用完全多智能体强化学习的方法求解马尔科夫决策过程,得到决策动作。完全多智能体强化学习的方法是为每一个决策主体训练一种强化学习模型,当决策主体较多时,训练强化学习模型的复杂度高,且决策主体间会相互影响,导致系统不稳定,同时,当有新的决策主体加入时,马尔科夫决策过程会发生变化,需要重新训练强化学习模型,导致该方法可扩展性差。

具体实施方式

[0075] 下面将结合附图,对本申请中的技术方案进行描述。
[0076] 本申请实施例的技术方案可以应用于各种通信系统,例如:窄带物联网系统(narrow band-internet of things,NB-IoT)、长期演进(long term evolution,LTE)系统、LTE频分双工(frequency division duplex,FDD)系统、LTE时分双工(time division duplex,TDD)、第五代移动通信(5th generation,5G)系统或新无线(new radio,NR)、或者其他演进的通信系统等。5G系统通常包括以下三大应用场景:增强移动宽带(enhanced mobile broadband,eMBB),超高可靠与低时延通信(ultra-reliable and low latency communications,URLLC)和海量机器类通信(massive machine type of communication,mMTC)。
[0077] 本申请实施例中的终端设备也可以称为:用户设备(user equipment,UE)、移动台(mobile station,MS)、移动终端(mobile terminal,MT)、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置等。
[0078] 终端设备可以是一种向用户提供语音/数据连通性的设备,例如,具有无线连接功能的手持式设备、车载设备等。目前,一些终端设备的举例为:手机(mobile phone)、平板电脑、笔记本电脑、掌上电脑、移动互联网设备(mobile internet device,MID)、可穿戴设备,虚拟现实(virtual reality,VR)设备、增强现实(augmented reality,AR)设备、工业控制(industrial control)中的无线终端、无人驾驶(self driving)中的无线终端、远程手术(remote medical surgery)中的无线终端、智能电网(smart grid)中的无线终端、运输安全(transportation safety)中的无线终端、智慧城市(smart city)中的无线终端、智慧家庭(smart home)中的无线终端、蜂窝电话、无绳电话、会话启动协议(session initiation protocol,SIP)电话、无线本地环路(wireless local loop,WLL)站、个人数字助理(personal digital assistant,PDA)、具有无线通信功能的手持设备、计算设备或连接到无线调制解调器的其它处理设备、车载设备、可穿戴设备,5G网络中的终端设备或者未来演进的公用陆地移动通信网络(public land mobile network,PLMN)中的终端设备等,本申请实施例对此并不限定。
[0079] 此外,在本申请实施例中,终端设备还可以是物联网(internet of things,IoT)系统中的终端设备,IoT是未来信息技术发展的重要组成部分,其主要技术特点是将物品通过通信技术与网络连接,从而实现人机互连,物物互连的智能化网络。
[0080] 另外,本申请实施例中的网络设备可以是为终端设备提供无线通信功能的设备,该网络设备也可以称为接入网设备或无线接入网设备,可以是传输接收点(transmission reception point,TRP),还可以是LTE系统中的演进型基站(evolved NodeB,eNB或eNodeB),还可以是家庭基站(例如,home evolved NodeB,或home Node B,HNB)、基带单元(baseband unit,BBU),还可以是云无线接入网络(cloud radio access network,CRAN)场景下的无线控制器,或者该网络设备可以为中继站、接入点、车载设备、可穿戴设备以及5G网络中的网络设备或者未来演进的PLMN网络中的网络设备等,可以是WLAN中的接入点(access point,AP),可以是新型无线(new radio,NR)系统中的gNB,可以是卫星通信系统中的卫星基站等,以及设备到设备(Device-to-Device,D2D)、车辆外联(vehicle-to-everything,V2X)、机器到机器(machine-to-machine,M2M)通信中承担基站功能的设备等,本申请实施例并不限定。
[0081] 在一种网络结构中,网络设备可以包括集中单元(centralized unit,CU)节点、或分布单元(distributed unit,DU)节点、或包括CU节点和DU节点的RAN设备、或者控制面CU节点(CU-CP节点)和用户面CU节点(CU-UP节点)以及DU节点的RAN设备。
[0082] 网络设备为小区内的终端设备提供服务,终端设备通过网络设备分配的传输资源(例如,频域资源,或者说,频谱资源)与小区对应的网络设备或者其他设备进行通信,该网络设备可以为宏基站(例如,宏eNB或宏gNB等),也可以为小小区(small cell)对应的基站,这里的小小区可以包括:城市小区(metro cell)、微小区(micro cell)、微微小区(pico cell)、毫微微小区(femto cell)等,这些小小区具有覆盖范围小、发射功率低的特点,适用于提供高速率的数据传输服务。
[0083] 本申请实施例并未对本申请实施例提供的方法的执行主体的具体结构特别限定,只要能够通过运行记录有本申请实施例的提供的方法的代码的程序,以根据本申请实施例提供的方法进行通信即可,例如,本申请实施例提供的方法的执行主体可以是终端设备或网络设备,或者,是终端设备或网络设备中能够调用程序并执行程序的功能模块。
[0084] 另外,本申请的各个方面或特征可以实现成方法、装置或使用标准编程和/或工程技术的制品。本申请中使用的术语“制品”涵盖可从任何计算机可读器件、载体或介质访问的计算机程序。例如,计算机可读介质可以包括,但不限于:磁存储器件(例如,硬盘、软盘或磁带等),光盘(例如,压缩盘(compact disc,CD)、数字通用盘(digital versatile disc,DVD)等),智能卡和闪存器件(例如,可擦写可编程只读存储器(erasable programmable read-only memory,EPROM)、卡、棒或钥匙驱动器等)。另外,本文描述的各种存储介质可代表用于存储信息的一个或多个设备和/或其它机器可读介质。术语“机器可读介质”可包括但不限于,无线信道和能够存储、包含和/或承载指令和/或数据的各种其它介质。
[0085] 为便于理解本申请实施例,首先结合图1对适用于本申请实施例的通信系统进行详细说明。
[0086] 图1为本申请实施例提供的通信系统100的示意图。如图1所示,该通信系统100可以包括一个或者多个小区。图中,规则六边形所在的区域代表小区的覆盖区域,应理解,用规则六边形表示小区仅仅是一个示例。该小区中包括网络设备101和至少一个终端设备102。其中,网络设备101可以为至少一个终端设备102提供通信服务。具体而言,网络设备
101可以根据终端设备102的信道质量、服务质量要求等对可用的无线频谱等资源进行分配,还可以对终端设备102进行功率控制以及其他决策。
[0087] 以无线传输资源分配的决策过程为例,网络设备101进行无线传输资源分配时,通常将分配问题建模为优化问题,通过求解优化问题得到决策动作,也可以将分配问题建模为马尔科夫决策过程,使用强化学习进行求解。
[0088] 现有技术中,网络设备可以采用共享参数多智能体强化学习的方法以及完全多智能体强化学习的方法对马尔科夫决策过程进行求解,得到决策动作。共享参数多智能体强化学习方法是每个小区的网络设备均采用同一个多智能体强化学习(multi-agent reinforcement learning,MARL)模型对马尔科夫决策过程进行求解,得到决策动作。完全多智能体强化学习方法是每个小区的网络设备均采用不同的多智能体强化学习模型对马尔科夫决策过程进行求解,得到决策动作。
[0089] 共享参数多智能体强化学习方法中,所有小区的决策策略相同,且不考虑其他小区的决策可能导致的干扰。对于处于边缘的、且位于两个相邻小区的共同覆盖范围内的用户,会出现两个相邻小区的网络设备(或者称为两个相邻小区对应的网络设备)均向该共同覆盖范围发送信号的情况,两个小区传输的信号会发生干扰。由于两个小区的决策策略相同,无法通过调整收益函数实现协调,导致此方法不适应多个小区进行合作或竞争的情况。
[0090] 完全多智能体强化学习方法,所有小区的决策策略均不相同,导致多智能体强化学习模型的训练复杂程度高;同时,若一个区域同时被两个小区覆盖,两个小区的决策策略不同,会导致通信系统处于不稳定的状态;另外,若小区数量发生改变,优化问题需要重新建立以及重新训练多智能体强化学习模型,导致该方法可扩展性差。
[0091] 有鉴于此,本申请提供了一种决策方法和决策装置,通过将网络设备分组,每一组包含多个网络设备,为每一组网络设备训练一个多智能体强化学习模型的方法,有利于降低训练强化学习模型的复杂程度,同时网络设备之间可以较好地合作和竞争,并且当新的网络设备加入时,不需要重新训练学习模型,根据新的网络设备的组别从已训练得到的学习模型中匹配合适的学习模型,使得学习模型的灵活性以及可扩展性更高。
[0092] 图2为本申请实施例提供的决策方法的示意性流程图。该方法可以应用于图1所示的通信系统,但本申请实施例不限于此。如图2所示,该方法可以包括下列步骤:
[0093] S201、第一网元为第一通信装置确定决策模型,该决策模型是基于第一通信装置的组别确定的。
[0094] S202、第一网元向第一通信装置发送该决策模型,对应地,第一通信装置接收该决策模型。
[0095] S203、第一通信装置根据该决策模型进行任务决策。
[0096] 第一通信装置可以为网络设备或终端设备。应理解,终端设备可以替换为能够实现与终端设备类似的功能的装置或芯片,网络设备也可以替换为能够实现与网络设备类似的功能的装置或芯片,本申请实施例对其名称不作限定。
[0097] 若第一通信装置为网络设备,则第一网元可以是服务器,其中,网络设备可以为基站,服务器可以是部署在核心网或基站集中单元(centralized unit,CU)上的具有存储功能的服务器,也可以是独立于通信系统的第三方服务器,例如,专用于进行模型存储的服务器。若第一通信装置为终端设备,则第一网元可以是服务器或网络设备或核心网网元,当第一通信装置和第一网元处于设备到设备(device-to-device,D2D)场景中,第一通信装置和第一网元可以均为终端设备。在无线传感器网络中,第一网元可以是簇头传感器节点,第一通信装置可以是簇内其他节点。
[0098] 本申请实施例提供的决策方法可以适用于无线通信系统中资源的调度以及功率控制等决策任务,还可以适用于以用户为中心的无边界网络(UE centric no cell,UCNC)中终端设备与远端射频单元(remote radio unit,RRU)的连接以及切换问题等。
[0099] 决策模型可以包括实现决策的任意模型,本申请实施例不作限定。示例性地,决策模型可以是多智能体强化学习中的智能体模型,多智能体深度强化学习中的智能体模型,例如演员-评论家(actor-critic)算法中的智能体模型,深度确定性策略梯度(Deep Deterministic Policy Gradient,DDPG)算法中的智能体模型等。
[0100] 第一网元中可能有多个不同的决策模型,第一网元可以从多个不同的决策模型中为第一通信装置确定一个决策模型。第一网元可以基于自身的策略主动为第一通信装置确定决策模型,也可以根据第一通信装置的请求为第一通信装置确定决策模型。
[0101] 通常情况下,当第一通信装置入网或者第一通信装置的邻区关系改变时,第一网元为第一通信装置确定一个决策模型。其中,第一通信装置入网是指第一通信装置初次加入网络或者设备重启之后加入网络,例如由于网络容量的扩增,新加入一个基站后,基站向服务器请求决策模型,或者,服务器检测到新加入一个基站后,为新加入的基站确定决策模型。第一通信装置的邻区关系改变是指与第一通信装置相邻的其它通信装置加入网络或者退出网络。若第一通信装置的邻区关系改变,导致第一通信装置的组别发生变化,则第一网元会重新为第一通信装置确定一个决策模型。应理解,第一通信装置的组别发生变化,则第一网元会重新为第一通信装置确定一个决策模型,对使第一通信装置的组别发生变化的情况,本申请实施例不做限定。
[0102] 第一通信装置的决策模型可以由第一网元确定,还可以由标准、协议或设备安装手册直接硬性指定,然后第一网元向第一通信装置发送该指定的决策模型。
[0103] 本实施例中,第一网元可以根据第一通信装置的组别,从多个不同的决策模型中为第一通信装置确定决策模型。相应的,第一网元需要获取第一通信装置的组别。
[0104] 第一网元获取第一通信装置的组别有不同可实现的方式。一种可实现的方式中,第一通信装置确定组别,将组别发送给第一网元。另一种可实现的方式中,第一网元自己确定第一通信装置的组别。
[0105] 第一网元和第一通信装置确定第一通信装置的组别的方式可以相同也可以不同,例如,第一网元和第一通信装置均可以根据第一通信装置的物理小区标识、第一通信装置的邻区关系表、第一通信装置的类别或者第一通信装置的位置信息确定第一通信装置的组别。或者,第一网元根据第一通信装置的物理小区标识确定第一通信装置的组别,第一通信装置根据邻区关系表确定第一通信装置的组别。
[0106] 第一通信装置的物理小区标识、第一通信装置的邻区关系表、第一通信装置的类别或者第一通信装置的位置信息可以是第一通信装置发送给第一网元的,也可以是第一网元从其他设备获取到的,本实施例不对此进行限制。
[0107] 其中,物理小区标识用于区分不同小区,当第一通信装置为基站时,物理小区标识可以为该基站的标识。
[0108] 第一通信装置的邻区关系表包括第一通信装置相邻的小区以及相邻的小区对应的物理小区标识。
[0109] 第一网元和第一通信装置根据物理小区标识或者邻区关系表,确定第一通信装置的组别,有利于降低小区间的干扰,可以适用于与干扰管理相关的决策任务,例如,功率控制、用户调度等。
[0110] 第一通信装置的类别一般可以描述该通信装置在网络中的等级、自身的硬件处理能力以及其业务类型。示例性地,若第一通信装置是网络设备,类别的分类可以是宏基站、微站、微微站、家庭基站等;若第一通信装置是终端设备,类别的分类可以是手机、平板、台式电脑、笔记本电脑等。
[0111] 第一网元和第一通信装置根据第一通信装置的类别,确定第一通信装置的组别,该方法可以适用于多级异构网络以及存在多种业务类型的通信系统中。
[0112] 第一通信装置的位置信息,该位置信息可以是第一通信装置的地理位置信息,比如第一通信装置的经纬度信息。
[0113] 第一通信装置的位置信息可以间接的反映小区间的干扰情况,例如,位置较近的基站相互干扰较强;第一通信装置的位置信息也可以间接的反映业务类型,例如,位于城市中心商业区的通信装置的业务类型与位于工厂内的通信装置的业务类型有一定的区别。第一网元和第一通信装置根据第一通信装置的位置信息,确定第一通信装置的组别,该方法可以适用于与干扰管理相关的决策任务以及存在多种业务类型的通信系统中。
[0114] 第一网元中的多个不同的决策模型可以是第一网元训练得到的,也可以是其他网元训练得到发送给第一网元的。
[0115] 第一网元中的多个不同的决策模型对应多个不同的通信装置组别,以第一网元训练多个不同的决策模型为例,第一网元为每个组别训练了一个决策模型。具体的,第一网元根据网络中的通信装置的信息,对该网络中的通信装置进行分组,得到至少一个组别,每个组别包括至少一个通信装置,至少一个组别中包括第一通信装置属于的组别;第一网元获取每个组别包括的通信装置的训练样本;第一网元基于该每个组别包括的通信装置的训练样本,分别训练该每个组别对应的决策模型。
[0116] 在本申请实施例中,第一网元可以根据第一通信装置的组别确定决策模型,有利于降低训练决策模型的复杂程度,并且当新的通信装置加入时,第一网元可以根据新的通信装置的组别从已训练得到的学习模型中匹配合适的决策模型,使得决策模型的灵活性以及可扩展性更高,另外,不同组别的通信装置的决策模型不同,使得多个不同组别的通信装置之间可以较好地合作和竞争。
[0117] 图3为本申请实施例提供的决策方法的示意性流程图。该方法可以应用于图1所示的通信系统,但本申请实施例不限于此。本实施例以第一通信装置请求第一网元确定决策模型为例进行说明,如图3所示,该方法可以包括下列步骤:
[0118] S301、第一通信装置向第一网元发送第一请求消息,该第一请求消息用于请求第一通信装置的决策模型,对应地,第一网元接收该第一请求消息。
[0119] S302、第一网元根据该第一请求消息,为第一通信装置确定决策模型。
[0120] S303、第一网元向第一通信装置发送该决策模型,对应地,第一通信装置接收该决策模型。
[0121] S304、第一通信装置根据该决策模型进行任务决策。
[0122] 示例性地,在资源调度情况下,第一通信装置可以使用第一网元为其确定的决策模型,对可用的无线频谱资源进行分配。
[0123] 示例性地,在功率控制情况下,第一通信装置可以使用第一网元为其确定的决策模型,对功率进行控制。
[0124] 上述第一请求消息用于请求第一通信装置的决策模型,该第一请求消息可以为已有的消息,也可以是新定义的消息,专用于请求决策模型,其中,已有的消息可以是随机接入阶段的MSG3或者上行发送的上行信号(uplink control information,UCI)。当第一通信装置入网时,第一通信装置中还没有配置决策模型,第一通信装置向第一网元发送第一请求消息以获取决策模型。
[0125] 一种可能的实现中,该第一请求消息可以包括第一通信装置的组别,第一网元接收到第一请求消息后,根据第一通信装置的组别从多个决策模型中为第一通信装置确定决策模型。
[0126] 另一种可能的实现中,第一请求消息中包括第一通信装置的物理小区标识、第一通信装置的邻区关系表、第一通信装置的类别或者第一通信装置的位置信息。第一网元接收到第一请求消息后,根据第一通信装置的物理小区标识、第一通信装置的邻区关系表、第一通信装置的类别或者第一通信装置的位置信息确定第一通信装置的组别,然后根据第一通信装置的组别从多个决策模型中为第一通信装置确定决策模型。
[0127] S305、第一通信装置基于第一通信装置的训练样本,调整该决策模型。
[0128] 步骤S305为可选步骤,即第一通信装置在接收到该决策模型后也可以不对决策模型进行调整。本实施例中,通过调整该决策模型,可以使该决策模型更适用于第一通信装置所处的场景,使第一通信装置根据场景的实时信息更好地做出决策动作,从而能够提高资源的利用率或者提高网络的性能等。例如,在资源调度情况下,第一通信装置根据第一通信装置所覆盖小区内的用户的当前信道质量、当前服务质量要求等信息,调整决策模型,使第一通信装置可以根据用户的实时信息更好地进行无线频谱的等资源的分配。在功率控制情况下,第一通信装置根据第一通信装置所覆盖小区内的用户的当前信道增益、功率、速率等信息,调整决策模型,使第一通信装置可以根据用户的实时信息更好地进行功率控制。
[0129] 第一通信装置将第一通信装置采集的实时信息、采用上述决策模型根据该实时信息做出的决策动作以及获得的惩罚和奖励作为训练样本,调整上述决策模型。其中,第一通信装置采集的实时信息称为状态信息,作为上述决策模型的输入,采用上述决策模型根据该实时信息做出的决策动作称为动作信息,作为上述决策模型的输出,获得的惩罚和奖励称为收益信息,用于评判决策动作的优劣。另外,对决策模型的调整可以包括对决策模型参数的调整、结构的调整。
[0130] 示例性地,若决策任务是功率控制,则状态信息可以是第一通信装置所在小区的用户的状态的总和。其中,用户的状态可以包括用户及其邻接用户的当前时刻的信道增益、上一时刻的功率以及上一时刻的速率。另外,为了减少特征所占空间,可以取一部分拥有最大信道增益的邻区用户的上述信息。动作信息可以是第一通信装置所在小区的用户的功率。收益信息可以是第一通信装置所在小区的用户的当前时刻的速率以及第一通信装置所在小区的用户的当前时刻的速率的加权总和。
[0131] 示例性地,若决策任务是资源调度,则状态信息可以是第一通信装置所在小区的用户的状态的总和。其中,用户的状态可以包括信道状态信息(channel  state information,CSI)、历史吞吐信息、基于该信道状态信息获得的估计吞吐信息以及用户数据包缓存的状态信息。用户数据包缓存的状态信息可以包括缓存中数据包的大小、缓存的剩余空间大小、缓存中数据包的等待时间以及缓存的历史丢包信息。动作信息可以是资源调度的结果,例如,某块传输资源被具体分给了哪个用户,某块传输资源可以是时频空码任意域上的资源。收益信息可以是第一通信装置所在小区的用户的当前时刻的速率、第一通信装置所在小区的用户的当前时刻的速率的加权总和、公平性、用户的数据包丢包率、用户的时延等。
[0132] 在本申请实施例中,第一通信装置向第一网元发送第一请求消息,以请求第一通信装置的决策模型。第一网元接收来自第一通信装置的该第一请求消息,确定第一通信装置的组别,进而确定决策模型。此方法第一网元可以根据第一通信装置的请求,为第一通信装置确定决策模型,可以为第一通信装置确定更适合的决策模型。
[0133] 图4为本申请实施例提供的决策模型的训练方法的流程图,上述实施例中提到的决策模型都可以通过本实施例的方法训练得到,如图4所示,本申请实施例提供的方法包括以下步骤:
[0134] S401、第一网元根据网络中的通信装置的信息,对该网络中的通信装置进行分组,得到至少一个组别,每个组别包括至少一个通信装置,该至少一个组别中包括第一通信装置属于的组别。
[0135] 第一网元可以根据网络中的通信装置的小区间的干扰关系、网络中通信装置的类别或者通信装置的位置信息对网络设备中的通信装置进行分组,得到至少一个组别。
[0136] 具体的,对于小区间的干扰关系,相邻小区间的相互干扰较大,则相邻小区的决策主体可以使用不同的决策模型,更有利于决策主体间的合作协调,相应的,距离较远的小区间的相互干扰较小,则距离较远的小区的决策主体可以使用相同的决策模型。故第一网元可以根据网络中通信装置的小区间的干扰关系对网络中通信装置进行分组,为相邻小区训练对应的决策模型,减少小区间的互相干扰。
[0137] 对于网络中通信装置的类别,第一网元可以根据网络中通信装置的类别对网络中通信装置进行分组,为不同类别的通信装置训练对应的决策模型。
[0138] 对于网络中通信装置的位置信息,第一网元可以根据网络中通信装置的地理信息对网络中通信装置进行分组,为处于不同地理位置的通信装置训练对应的决策模型。
[0139] S402、第一网元获取每个组别包括的通信装置的训练样本。
[0140] S403、第一网元基于该每个组别包括的通信装置的训练样本,分别训练该每个组别对应的决策模型。
[0141] 第一网元中可以包括每个组别对应的初始决策模型,将该每个组别对应的初始决策模型分配给每个组别包括的通信装置,该每个组别包括的通信装置采集的实时信息,使用初始决策模型根据采集的实时信息做出决策以及获得收益,其中,采集的通信装置的实时信息为通信装置的状态信息,通信装置根据实时信息做出的决策为动作信息,通信装置做出决策而获得收益为收益信息。第一网元获取该每个组别包括的通信装置的这些状态信息、动作信息以及收益信息作为训练样本。每个组别包括的通信装置的状态信息作为每个组别对应的初始模型的输入,每个组别包括的通信装置的动作信息作为每个组别对应的初始模型的输出,每个组别包括的通信装置的收益信息用于评判每个组别包括的通信装置的动作信息的优劣。
[0142] 第一网元可以更新已训练的决策模型,便于适用系统的变化。第一网元对决策模型的更新,有不同的实现方式。一种可能实现的方式中,第一网元可以对决策模型进行周期性的更新。例如,第一网元每隔1个小时对决策模型进行一次更新。第一网元获取1个小时内通信装置的状态信息、动作信息以及收益信息作为更新样本,对决策模型进行更新,并将更新后的决策模型发送给通信装置。另一种可能实现的方式中,第一网元实时监控通信装置的性能,当通信装置的性能低于第一阈值时,对决策模型进行更新。其中,通信装置的性能可以包括通信装置的吞吐量、时延等信息。应理解,若第一网元实时监控通信装置的性能包含多个信息时,第一阈值也将会对应变成多个。
[0143] 上述更新决策模型的方法是更新决策模型的部分参数,使决策模型更适应系统的变化。若系统的变化较大时,已训练的决策模型无法做出较好地决策,第一网元还可以重新训练决策模型。
[0144] 对决策模型的重新训练,也有不同的实现方式。一种可能实现的方式中,第一网元可以对决策模型进行周期性的训练。例如,第一网元每隔7天对决策模型进行一次重新训练。第一网元获取7天内通信装置的状态信息、动作信息以及收益信息作为训练样本,对决策模型进行重新训练,并将训练后的决策模型发送给通信装置。另一种可能实现的方式中,第一网元实时监控通信装置的性能,当通信装置的性能低于第二阈值时,对决策模型进行训练。其中,通信装置的性能可以包括通信装置的吞吐量、时延等信息。应理解,若第一网元实时监控通信装置的性能包含多个信息时,第二阈值也将会对应变成多个。应理解,第二阈值小于或等于第一阈值。
[0145] 上述重新训练决策模型的方法可以更改决策模型的全部参数以及改变决策模型的结构,使决策模型适应系统的变化。
[0146] 示例性地,如图5所示,在网络中存在25个小区,其中,规则六边形所在的区域代表小区的覆盖区域,应理解,用规则六边形表示小区仅仅是一个示例。
[0147] 若第一网元根据网络中通信装置的小区间的干扰关系对该网络中的通信装置进行分组,得到3个组别,不同的组别在图中用不同的线条图案表示。相同线条图案的小区代表小区内的通信装置属于一组,不同线条图案的小区代表小区内的通信装置属于不同的组。
[0148] 假设每个小区包含M个用户,则状态信息可以是一个小区内M个用户的状态的总和。其中,用户的状态可以是用户的当前时刻的信道增益、上一时刻的功率以及上一时刻的速率。另外,为了减少特征所占空间,可以取一部分拥有最大信道增益的邻接用户的上述信息。动作信息可以是一个小区内M个的用户的当前时刻的功率。收益信息可以是25个小区内的25*M个用户的当前时刻的速率以及25个小区内的25*M个用户的当前时刻的速率的加权总和除以小区的数量。
[0149] 应理解,每个小区包含的用户的个数是可变的,为了固定决策模型的输入,用户的个数可以取所有小区中的用户的个数的最大值。若当小区的实际用户的个数小于M时,可以对决策模型的输入进行补零操作;当实际用户的个数大于M时,可以设计用户选择算法,从实际用户中选择M个用户进行功率分配。
[0150] 应理解,每个组别对应的决策模型的参数、结构可以均不相同。
[0151] 本申请实施例的决策模型的训练方法,只需要训练每个组别对应的决策模型即可,不需要为每个通信装置训练一个决策模型,有利于降低训练模型的复杂程度,并且当新的通信装置加入时,第一网元可以根据新的通信装置的组别从已训练得到的学习模型中匹配合适的决策模型,使得决策模型的灵活性以及可扩展性更高。
[0152] 图6为本申请实施例提供的决策方法的示意性流程图。本实施例以决策任务为功率控制为例,第一通信装置为基站101,第一网元可以为服务器为例进行说明。如图6所示,本申请实施例的方法可以包括下列步骤:
[0153] S601、服务器根据基站的组别训练得到每个组别对应的决策模型。
[0154] 服务器可以根据小区间的干扰关系对基站进行分组,并为每个组别分别训练一个决策模型。该每个组别对应的决策模型的具体训练过程可以参照图4所示的方法,这里不再赘述。
[0155] S602、基站获取基站的物理小区标识。
[0156] S603、基站根据该基站的物理小区标识,确定基站的组别。
[0157] S604、基站向服务器发送第一请求消息,该第一请求消息包括该基站的组别,对应地,服务器接收该第一请求消息。
[0158] S605、服务器根据该第一请求消息,为基站确定决策模型。
[0159] S606、服务器向基站发送该决策模型,对应地,基站接收该决策模型。
[0160] S607、基站根据该决策模型进行任务决策。
[0161] 具体而言,基站可以通过邻区发现、与相邻小区的基站协商,获取基站的物理小区标识。
[0162] 基站可以通过如下方式确定基站的组别:一种方式中,基站对基站的物理小区标识与组别总数做取余运算,得到余数。基站可以根据该余数,确定基站的组别。
[0163] 示例性地,组别总数为3,并且基站对基站的物理小区标识与3做取余运算,得到1,则该基站的组别为1。
[0164] 另一种方式中,可以预先定义基站的物理小区标识与基站的组别的对应关系,基站获取到物理小区标识后,根据物理小区的标识查询该对应关系,得到物理小区的标识对应的基站的组别。该对应关系可以是服务器配置给基站的,也可以核心网设备配置给基站的。
[0165] 基站确定组别之后,向服务器发送第一请求消息,该第一请求消息包括该基站的组别信息。服务器接收该第一请求消息,并根据该第一请求消息,为基站确定组别信息对应的决策模型。
[0166] 应理解,当邻区关系改变时,基站可以通过邻区发现、与相邻小区的基站协商,重新确定基站的物理小区标识。其中,邻区关系变化可以包括其它基站加入网络或退出网络。基站会根据更新的物理小区标识,重新确定基站的组别。基站向服务器发送第一请求消息,该第一请求消息包括该重新确定的基站的组别,对应地,服务器根据该第一请求消息,为基站重新确定该基站的组别对应的决策模型。
[0167] 上述S601,还可以包括,服务器根据基站的类别或者基站的位置信息对基站进行分组,并为每个组别分别训练一个决策模型。
[0168] 在本申请实施例中,基站根据物理小区标识确定基站的组别,并将组别信息发送给服务器用于确定决策模型。在本申请其他实施例中,基站也可以将物理小区标识携带在第一请求消息中发送给服务器,由服务器根据基站的物理小区标识确定基站的组别,其中,服务器可以采用与基站相同的方式确定基站的组别,这里不再赘述。
[0169] 图7为本申请实施例提供的决策方法的示意性流程图。本申请实施例以决策任务为功率控制为例,第一通信装置为基站101,第一网元可以为服务器为例进行说明。如图7所示,本申请实施例的方法可以包括下列步骤:
[0170] S701、服务器根据基站的组别训练得到每个组别对应的决策模型。
[0171] 服务器可以根据小区间的干扰关系对基站进行分组,并为每个组别分别训练一个决策模型。该每个组别对应的决策模型的具体训练过程可以参照图4所示的方法,这里不再赘述。
[0172] S702、基站获取基站的邻区关系表。
[0173] S703、基站根据该基站的邻区关系表,确定基站的组别。
[0174] S704、基站向服务器发送第一请求消息,该第一请求消息包括该基站的组别,对应地,服务器接收该第一请求消息。
[0175] S705、服务器根据该第一请求消息,为基站确定决策模型。
[0176] S706、服务器向基站发送该决策模型,对应地,基站接收该决策模型。
[0177] S707、基站根据该决策模型进行任务决策。
[0178] 具体而言,基站可以通过邻区发现、与相邻小区的基站协商,获取基站的邻区关系表。
[0179] 基站可以通过如下方式确定基站的组别:一种方式中,基站对基站的邻区关系表中的每个物理小区标识与组别总数做取余运算,得到每个物理小区标识对应的余数,然后根据该每个物理小区标识对应的不同余数的个数,确定基站的组别。
[0180] 示例性地,组别总数为3,基站有10个邻区,则基站可以分别对10个邻区的物理小区标识与3做取余运算,若得到5个0、4个1以及1个2,则该基站的组别为2。
[0181] 另一种方式中,可以预先定义基站的物理小区标识与基站的组别的对应关系,基站获取到邻区关系表后,根据邻区关系表中每个物理小区的标识查询该对应关系,得到每个物理小区的标识对应的基站的组别,然后根据每个物理小区标识对应的不同组别的个数,确定基站的组别。该对应关系可以是服务器配置给基站的,也可以核心网设备配置给基站的。
[0182] 基站确定组别之后,基站向服务器发送第一请求消息,该第一请求消息包括该基站的组别信息。服务器接收该第一请求消息,并根据该第一请求消息,为基站确定组别信息对应的决策模型。
[0183] 应理解,当邻区关系改变时,基站可以通过邻区发现、与相邻小区的基站协商,重新确定基站的邻区关系表。其中,邻区关系变化可以包括其它基站加入网络或退出网络。基站会根据更新的邻区关系表,重新确定基站的组别。基站向服务器发送第一请求消息,该第一请求消息包括该重新确定的基站的组别,对应地,服务器根据该第一请求消息,为基站重新确定该基站的组别对应的决策模型。
[0184] 上述S701,还可以包括,服务器根据基站的类别或者基站的位置信息对基站进行分组,并为每个组别分别训练一个决策模型。
[0185] 在本申请实施例中,基站根据邻区关系表确定基站的组别,并将组别信息发送给服务器用于确定决策模型。在本申请其他实施例中,基站也可以将邻区关系表携带在第一请求消息中发送给服务器,由服务器根据基站的邻区关系表确定基站的组别,其中,服务器可以采用与基站相同的方式确定基站的组别,这里不再赘述。
[0186] 本申请实施例提供的决策方法可以进行仿真。示例性地,决策任务为功率控制,决策主体为基站。仿真环境中一共有N=25个蜂窝,呈5行5列分布。在每个蜂窝中,有K=4个用户,该用户随机分布在范围[Rmin,Rmax]内,Rmin可以是0.01km,Rmax可以是1km,则在25个蜂窝中,总用户数M=100。设干扰蜂窝距离L=1km,即每个蜂窝的相邻干扰蜂窝数|I|=6。设信道数量Nc=16,多普勒频率fd=10Hz,时间间隔Ts=20ms,最大功率Pmax=38dbm。
[0187] 本申请实施例提供的决策方法,根据小区间的干扰关系可以将25个蜂窝分为3组,每组对应的决策模型分别训练5次,每组共得到5个决策模型,应理解,每组中5个决策模型的参数和结构可以均不相同。仿真环境中的决策模型采用的是基于DDPG的多智能体深度强化学习(multi-agent deep deterministic policy gradient,MADDPG)。
[0188] 仿真中可以设置5种对比方案,分别为:共享参数多智能体方案、分数优化方案(FP)、加权最小均方误差方案(WMMSE)、MAX方案和RANDOM方案。其中MAX方案中,基站每次都选择最大的发送功率,RANDOM方案中,基站每次随机选择小于最大允许发送功率的值进行发送。对比方案中的共享参数多智能体方案、FP、WMMSE、MAX和RANDOM算法可以不需要训练,直接用于测试。
[0189] 在测试5次的过程中,每组中5个决策模型均只测试一次,对比方案中的算法需要分别测试5次。每个算法均可以得到关于25个蜂窝的测试结果。
[0190] 对于上述6种算法的测试结果,仿真时可以分别计算25个蜂窝的测试结果的平均加权总和速率均值 25个蜂窝的测试结果的最好加权总和速率均值rB、25个蜂窝的测试结果的最差加权总和速率均值rW,得到表1,其中,每个蜂窝的权重为1,应理解,每个蜂窝的权重也可以设置不同的值。表1为本申请实施例提供的仿真结果对比表。
[0191] 表1
[0192]
[0193] 由表1可以看出,本申请实施例提供的决策方法对应的 rB、rW的值均大于对比方案中算法对应的值,进一步证实在本申请实施例中,对网络中的通信装置进行分组,为每组训练决策模型的方法,可以更好地解决决策问题,使决策主体更好地进行决策。
[0194] 上文中结合图1和图7,详细描述了本申请实施例的方法,下面将结合8和图9,详细描述本申请实施例的装置。
[0195] 图8示出了本申请实施例提供的一种决策装置。该装置可以包括:收发单元、处理单元。
[0196] 在一种可能的实现方式中,该装置用于执行上述方法实施例中第一通信装置对应的各个流程和步骤。
[0197] 该收发单元用于:接收来自第一网元的决策模型,该决策模型是基于该装置的组别确定的。
[0198] 该处理单元用于:根据该决策模型进行任务决策。
[0199] 可选地,收发单元还用于:向第一网元发送第一请求消息,该第一请求消息用于请求该装置的决策模型。
[0200] 可选地,上述第一请求消息包括该装置的组别。
[0201] 可选地,上述第一请求消息包括以下信息中一个或者多个:该装置的物理小区标识、该装置的邻区关系表、该装置的类别、该装置的位置信息。
[0202] 可选地,处理单元还用于:根据该装置的物理小区标识或者该装置的邻区关系表或者该装置的类别或者该装置的位置信息,确定该装置的组别。
[0203] 可选地,处理单元还用于:对该装置的物理小区标识与组别总数做取余运算,得到余数;根据该余数,确定该装置的组别。
[0204] 可选地,处理单元还用于:对该装置的邻区关系表中的每个物理小区标识与组别总数做取余运算,得到该每个物理小区标识对应的余数;根据该每个物理小区标识对应的不同余数的个数,确定该装置的组别。
[0205] 可选地,处理单元还用于:基于该装置的训练样本,调整决策模型,该装置的训练样本包括该决策模型的状态信息、动作信息和收益信息。
[0206] 可选地,上述装置的分组依据为小区间的干扰关系、该装置的类别或者该装置的位置信息。
[0207] 可选地,上述决策模型是第一网元从多个决策模型中确定的,该多个决策模型对应通信装置的多个组别,每个组别对应的决策模型是基于该每个组别包括的通信装置的训练样本训练得到的。
[0208] 在另一种可能的实现方式中,该装置用于执行上述方法实施例中第一网元对应的各个流程和步骤。
[0209] 该处理单元用于:为第一通信装置确定决策模型,该决策模型是基于第一通信装置的组别确定的。
[0210] 该收发单元用于:向第一通信装置发送该决策模型。
[0211] 可选地,收发单元还用于:接收来自第一通信装置的第一请求消息,该第一请求消息用于请求第一通信装置的该决策模型;
[0212] 处理单元还用于:根据该第一请求消息,为第一通信装置确定该决策模型。
[0213] 可选地,上述第一请求消息包括第一通信装置的组别。
[0214] 可选地,上述第一请求消息包括以下信息中一个或者多个:第一通信装置的物理小区标识、第一通信装置的邻区关系表、第一通信装置的类别、第一通信装置的位置信息。
[0215] 可选地,处理单元还用于:对第一通信装置的物理小区标识与组别总数做取余运算,得到余数;根据该余数,确定第一通信装置的组别;根据该第一通信装置的组别,为第一通信装置确定该决策模型。
[0216] 可选地,处理单元还用于:对第一通信装置的邻区关系表中的每个物理小区标识与组别总数做取余运算,得到每个物理小区标识对应的余数;根据该每个物理小区标识对应的不同余数的个数,确定第一通信装置的组别;根据该第一通信装置的组别,为第一通信装置确定决策模型。
[0217] 可选地,处理单元还用于:从多个决策模型中确定该决策模型。
[0218] 可选地,处理单元还用于:根据网络中的通信装置的信息,对该网络中的通信装置进行分组,得到至少一个组别,每个组别包括至少一个通信装置,该至少一个组别中包括第一通信装置属于的组别;获取每个组别包括的通信装置的训练样本;基于该每个组别包括的通信装置的训练样本,分别训练每个组别对应的决策模型。
[0219] 可选地,处理单元还用于:根据网络中通信装置的小区间的干扰关系、网络中通信装置的类别或者网络中通信装置的位置信息,对网络中的通信装置进行分组,得到至少一个组别。
[0220] 可选地,上述多个决策模型对应通信装置的多个组别,每个组别对应的决策模型是基于该每个组别包括的通信装置的训练样本训练得到的。
[0221] 可选地,收发单元还用于:接收来自第二网元的一个或多个决策模型,该一个或多个决策模型对应通信装置的一个或多个组别,每个组别对应的决策模型是基于该每个组别包括的通信装置的训练样本训练得到的。
[0222] 应理解,这里的装置以功能单元的形式体现。这里的术语“单元”可以指应用特有集成电路(application specific integrated circuit,ASIC)、电子电路、用于执行一个或多个软件或固件程序的处理器(例如共享处理器、专有处理器或组处理器等)和存储器、合并逻辑电路和/或其它支持所描述的功能的合适组件。在一个可选例子中,本领域技术人员可以理解,装置可以具体为上述实施例中的第一通信装置或第一网元,装置可以用于执行上述方法实施例中与第一通信装置或第一网元对应的各个流程和/或步骤,为避免重复,在此不再赘述。
[0223] 上述各个方案的装置具有实现上述方法中第一通信装置或第一网元执行的相应步骤的功能;上述功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。该硬件或软件包括一个或多个与上述功能相对应的模块。例如,上述收发单元可以包括发送单元和接收单元,该发送单元可以用于实现上述收发单元对应的用于执行发送动作的各个步骤和/或流程,该接收单元可以用于实现上述收发单元对应的用于执行接收动作的各个步骤和/或流程。该发送单元可以由发射器替代,该接收单元可以由接收器替代,分别执行各个方法实施例中的收发操作以及相关的处理操作。
[0224] 在本申请的实施例,图8中的装置也可以是芯片或者芯片系统,例如:片上系统(system on chip,SoC)。对应的,收发单元可以是该芯片的收发电路,在此不做限定。
[0225] 图9示出了本申请实施例提供的另一种决策装置。该装置包括处理器、收发器和存储器。其中,处理器、收发器和存储器通过内部连接通路互相通信,该存储器用于存储指令,该处理器用于执行该存储器存储的指令,以控制该收发器发送信号和/或接收信号。
[0226] 在一种可能的实现方式中,该装置用于执行上述方法中第一通信装置对应的各个流程和步骤。
[0227] 其中,该收发器用于:接收来自第一网元的决策模型,该决策模型是基于所述装置的组别确定的。
[0228] 该处理器用于:根据该决策模型进行任务决策。
[0229] 在另一种可能的实现方式中,该装置用于执行上述方法中第一网元对应的各个流程和步骤。
[0230] 其中,该处理器用于:为第一通信装置确定决策模型,该决策模型是基于第一通信装置的组别确定的。
[0231] 该收发器用于:向第一通信装置发送该决策模型。
[0232] 应理解,该装置可以具体为上述实施例中的第一通信装置或第一网元,并且可以用于执行上述方法实施例中与第一通信装置或第一网元对应的各个步骤和/或流程。可选地,该存储器可以包括只读存储器和随机存取存储器,并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如,存储器还可以存储设备类型的信息。该处理器可以用于执行存储器中存储的指令,并且当该处理器执行存储器中存储的指令时,该处理器用于执行上述与该第一通信装置或第一网元对应的方法实施例的各个步骤和/或流程。该收发器可以包括发射器和接收器,该发射器可以用于实现上述收发器对应的用于执行发送动作的各个步骤和/或流程,该接收器可以用于实现上述收发器对应的用于执行接收动作的各个步骤和/或流程。
[0233] 应理解,在本申请实施例中,上述装置的处理器可以是中央处理单元(central processing unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0234] 在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本申请实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件单元组合执行完成。软件单元可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器执行存储器中的指令,结合其硬件完成上述方法的步骤。为避免重复,这里不再详细描述。
[0235] 本申请还提供了一种第一通信装置,包括输入输出接口和逻辑电路,该输入输出接口用于接收第一网元的决策模型,该逻辑电路用于根据该决策模型以及上述实施例中的方法进行任务决策。
[0236] 本申请还提供了一种第一网元,包括输入输出接口和逻辑电路,该逻辑电路用于按照上述实施例中的方法为第一通信装置确定决策模型,该输入输出接口用于发送所述决策模型。
[0237] 本申请提供一种可读计算机存储介质,该可读计算机存储介质用于存储计算机程序,该计算机程序用于实现上述实施例中各种可能的实现方式所示的第一通信装置对应的方法。
[0238] 本申请提供另一种可读计算机存储介质,该可读计算机存储介质用于存储计算机程序,该计算机程序用于实现上述实施例中各种可能的实现方式所示的第一网元对应的方法。
[0239] 本申请提供一种计算机程序产品,该计算机程序产品包括计算机程序(也可以称为代码,或指令),当该计算机程序在计算机上运行时,该计算机可以执行上述实施例所示的第一通信装置对应的方法。
[0240] 本申请提供另一种计算机程序产品,该计算机程序产品包括计算机程序(也可以称为代码,或指令),当该计算机程序在计算机上运行时,该计算机可以执行上述实施例中各种可能的实现方式所示的第一网元对应的方法。
[0241] 本申请提供一种芯片系统,该芯片系统用于支持上述第一通信装置实现本申请实施例所示的功能。
[0242] 本申请提供另一种芯片系统,该芯片系统用于支持上述第一网元实现本申请实施例所示的功能。
[0243] 本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
[0244] 所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0245] 在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0246] 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0247] 另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
[0248] 所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(read-only memory,ROM)、随机存取存储器(random access memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
[0249] 以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。

当前第1页 第1页 第2页 第3页