首页 / 一种基于非合作博弈的网络选择方法

一种基于非合作博弈的网络选择方法有效专利 发明

技术领域

[0001] 本发明涉及无线通信网络选择技术领域,具体涉及一种基于非合作博弈的网络选择方法,以适应网络资源和接入用户数不断变化的动态网络选择问题。

相关背景技术

[0002] 随着移动用户数量的增加和无线通信应用的要求不断提高,单一制式的网络往往无法不能满足要求,因而异构网络融合以满足用户各方面的需求成为下一代无线网络发展的趋势。在异构网络中,终端用户具有接入不同制式网络的能力,如短距离通信(Zigbee,Bluetooth),长距离通信(WiFi,WiMax,LTE)等。这些不同制式的网络往往在地理位置上相互交叠,如在城市区域可能有3G、LTE以及WiFi等多种网络覆盖。为了用户能够收到无缝切换的网络体验和满足其QoS的网络需求,终端必须采用合适的网络选择算法。
[0003] 网络选择算法的目的是在复杂多变的网络环境中为终端用户选择最佳接入网络,以获得最大收益。常用的网络选择算法有很多,如多属性决策方法、层次分析法、灰度关联法等。这些算法根据用户QoS要求对不同网络进行加权,选择收益最大的网络作为最佳接入网络,这样的算法能够综合考虑用户需求和网络状况,比较全面,但因其网络属性权重需要事先确定,故不能适应动态变化的网络环境。

具体实施方式

[0037] 下面结合附图对本发明作进一步描述。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。
[0038] 本发明的一种基于非合作博弈的网络选择方法,如图2所示,包括以下步骤:
[0039] 步骤S1,根据无线接入网络模型中用户和网络接入点之间动态选择特征,建立非合作博弈模型,此模型中参与者为用户,动作为可接入的网络,支付函数为系统吞吐量;
[0040] 步骤S2,将非合作博弈模型转化为普通势博弈模型,此势博弈模型中势函数定义为所有用户的加权干扰总和的负值;将求解吞吐量最大的网络选择问题转化为求解加权干扰总和最小的网络选择问题;
[0041] 步骤S3,采用分布式学习算法求解势博弈模型的纳什均衡,获得的收敛解即为最佳的接入网络选择方案。
[0042] 考虑一个包含M个无线接入点(Access Point,AP)和N个用户的无线接入网络(Wireless Access Network,WAN),假设每个AP可以被其覆盖范围内的任意一个用户接入。设所有AP的集合为A,其中第m个AP为am∈A,(m=1,…,M);设所有用户集合为U,其中第n个用户为un∈U,(n=1,…,N)。定义该系统模型中所用K个可用信道集合为F,每个AP采用其中一个信道fk∈F,(k=1,…,K)与用户交互数据,不同AP可以复用同一信道fk。
[0043] 图1显示一个包含3个AP和9个用户的WAN系统模型,其中用户u1只可以接入到a1,而用户u2以及u3可以接入到多个AP中。定义用户un可接入的网络集合为An。一般而言,只有当用户可以接入两个及两个以上的网络中时,才会进行网络选择决策,本发明为方便起见,将只有一个可接入网络的用户也加入决策模型中,其网络选择集合仅有一个网络,这不会对网络选择结果产生影响。
[0044] 在以上所述的WAN网络模型中,假设每个网络都提供相同的服务,如不同运营商提供的WiFi接入网络。在上述网络场景中,用户在多个可用网络中动态选择最佳接入网络,由于用户在进行网络选择的过程中不会与其他用户进行信息交换,所以该网络选择模型可以看作是一个非合作博弈模型。一般而言,非合作博弈模型包含参与者、动作和支付函数要素。在本文非合作博弈模型中,参与者为待接入网络的用户,对于每个用户,其可选择的动作集为可以接入的网络,支付函数为系统吞吐量。
[0045] 当用户un使用某一信道fk与am进行数据通信时,在un信号感知范围内同样使用该信道fk发送数据的AP会对用户un产生干扰,定义用户un干扰AP的集合为In。对于用户un,当其接入am时,信号干噪比(Signal to Interference plus Noise Radio,SINR)可以表示为:
[0046]
[0047] 其中,Pm表示第m个APam的发射功率;dmn为第m个APam与第n个用户un之间的距离;Pi表示干扰集合中第i个APai的发射功率;din为干扰集合中第i个APai与用户un之间的距离;α为路径损耗因子;σ为加性噪声。 表示除APam以外,在用户un信号接收范围内的AP产生的干扰总和。
[0048] 那么,根据香农定理,用户un的吞吐量可以表示为:
[0049] Rn=Bmlog2(1+SINRn)
[0050] 其中,Bm为APam的可用带宽。
[0051] 在本发明的非合作博弈模型中将用户的吞吐量Rn作为支付函数,支付函数值越大,就意味着系统能获得更高的吞吐量。为了得到用户un的最大吞吐量,需要解决以下优化问题:
[0052]
[0053] 已知要求解以上的非合作博弈模型,需要求解该问题的纳什均衡,其定义如下:
[0054] 定义1(纳什均衡):对于任何一用户集U,接入选择a*是一个纳什均衡当且仅当任意用户均不能通过单独改变自身的接入选择以获得更大的收益,即
[0055]
[0056] 其中, 表示除了达到纳什均衡的接入选择a*以外的接入选择。也就是说,在纳什均衡下,每一个用户的选择都是最优的。纳什均衡多种求解方法,如梯度下降法,数学模型求解等。
[0057] 本发明的非合作博弈是一种特殊的博弈:普通势博弈(Ordinal Potential Game,OPG)。已知普通势博弈的定义如下:
[0058] 定义2(普通势博弈):一个博弈被称为普通势博弈当其服从一个势函数Φ:A1×…×AN→R,使得 都存在
[0059]
[0060] 也就是说,对于普通势博弈,当某用户的动作改变时,其势函数和支付函数有相同的变化趋势。而普通势博弈有良好的性质。
[0061] 定理1:任一普通势博弈至少存在一个纯策略纳什均衡;且使得势函数最大化的动作也是一个纯策略纳什均衡。
[0062] 根据现有文献Xu Y,Wang J,Wu Q,et al.Opportunistic Spectrum Access in Unknown Dynamic Environment:A Game-Theoretic Stochastic Learning Solution[J].IEEE Transactions on Wireless Communications,可知,本发明的非合作博弈模型是一个服从势函数 的普通势博弈,其中Pi和Pn分别为第i个以及第n个AP的发射功率;din为第i个AP与第n个用户之间的距离。
[0063] 由定理1可得,本文的非合作博弈至少存在一个纯策略纳什均衡,且可用通过最大化势函数来求解纳什均衡。
[0064] 由势函数的定义可知,若将Pn视为常数,则势函数 中的可以看作用户un受到干扰在乘上系数Pn后的总和,则整个势函数去除负号的部分(-Φ)可以看作所有用户的等效加权干扰总和。要使得势函数Φ最大,就意味着等效加权干扰总和最小。所以纳什均衡能最小化干扰,最大化系统吞吐量。
[0065] 由于直接求解以上势函数的最大值以得到势博弈模型的纳什均衡比较困难,故本发明采用分布式学习算法来求解该优化问题。且采用学习算法能有效降低计算复杂度。
[0066] 定义qn(k)=[qn1(k),…,qnm(k),…,qnM(k)]为用户un在其可接入网络集中的选择策略(即用户选择接入网络的策略),其中qnm(k)为在第k次试验中,用户un选择接入APam的概率,即用户un在可接入网络集合中以概率qnm(k)选择网络am接入。例如4个可选网络情况下,假设qn(k)=[0.2,0.4,0.3,0.1],则用户un选择四个网络的概率分别为0.2、0.4、0.3、0.1,概率越大,则被选择的概率越大。但不一定每次都会选择概率最大的接入。
[0067] 并在接入后即时更新qn(k),其更新策略为
[0068]
[0069] 其中,b为学习步长因子; 为归一化吞吐量;Tn为判决因子,若用户接入APam,则Tn=1,否则Tn=0。该更新策略的含义为:当用户接入某AP后,可以计算此时的吞吐量,即归一化支付函数Rn(k)。若假设接入的AP为am,根据上文的更新策略,则其下一次试验中被选择的概率qnm(k+1)增大(Tn=1),相应的,其余没有接入的AP概率减小(Tn=0)。由此可以看出,当接入某个AP后的归一化支付函数 较大时,则该AP下轮被选择的概率增加的幅度较大。依照此更新策略,在多次试验后,某个AP被选择的概率将趋近于1,即qnm(∞)=1。
[0070] 采用分布式学习算法来求解纳什均衡的具体计算过程为:
[0071] 步骤1(初始化):初始化选择策略为qnm(k)=1/|An|,其中|An|表示用户un可选择网络集合An的元素个数;初始化概率都是相等的。在随后的迭代过程中会逐渐变化,直至趋于收敛。理论上初始概率可以为任何值,但合理的初始化值能加快收敛速度。
[0072] 步骤2(动作选择):根据策略qn(k)选择接入网络,设为am;
[0073] 步骤3(计算回报):计算选择am后的吞吐量Rn(k);
[0074] 步骤4(更新策略):更新下一轮策略qn(k+1):
[0075] 步骤5(循环):重复步骤2~4,直至达到最大迭代次数或者算法收敛(即max(qn(k))≥qthreshold,其中qthreshold为收敛阀值,可取0.99);
[0076] 步骤6(选择网络):用户un根据qn(k)选择网络接入。
[0077] 根据上述现有文献中记载定理5,当存在非负函数H(Q):Q→R对某些常数c>0满足下式时
[0078]
[0079] 文献中的学习算法收敛于一个纯策略纳什均衡点,其中Q=[q1,…,qM],qi为上文的选择策略, 为用户un采用策略 而其余用户采用剩余策略时的平均收益,[0080] 文献Xu Y,Xu Y,Anpalagan A.Database-Assisted Spectrum Access in Dynamic Networks:A Distributed Learning Solution中定理3证明,当学习算法的学习步长足够小,即b→0时,只要满足
[0081] (un(an,a-n)-un(a'n,a-n))(φ(an,a-n)-φ(a'n,a-n))≥0
[0082] 就能满足文献中定理5成立的条件,其中u(an,a-n)和φ(an,a-n)分别为选择动作an下的支付函数和势函数。故文献定理3中的分布式学习算法渐进收敛于一个纯策略纳什均衡点。本文的势博弈模型服从于相同的势函数 由此可得,当学习步长b→0时,本文的分布式学习算法收敛于势博弈的纳什均衡点。步长参数b趋近于0,学习算法最终会收敛于纳什均衡点,但步长较小会导致收敛速度缓慢。因而,综合考虑,在本文在仿真中设置步长参数为b=0.1。
[0083] 因此,上述分布式学习算法求得博弈问题的纳什均衡解,根据势博弈的性质,求得的收敛解能最大化势函数即最小化用户干扰。本发明的算法一方面能够适应系统中网络资源和连接用户数量的动态变化,且能够最大化系统吞吐量。
[0084] 实施例
[0085] 以一个具体实施例来验证本发明方法的效果,实际仿真中使用的WAN网络模型如图3所示。该仿真模型中共包含4个AP,其中心坐标位置分别为(-120,120)、(120,120)、(-120,-120)以及(120,-120),覆盖半径为200,单位均为米,图中4个圆即为4个AP的覆盖范围。每个AP的带宽为5MHz,发射功率在Pn=[100,400]mW内均匀分布。模型中在4个AP覆盖范围内随机产生20个用户,其位置在图中以方块表示。从图中可以看出,一个用户可能被多个AP覆盖,AP个数即可选接入网络个数。噪声功率σ为-100dbm,路径损耗因子为α=4,学习步长因子b=0.1。
[0086] 将现有技术中最优方法、随机选择算法以及本发明方法进行对比,其中最优方法(Optimal)通过遍历所有接入选择后选择最大吞吐量得到,随机选择算法(Random Seclection)每次在可选接入网络集中随机选择网络,本发明(Proposed)采用上述分布式学习算法进行网络选择。图4显示3种方法的吞吐量随用户激活率变化的比较。激活率表示每个用户需要与AP进行数据交换的概率,在系统带宽大于所有用户所需带宽的假设下,用户激活率越高,则其需要交换的数据越多,产生的系统吞吐量越大。仿真中,AP数目M=4,用户数目N=8。其余仿真条件和参数与图3实施例中相同。从图4中可以看出,本发明方法得到的吞吐量接近最优系统吞吐量,优于随机选择算法。
[0087] 吞吐量随用户数目增加的比较如图5所示。仿真中,AP数目M=4,用户数目N由8个逐渐增加至20个,其余仿真条件和参数与图3实施例相同。从图中可以看出,随着用户数目增加,用户间干扰增大,导致系统吞吐量减小。本文算法得到的系统吞吐量接近系统最佳吞吐量。
[0088] 图6显示可接入网络数为2的用户网络选择概率图。考虑系统包含4个AP和8个用户的情况,其余仿真条件和参数与图3实施例中相同。图中选择的用户可接入AP2和AP3。从图中可以看出,在用户可选择网络数目为2的情况下,在经过一定次数分布式学习算法后均以概率1选择最佳接入网络,证明了本发明算法的收敛性。
[0089] 图7显示可接入网络数为4的用户网络选择概率图。考虑系统包含4个AP和8个用户的情况,其余仿真条件和参数与图3实施例相同。图中选择的用户可接入全部4个AP。从图中可以看出,在用户可选择网络数目为4的情况下,在经过一定次数分布式学习算法后均以概率1选择最佳接入网络,证明的算法的收敛性。
[0090] 以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和变型,这些改进和变型也应视为本发明的保护范围。

当前第1页 第1页 第2页 第3页
相关技术
合作博弈相关技术
网络选择相关技术
赵高峰发明人的其他相关专利技术