技术领域
[0001] 本发明涉及人工智能领域,尤其涉及非完备信息博弈中风险与收益均衡的最少遗憾的评估方法。
相关背景技术
[0002] 人工智能是计算机领域的一个重要分支,它的中心任务是研究如何使计算机去做原本只能靠人的智力才能完成的工作。机器博弈作为人工智能的一个重要研究领域,是检验人工智能发展水平的一个重要手段。在机器博弈的研究中,非完备信息机器博弈是该领域研究的难点和重点之一。非完备信息博弈中的博弈方由于无法获得所有的信息,因而无法准确预知对手会采取哪些对策。这和社会中商业竞争、军事战争等的情形十分类似,它的研究对于建立现实社会的决策支持系统有很强的参考价值。
具体实施方式
[0015] 下面结合附图对本发明做进一步说明。
[0016] 首先介绍非完备信息博弈的模型及风险模型的基本概念。
[0017] 非完备信息扩展式博弈是一个六元组<H,H,P,fc,{Li}i=1,2,...,N,{ui}i=1,2,...,N>其中N是代表玩家的有限集;H是有限动作序列的集合,空序列 及每个动作序列的前缀也是H中的元素。终止序列Z是H中不是任何序列前缀的序列。对于非终止序列h∈H,A(h)={a:ha∈H}表示在动作序列h之后可以执行的动作的集合。函数P为非终止序列分配一个玩家,其中c代表随机事件。P(h)代表在序列h后轮到哪个玩家做动作。若P(h)=c,则随机事件在决定序列h之后的动作。对于玩家i∈N, 表示其信息分割;信息分割的元素称为信息集,每个信息集是H的子集,代表若干无法明确区分的动作序列。函数fc为P(I)=c的信息集提供A(h)中每一个动作a发生的概率,表示为fc(a|I);对于玩家i∈N,ui:Z→R是其效用函数,在每个终止序列上获得返回值。
[0018] 玩家i的策略σi是对每一个信息集Ii∈Li,σi(Ii):A(Ii)→[0,1]是在动作集A(Ii)的概率分布函数。玩家i的策略空间用∑i表示。一个策略组包含所有玩家的策略,用σ=(σ1,σ2,...,σN)表示。用σ-i表示除去玩家i,剩余的所有玩家策略组成的策略组。
[0019] 给定策略组σ(当所有玩家根据策略σ选择动作),定义动作序列h发生的概率为πσ(h)。显然πσ(h)可以分解为每一个玩家对动作序列h的发生所贡献的乘积,即同理,可定义 对于两个不同的动作序列h和h',σ σ σ σ
令π(h,h')为在策略组σ下,从h到h'的转移概率,若h是h'的前缀,则π(h,h')=π(h)/π(h')否则,πσ(h,h')=0。类似的,可以定义 和
[0020] 图2中的集合W代表了非完备信息博弈环境I的所有可能的情况的集合,W中的每个元素wi都代表了I的一个可能的完备信息状态,I的真实状态是W中的某一个wi。这里引入世界的概念:一个世界是非完备信息博弈的一个可能状态。W是当前博弈状态的世界集,S是W的抽样集, 完备信息蒙特卡洛抽样方法的基本过程是,采用随机方法抽样出W的子集S,对其中的每个完备信息世界si进行计算,统计分析每个si的最优解mi,最后在M中选择最终的最优策略序列。
[0021] 将机器博弈问题策略选择算法中的不确定性归结为以下两类风险损失。
[0022] I型风险损失及其计算方法:
[0023] 由估值函数的对世界估值的不准确性造成的风险损失称为I型风险损失。假设世界w的最优策略序列为m,则此时m的I型风险损失计算方法如下:
[0024]
[0025] 在上式中, 代表了估值函数对世界w下采取策略序列m的收益估值, 代表真实世界采取策略序列m时的收益估值。
[0026] II型风险损失及计算方法:
[0027] 由于对手最优策略判断的不准确性造成的风险损失称为II型风险损失,策略序列m的II型风险损失计算方法如下:
[0028]
[0029] 是估值函数对真实世界I采取策略序列m的收益估值。 真实世界I下博弈双方的实际策略序列m’的收益估值。
[0030] 图3展示了I、II型风险损失的区别,估值函数对世界w和真实世界I经过策略序列m的预期收益的估值差为I型风险损失,图中为LwI,真实世界I中,策略序列m和实际策略序列m’的预期收益差为II型风险损失,图中为LmII。由此,定义世界w下采用策略序列m的风险损失为
[0031] Lwm=LwI+LmII (3)。
[0032] 本发明设计了一种利用经济学中风险的概念,并研究风险模型的原理,结合最少遗憾算法,应用在非完备信息机器博弈中。在利用最少遗憾算法收益占优策略的同时,兼顾策略的风险,达到更为合理的纳什均衡。
[0033] 下面结合图1就发明的各个步骤做详细阐述。基本步骤为:
[0034] 步骤1:进行初始化。对于玩家i∈N,对其每个信息集I∈Li上策略的估值v(I,σ)=0对每一个a∈A(I),r(I,a)=0,其策略初始化为δi(I,a)=1/|A(I)|
[0035] 步骤2:博弈方按照自己的策略轮流进行动作,直到本次博弈结束,并记录各博弈方结果。
[0036] 步骤3:在本次博弈所访问到的每个信息集上计算估值及每个动作的遗憾值;
[0037] 信息集I处的价值:
[0038]
[0039] 在信息集I,不采取动作a的遗憾值:
[0040]
[0041] 步骤4:由上一步求出的在每个访问到的信息集上的估值根据后悔匹配算法,重新为每个信息集上的各个动作分配比重,得到新的策略。这样计算相比于直接采取后悔程度最大的动作,好处在于避免对手同样进行后悔值的计算,感知己方的策略。由此得到以收益优先的策略。
[0042] 对于信息集I,通过遗憾匹配得到下一步的一个收益优先的策略:
[0043]
[0044] 步骤5:计算新策略的风险值并综合考虑收益与风险的关系,挑选下一轮博弈中要使用的策略。
[0045] 下面考虑风险因素对博弈结果的影响:
[0046] 针对非完备信息机器博弈的特点,提出一个近似化计算风险损失的方法,其基本思想是计算抽样集S中的预计收益的均值,来代替世界集W中I的真实收益。
[0047] 假设博弈者对当前状态的世界集为W,元素数为n,W的抽样集为S,元素数为t,M为W的所有合法策略序列集合,元素数为k。首先给出此时的平均收益计算方法:
[0048] 定义: 为抽样集S的平均收益。计算方法如下:
[0049]
[0050] 基于(7)式,对于策略序列δ的综合风险损失近似化计算方法公式如下:
[0051]
[0052] (8)式中,约等号所连接处即为使用 以及抽样集S进行近似计算的过程。
[0053] 基于以上方法,能够计算出新策略的风险值。
[0054] 接下来是如何综合考虑收益和风险之间的关系。
[0055] 假设有策略A,B。EA和EB分别代表博弈者对于策略A、B的预期收益。LA和LB代表策略A和B的风险损失。则策略A、B的优劣判断规则如下:
[0056] 1:若策略A、B满足uA-LA>uB,则A优于B,反之,若满足uB-LB>uA,则B优于A。
[0057] 2:否则,由下式:
[0058]
[0059] 如果R>0,则A优于B,若R<0,则B优于A,若R=0,则AB等优,系统可做随机选择。
[0060] 由以上方法,可对当前博弈者的新旧策略进行排序,排序最优的策略作为当前的风险与收益均衡的策略,也即是博弈者的最优策略。
[0061] 步骤6:判断整个博弈过程是否终止,若未终止,返回步骤2继续执行。
[0062] 以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。