技术领域
[0001] 本发明涉及体育比赛领域,尤其涉及一种基于随机博弈的角色分配系统。
相关背景技术
[0002] 多智能体强化学习为每个智能体通过与环境进行交互获取奖励值(reward)来学习改善自己的策略,从而获得该环境下最优策略的过程,体育比赛中个角色的分配即是一种多智能体强化学习的过程。在单智能体强化学习中,智能体所在的环境是稳定不变的。但是在多智能体强化学习中,环境是复杂的、动态的,因此给学习过程带来很大的困难。
具体实施方式
[0025] 为进一步说明实施例,本发明提供有附图。这些附图为本发明揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。
[0026] 现结合附图和具体实施方式对本发明进一步说明。
[0027] 实施例一:
[0028] 本发明实施例提供了一种基于随机博弈的角色分配系统,包括服务器和至少10个agent客户端,服务器与每个agent客户端之间进行通信连接,10个agent客户端对应的agent的角色包括除守门员之外的前锋、中场和后卫三个角色。
[0029] 如图1所示,系统实现的功能如下:
[0030] (1)服务器生成赛场状态信息,并将其发送给各agent客户端。
[0031] 服务器包括球场仿真模块、裁判模块和消息板模块三个模块,其中球场仿真模块用于控制球场对象的运动,裁判模块用于控制比赛过程,消息板模块用于控制服务器与客户端之间的通讯。
[0032] 需要说明的是,上述三个模块为服务器的主要组成部分,在其他的实施例中可以为其添加其他功能模块,在此不做限制。
[0033] (2)agent客户端根据接收的赛场状态信息决策出新的赛场行为,并将新的赛场行为转换为服务器对应的赛场动作后发送至服务器。
[0034] agent客户端包括三个模块,分别为信息交互模块、顶层决策模块和行为执行模块。
[0035] 信息交互模块接收服务器发送的实时赛场状态信息,并将其汇总为统一格式的赛场信息后发送至顶层决策模块。该实施例中赛场状态信息包括拟人状态:触觉、视觉、听觉等。
[0036] 行为生成器生成的行为集合按照以下公式进行收益评价:
[0037] Eva=Succ_Poss*Succ_Eff+fail_Poss*Fail_Eff
[0038] 其中,Eva表示行为集合的收益,Succ_Poss和Fail_Poss分别表示行为对应的成功和失败概率,Succ_Eff和Fail_Eff分别表示行为成功和失败执行时,对整个球队的收益。
[0039] 顶层决策模块包括对应不同行为的不同行为生成器:进攻类如射门(Shoot)、传球(Pass)、盯人(Mark)等,顶层决策模块根据接收自信息交互模块的赛场信息和agent索引,使对应的行为生成器生成相应的行为集合并发送至行为执行模块。
[0040] 行为执行模块将接收到的行为集合中的各行为转化为服务器端对应的动作,并发送至服务器端。
[0041] 服务器端对应的动作包括踢球kick,转身turn,奔跑dash,铲球tackle和说话say等。
[0042] 行为执行模块采用不同的方式将顶层决策模块输出的行为转化为Server端能够使用的动作,比如踢球kick:输入指定的agent索引和踢球的速度,进行回合间的kick规划;Dasher:输入指定的agent索引和移动终点坐标,进行回合间的dash和turn;Comunicator:
输入指定的交互内容,对交互内容进行编码以作为say的参数。
[0043] (3)服务器根据接收到的各agent客户端发送的赛场动作,采用多角色任务分配策略,随机改变各agent对应的角色分配情况,并发送至各agent客户端。
[0044] 多角色任务分配策略包括以下步骤:
[0045] 步骤一:设定三个参数NFMD,NFM和NDM,其中NFMD表示10个agent中角色可能为前锋、中场和后卫三者中的一者的个数,NFM表示10个agent中角色可能为前锋和中场两者中的一者的个数,NDM表示10个agent中角色可能为中场和后卫两者中的一者的个数;
[0046] 步骤二:对每个agent分别进行三个角色对应的场景测试并获取测试得分,将10个agent中每个agent任选一个角色组成一种任务分配策略,将每个agent任选的角色的测试得分相加得到该种任务分配策略的总得分,提取总得分最高的N种任务分配策略;
[0047] 步骤三:随机从提取的N种任务分配策略中选择一种任务分配策略作为最终任务分配策略,按照该最终任务分配策略设定每个agent对应的角色。
[0048] 上述多角色任务分配策略则为随机博弈,在该实施例中主要用于解决Mul-Mark问题,Mul-Mark问题为:在2D的体育比赛中,赛场为一个二维环境,不存在真实比赛中的高空球,因此球队的常规主要策略为盯人防守,通过卡防对手传球来阻止对手进攻,从而获得己方更多的进攻机会,去赢得比赛。在该问题的基础上,在盯人防守的策略种仅需要只要改变本方的阵型和agent的角色,而对方并不了解我方队员的角色变化,这样导致对方盯人出现缺陷。该实施例中针对该问题,采用多角色任务分配策略,随机改变角色的分配方案,实现了双方在对战过程中的相互博弈。
[0049] (4)agent客户端根据接收到的角色分配情况调整对应的agent的站位和队形。
[0050] 尽管结合优选实施方案具体展示和介绍了本发明,但所属领域的技术人员应该明白,在不脱离所附权利要求书所限定的本发明的精神和范围内,在形式上和细节上可以对本发明做出各种变化,均为本发明的保护范围。