首页 / 基于高阶惩戒与记忆容忍度融合机制的多机器人协作方法

基于高阶惩戒与记忆容忍度融合机制的多机器人协作方法实质审查 发明

技术领域

[0001] 本发明涉及机器人协作技术领域,具体而言,尤其涉及一种基于高阶惩戒与记忆容忍度融合机制的多机器人协作方法。

相关背景技术

[0002] 截至目前,绝大多数基于惩戒机制的多智能机器人协作系统控制方法研究之中,都是给予智能机器人策略片面评判,惩戒策略者实施惩戒时仅仅考虑了被惩戒对象在当前回合的策略选择,并未考虑智能体所面临的高风险外部环境以及其历史表现情况,很难与现实情况相符,好比对于同一理性智能体而言,当面对相对恶劣的外部环境时,采取叛变策略以维持自身资产不被大幅度掠夺是应当能够被谅解的。
[0003] 虽然先前已然有部分实验数据能够证实,在演化博弈的过程之中引入惩戒机制能够在一定程度之上促进合作行为的涌现与繁荣。但是,经典传统惩戒机制关注的点只在于一阶搭便车者也即叛变策略者身上,并未探究智能群体内部对于促进以及维持合作稳态的更深层次社会规范以及个体行为规约的意义及作用,也即在智能群体内部会存在有能力惩戒却为将惩戒成本中饱私囊的对叛变策略视而不见的一阶惩戒策略者,将其称之为高阶搭便车角色。从更高层面分析,实现对于高阶搭便车者的有效约束,就是维护促进及维持合作稳态的更深层次社会规范以及个体行为规约,能够从群体共识以及社会规范驱动等底层根源角度更加契合现实情况。
[0004] 有鉴于此,本发明提出一种基于高阶惩戒与记忆容忍度融合机制的多机器人协作方法。

具体实施方式

[0056] 为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
[0057] 需要说明的是,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0058] 参照图1,图1为本发明提供的基于高阶惩戒与记忆容忍度融合机制的多机器人协作方法的一种流程示意图,来说明本发明提供的基于高阶惩戒与记忆容忍度融合机制的多机器人协作方法的一种具体的实施例,包括:
[0059] 提供M个智能机器人,M为整数且M≥2;
[0060] 将M个智能机器人设置于SF无标度网络,SF无标度网络包括N个节点,节点的度服从幂律分布,一个智能机器人占据一个节点,N为整数且N≥M;
[0061] 对M个智能机器人随机赋予策略,策略为合作策略、叛变策略、一阶惩戒策略或二阶惩戒策略;在M个赋予的策略中,合作策略、叛变策略、一阶惩戒策略和二阶惩戒策略占比相同;
[0062] M个智能机器人进行迭代演化,任一蒙特卡洛时间步的迭代演化中,M个智能机器人分别迭代演化,包括:第x个智能机器人选择是否从初始资产中提取资金,将资金投入公共资源池,公共资源池采用PGG公共物品博弈模型,x为整数且1≤x≤M;第x个智能机器人分别与所有相邻的节点上的智能机器人进行博弈;根据第x个智能机器人的策略、所有相邻的节点上的智能机器人的策略、PGG公共物品博弈模型和记忆容忍度机制计算第x个智能机器人的收益;更新第x个智能机器人的策略;
[0063] 当满足迭代结束条件,M个智能机器人具有稳态协作参数,M个智能机器人根据稳态协作参数进行协作。
[0064] 需要说明的是,迭代结束条件可以是满足迭代次数,还可以是在M个赋予的策略中,合作策略、叛变策略、一阶惩戒策略和二阶惩戒策略占比趋于平稳,本实施例对此并不做具体的限制,可根据实际需求进行设置。
[0065] 可以理解的是,本发明提供的基于高阶惩戒与记忆容忍度融合机制的多机器人协作方法,将融合了记忆容忍度机制的高阶惩戒机制应用于PGG公共物品博弈社会困境,克服了在先前研究之中对被惩戒对象策略过于简单片面的评判,以及经典传统惩戒机制中无法涉及的对于促进以及维持合作稳态的更深层次社会规范以及个体行为规约的研究,显著提升了控制方法的鲁棒性,为研究以及实际应用多智能机器人协同合作提供了全新且富有洞察力的视角,并有潜力推动多智能机器人控制领域的进一步发展。
[0066] 在一些可选的实施例中,对M个智能机器人随机赋予策略,包括:
[0067] 对第x个智能机器人赋予合作策略,第x个智能机器人为合作策略者;
[0068] 对第x个智能机器人赋予叛变策略,第x个智能机器人为叛变策略者;
[0069] 对第x个智能机器人赋予一阶惩戒策略,第x个智能机器人为一阶惩戒策略者,一阶惩戒策略者包括贡献一阶成本以惩戒叛变策略者的一阶惩戒策略者或对叛变策略者视而不见的一阶惩戒策略者;
[0070] 对第x个智能机器人赋予二阶惩戒策略,第x个智能机器人为贡献二阶成本以惩戒对叛变策略者视而不见的一阶惩戒策略者的二阶惩戒策略者。
[0071] 可以理解的是,增加一阶惩戒策略和二阶惩戒策略,引入二阶惩戒策略这种高阶惩戒机制在于维护促进及维持合作稳态的更深层次社会规范以及个体行为规约,旨在惩戒那些高阶搭便车者,也即有能力惩戒却为将惩戒成本中饱私囊的对叛变策略视而不见的一阶惩戒策略者,使得仿真建模能从群体共识以及社会规范驱动等底层根源角度更加契合现实世界,从而实现迭代演化后的多智能机器人的协作工作效率与稳定性的提升。
[0072] 在一些可选的实施例中,PGG公共物品博弈模型包括:
[0073] 设置扩大因子,在一个博弈组内,合作策略者、一阶惩戒策略者和二阶惩戒策略者投入公共资源池的资金扩大为扩大因子乘以资金,博弈组包括第x个智能机器人和所有相邻的节点上的智能机器人;
[0074] 将公共资源池内博弈组对应的资金平分给博弈组的所有智能机器人。
[0075] 可以理解的是,在本实施例中扩大因子r满足1<r<G,G为博弈组的智能机器人总数,即投入公共资源池会让初始资产带来更高的收益,但是不足以保证从公共资源池中平分获得的收益一定大于原来的投入。
[0076] 在一些可选的实施例中,根据第x个智能机器人的策略、所有相邻的节点上的智能机器人的策略、PGG公共物品博弈模型和记忆容忍度机制计算第x个智能机器人的收益,包括:
[0077] 若第x个智能机器人为合作策略者,第x个智能机器人的收益按照以下方式计算:
[0078]
[0079] 其中, 为博弈组内合作策略者的收益,r为扩大因子, 为博弈组内合作策略者的数目, 为博弈组内一阶惩戒策略者的数目, 为博弈组内二阶惩戒策略者的数目,G为博弈组的智能机器人总数。
[0080] 在一些可选的实施例中,记忆容忍度机制包括:
[0081] 预设容忍度和预设蒙特卡洛时间步长,判断在预设蒙特卡洛时间步长内,1减叛变策略者采取叛变策略的次数除以预设蒙特卡洛时间步长是否小于容忍度;若小于容忍度,贡献一阶成本以惩戒叛变策略者的一阶惩戒策略者贡献一阶成本惩戒叛变策略者;若大于等于容忍度,贡献一阶成本以惩戒叛变策略者的一阶惩戒策略者原谅叛变策略者。
[0082] 可以理解的是,演化博弈论中的记忆机制就是记录智能群体内部每一个体以往与其他对手博弈交互时所采取策略的历史信息,其中应用相对广泛的是有限步长的记忆机制,记忆机制的引入为理解智能群体动态与评估某一个体策略行为提供了更加客观全面的参考。
[0083] 故在一轮博弈交互完成后,进入惩戒阶段,贡献一阶成本以惩戒叛变策略者的一阶惩戒策略者不会贸然选择对群体内部叛变策略者执行惩戒,而是会结合其在预设蒙特卡洛时间步长的历史内的博弈交互时的策略行为,不妨记在预设蒙特卡洛时间步长的记忆历史内其采取的叛变策略次数为LD,若满足下述判断条件,则贡献一阶成本以惩戒叛变策略者的一阶惩戒策略者就会对其执行惩戒,反之贡献一阶成本以惩戒叛变策略者的一阶惩戒策略者就会结合当轮博弈相对恶劣的外部环境,认定其采取叛变策略以维持自身资产不被大幅度掠夺是能够被谅解,故而不会对其执行惩戒。
[0084] 判断条件按照以下方式计算:
[0085]
[0086] 其中,L为预设蒙特卡洛时间步长,LD为在预设蒙特卡洛时间步长内,叛变策略者采取叛变策略的次数, 为容忍度。
[0087] 基于此,可以将叛变策略者分为应当被给予惩戒的叛变策略者和被认定为主动自发规避风险从而被谅解的叛变策略者,然而,无论叛变策略者是否被惩戒,贡献一阶成本以惩戒叛变策略者的一阶惩戒策略者都需要付出相应惩戒成本。
[0088] 在一些可选的实施例中,根据第x个智能机器人的策略、所有相邻的节点上的智能机器人的策略、PGG公共物品博弈模型和记忆容忍度机制计算第x个智能机器人的收益,包括:
[0089] 若第x个智能机器人为叛变策略者,第x个智能机器人的收益按照以下方式计算:
[0090]
[0091] 其中, 为博弈组内叛变策略者的收益,r为扩大因子, 为博弈组内合作策略者的数目, 为博弈组内一阶惩戒策略者的数目, 为博弈组内二阶惩戒策略者的数目,G为博弈组的智能机器人总数,D为叛变策略者,D1为被惩戒的叛变策略者,β为贡献一阶成本以惩戒叛变策略者的一阶惩戒策略者对D1的惩戒率,D2为被原谅的叛变策略者。
[0092] 在一些可选的实施例中,根据第x个智能机器人的策略、所有相邻的节点上的智能机器人的策略、PGG公共物品博弈模型和记忆容忍度机制计算第x个智能机器人的收益,包括:
[0093] 若第x个智能机器人为贡献一阶成本以惩戒叛变策略者的一阶惩戒策略者,第x个智能机器人的收益按照以下方式计算:
[0094]
[0095] 其中,r为扩大因子, 为博弈组内合作策略者的数目, 为博弈组内一阶惩戒策略者的数目, 为博弈组内二阶惩戒策略者的数目,G为博弈组的智能机器人总数,γ为贡献一阶成本以惩戒叛变策略者的一阶惩戒策略者对叛变策略者付出的成本比率, 为贡献一阶成本以惩戒叛变策略者的一阶惩戒策略者的收益;
[0096] 若第x个智能机器人为对叛变策略者视而不见的一阶惩戒策略者,第x个智能机器人的收益按照以下方式计算:
[0097]
[0098] 其中,ε为二阶惩戒策略者对对叛变策略者视而不见的一阶惩戒策略者的惩戒率,为对叛变策略者视而不见的一阶惩戒策略者的收益。
[0099] 在一些可选的实施例中,根据第x个智能机器人的策略、所有相邻的节点上的智能机器人的策略、PGG公共物品博弈模型和记忆容忍度机制计算第x个智能机器人的收益,包括:
[0100] 若第x个智能机器人为二阶惩戒策略者,第x个智能机器人的收益按照以下方式计算:
[0101]
[0102] 其中,r为扩大因子, 为博弈组内合作策略者的数目, 为博弈组内一阶惩戒策略者的数目, 为博弈组内二阶惩戒策略者的数目,G为博弈组的智能机器人总数,θ为二阶惩戒策略者对对叛变策略者视而不见的一阶惩戒策略者付出的成本比率, 为二阶惩戒策略者的收益。
[0103] 在一些可选的实施例中,更新第x个智能机器人的策略,包括:
[0104] 第x个智能机器人以0.5的概率采取费米策略更新方程,以0.5的概率采取共享公平选择策略更新方程;
[0105] 费米策略更新方程按照以下方式计算:
[0106]
[0107] 其中,px为第x个智能机器人在当前蒙特卡洛时间步的收益,x为整数且1≤x≤G,py为第y个智能机器人在当前蒙特卡洛时间步的收益,y为整数且1≤y≤G,K为噪声因子;
[0108] 共享公平选择策略更新方程按照以下方式计算:
[0109]
[0110] 其中,r为扩大因子,kx为第x个智能机器人的度,ky为第y个智能机器人的度。
[0111] 可以理解的是,噪声因子K的导数为行为策略选择强度 按照以下方式计算:行为策略选择强度 越大,表示在噪声环境下做出理性决策的能力越强,反之当时,智能机器人将趋向进行随机策略选择。
[0112] 在一些可选的实施例中,在M个智能机器人进行迭代演化之前,还包括:
[0113] 初始化噪声因子、贡献一阶成本以惩戒叛变策略者的一阶惩戒策略者对被惩戒的叛变策略者的惩戒率、贡献一阶成本以惩戒叛变策略者的一阶惩戒策略者对叛变策略者付出的成本比率、二阶惩戒策略者对对叛变策略者视而不见的一阶惩戒策略者的惩戒率和二阶惩戒策略者对对叛变策略者视而不见的一阶惩戒策略者付出的成本比率。
[0114] 可以理解的是,将迭代演化过程中记录的系统平均合作水平持久化存储至文件内,通过分析文件内系统平均合作水平变化趋势,能够清晰发现,本发明显著促进了多智能机器人协作系统中合作行为的涌现以及维持,有助于大幅度提高多智能机器人协作任务的执行效率。
[0115] 在一些可选的实施例中,将本发明方法应用于智能交通领域的无人车辆自主编队,包括:
[0116] 一群自动驾驶车辆以协调一致的方式在道路上行驶,形成一个高效、安全的行驶编队。这种编队行驶方式不仅能够提高道路利用率,降低能耗,还能增加行车安全性和乘车舒适度,在实现这一目标的过程中,车辆需要实时共享数据、协调动作,以保持编队的稳定和优化整体行驶效率,车辆需要能够识别并响应前车的行为变化,以及环境中的突发事件,如前方车辆紧急制动、变道等。
[0117] 高阶惩戒针对的是那些观察到其他车辆违规(如突然变道,不合理减速等)但未采取措施(如报告违规行为,调整行驶策略以避免事故等)的车辆,当车辆发现违规行为但未按期望反应时,系统根据其过往对违规行为的反应记录执行惩戒,比如在车队中降低其优先级或减少其决策权重。系统对每辆车的历史行为进行记录和评估,包括它们对违规行为的反应和在编队中的协作性。当决定是否对某车辆施加高阶惩戒时,系统会考虑该车辆历史上的表现。如果车辆通常积极响应并参与维护编队秩序,偶尔的非反应行为可能会得到一定的容忍。系统根据车辆过往的整体表现调整对其单次行为的容忍度,这意味着,即使车辆某次未能对违规行为作出反应,但如果其历史记录显示其为合作性成员,系统可能仅发出警告而不是直接惩戒。容忍度的调整基于车辆的整体贡献和过去的行为模式,以确保偶尔的疏漏不会导致过度的惩罚。所有车辆定期接收关于自身在编队中表现的反馈,包括高阶惩戒决策和容忍度调整情况。这种反馈机制鼓励车辆学习并优化其行为,以提高编队的整体性能,系统不断监控编队的运行状态和各车辆的表现,根据实时数据动态调整高阶惩戒策略和容忍度设置,以适应复杂多变的行驶环境和内部协作需求。
[0118] 在城市交通管理领域,通过实施基于高阶惩戒机制与记忆容忍度融合模型的自主车辆编队系统,可以有效提升城市道路的运行效率和安全性。这种系统不仅能够促进车辆间的紧密协作,减少交通拥堵,还能通过智能化的惩戒和容忍度调整,鼓励每个车辆的责任心和积极性,从而建立一个更加智能、高效和安全的城市交通环境。此外,该方法的应用还能够促进环境友好型交通系统的发展,通过减少交通拥堵和车辆排放,为实现可持续城市发展目标提供支持。随着自主驾驶技术的不断进步和智能交通管理系统的日益完善,基于高阶惩戒机制与记忆容忍度融合模型的自主车辆编队技术将在未来城市交通管理中扮演越来越重要的角色,为城市居民提供更加舒适、便捷的出行体验。
[0119] 在一些可选的实施例中,将本发明方法应用于智能港口物流领域,包括:
[0120] 在智能港口物流领域,一系列智能机器人被部署来执行装卸货物、搬运、分类和存储等任务。这些机器人需要能够自主协作,同时响应环境变化和任务需求的实时调整。在这个过程中,确保每个智能机器人都能按照预定的规则和标准操作,对于保持整个系统的高效运转至关重要。当某个智能机器人在任务执行中发现其他智能机器人的不当行为(例如,错误搬运货物或影响作业效率)而未采取措施(如报告或直接介入纠正)时,该智能机器人也将面临被高阶惩戒,这种惩戒可能包括降低其在未来任务中的优先级或限制其参与某些高要求任务。系统会持续跟踪和记录每个机器人的行为历史,包括它们对于协作规则的遵守情况以及对其他机器人违规行为的应对,基于这些历史记忆,系统能够为每个智能机器人设定一个动态的容忍度阈值。对于那些历史上表现良好、偶尔未能及时响应其他机器人违规行为的智能机器人,系统将展示出一定程度上的容忍,避免立即施加严厉的惩戒。系统通过分析智能机器人的行为表现和协作效率,提供实时反馈,指导机器人调整其行为模式和工作策略,随着时间的推移,系统利用累积的数据不断优化记忆容忍度和高阶惩戒机制,以确保智能机器人之间能够更加高效和和谐地协作,同时提升整体的作业质量和速度。
[0121] 在智能港口物流领域中,引入基于高阶惩戒机制与记忆容忍度融合模型的智能机器人协作系统,不仅可以提升港口搬运作业的效率和安全性,还能通过持续优化和自我调整机制,实现对复杂任务和突发情况的高效响应。这种系统的实施将有助于智能港口向更高水平的自动化和智能化转型,同时为应对全球贸易的快速增长和日益复杂的物流需求提供强有力的支持。通过不断优化的高阶惩戒与记忆容忍度机制,智能港口可以实现更高的作业效率,更低的运营成本,以及更好的环境适应性,最终推动整个物流行业的高质量可持续发展。
[0122] 在一些可选的实施例中,将本发明方法应用于智能医疗领域,包括:
[0123] 医院内的医疗服务智能机器人根据任务类型和紧急程度自动编队,如药品配送编队、餐饮服务编队等。通过中央控制系统智能分配任务,统筹考虑智能机器人的位置、任务优先级和各类智能机器人的专长,实现高效的任务分配。当智能机器人观察到同伴在执行任务过程中的不当行为(如错误配送药品或延迟完成任务)而未进行纠正或报告时,该智能机器人也将受到高阶惩戒,如任务优先级的降低或在一定时间内限制参与某些任务。系统记录每个智能机器人的行为表现和协作历史,基于长期表现调整对单次失误的容忍度,对于那些通常表现良好的医疗智能机器人,采取更为宽容的处理方式,促进积极改进而不是直接惩罚。医疗物流系统提供实时反馈给每个医疗智能机器人,包括任务完成情况、协作效率以及收到的惩戒或奖励信息,激励医疗智能机器人自我优化和改进协作行为。当然也可通过机器学习算法分析任务执行数据和机器人间的互动,持续优化编队协作策略和行为模型,提升整体物流服务的效率和质量。
[0124] 在智能医疗服务领域,通过实施基于高阶惩戒机制与记忆及容忍度融合模型的智能机器人协作系统,可以大大提高医院内物流和服务的效率和准确性,这种系统不仅有助于减轻医护人员的工作负担,提高病患满意度,还能通过优化医疗智能机器人之间的协作,减少错误和延误,确保医院日常运营的流畅性。高阶惩戒与记忆容忍度模型的融合为医疗智能机器人提供了一个持续学习和自我优化的环境,使其能够在复杂的医疗环境中更加灵活和有效地工作。随着技术的进步和智能化程度的提高,未来的医院将能够实现更加智能、高效和人性化的服务,为患者提供更好的医疗体验。
[0125] 上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
[0126] 在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0127] 最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页 第1页 第2页 第3页
相关技术
容忍融合相关技术
惩戒记忆相关技术
葛新发明人的其他相关专利技术