首页 / 基于持续策略重振的离线到在线可泛化强化学习方法和装置

基于持续策略重振的离线到在线可泛化强化学习方法和装置实质审查 发明

技术领域

[0001] 本发明涉及智能体控制技术领域,尤其是指一种应用于多关节机器人的控制方法和系统。具体来说,本发明提供了一种结合离线训练与在线调整的强化学习控制策略,旨在解决多关节机器人在实际应用中遇到的动态环境适应性问题和策略迁移性问题。

相关背景技术

[0002] 多关节机器人在执行复杂任务时,需要精确的控制策略来确保动作的准确性和安全性。传统的控制方法如PID控制、模型预测控制(MPC)等,依赖于准确的模型和环境参数。但在动态变化的环境中,这些方法往往难以适应。因此,强化学习成为了一种有前景的解决方案,它允许多关节机器人通过与环境的交互来学习最优策略。尽管强化学习在理论上具有优势,但在实际应用中,往往有着较低的样本效率和较差的适应性。因此,从离线到在线强化学习系统(Offline‑to‑online Reinforcement Learning)扮演着至关重要的角色。这类系统旨在通过结合离线训练和在线调整,提高智能体在实际环境中的适应性和决策效率。
[0003] 从离线到在线强化学习的核心挑战之一是如何平衡对离线训练模型的利用以及对初始化模型的在线调优。现有的从离线到在线强化学习(O2ORL)方法主要通过启发式的方法控制在线强化学习更新过程中策略的保守性来解决特定的离线到在线强化学习问题。这类方法在离线数据集的质量较高时,通过渐进的策略约束方法如AWAC、TD3BC‑FT和PROTO等,成功处理了策略保守性和探索性之间平衡的问题。然而,这些方法在面对低质量和低数据覆盖率的离线数据集时,仍然存在数据分布泛化能力不足,收敛到次优策略或者策略性能在在线学习时存在较大的性能下降。此外,在此前的O2ORL方法当中,如Off2On等方法采用估计在线策略访问分布,从离线数据集当中召回适用离线样本扩充在线数据回放池,旨在使得智能体能够更加平稳地适应在线数据分布,减少数据分布漂移引入的性能损失。
[0004] 从离线到在线强化学习当中另一个核心的挑战是如何应对初始偏差(Primacy Bias)。初始偏差表现为在深度强化学习系统当中由于策略模型训练前期在数据分布上进行了过度训练,策略过度拟合到了特定的数据分布上,随着之后策略访问的数据分布更新,前期的过度利用造成了策略对新的数据分布的适应能力下降的问题。在这方面,诸如JSRL和OOO等方法通过多个策略的联合学习来摆脱离线部分的过度拟合导致的策略适应能力下降,PEX引入了策略混合来动态混合离线策略和在线学习策略,自动实现双重策略的混合。
[0005] 上述这些方法通常仅专注于实现从离线到在线强化学习当中策略学习的稳定性或者效率,尽管在从离线到在线强化学习系统当中取得了一定的进展,但仍然存在一些局限性。例如,Cal‑QL和SO2等方法在离线数据质量较高时的策略从离线到在线的迁移取得了一定的进展,但它们主要集中于利用离线策略的优势,而没有综合考虑离线预训练策略模型的负面影响。在从离线到在线的强化学习系统中,平衡策略保守性和探索性是核心问题,这就要求不仅需要利用离线训练策略的优势,而且需要尽量避免过度的离线训练带给在线学习带来的低效率策略更新。此外,现有的方法在模型更新时并不会考虑决策知识的突然遗忘问题,这在实际的应用中可能造成过于激进的策略更新和灾难性遗忘。
[0006] 综上所述,现有技术在离线到在线强化学习的应用中,仍存在策略泛化能力不足、对初始偏差的适应性差以及在策略更新时决策知识丢失等问题。将这种从离线到在线的强化学习方法应用在多关节机器人的控制问题上,会导致当在线的训练测试环境同多关节机器人离线训练环境在传感器的输入和环境当中动力学系数存在差异时,控制策略对在线的机器人控制场景的学习和适应能力差,可扩展性不强,在策略更新时出现离线习得技能的灾难性遗忘。这些问题限制了强化学习在实际应用中的性能和可靠性。

具体实施方式

[0031] 下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
[0032] 如前所述,在现实生活中,存在很多多关节机器人控制场景涉及到从离线到在线的可泛化强化学习技术,特别是在智能家政机器人、工业自动化和智能医疗辅助等领域。在这些应用领域中,多关节机器人需要在真实世界的动态环境中做出精准的决策,并能够根据实时环境的反馈进行微调,以确保提供安全高效的服务。
[0033] 在智能家政机器人领域,这些机器人经常面临需要在离线数据集分布之外的真实动态开放场景中进行操作的挑战。例如,它们可能需要在家庭环境中自主导航、清洁、搬运物品等,这些任务要求机器人能够处理突发任务和未见目标,而这些情况可能在离线数据集中未曾出现。因此,机器人必须能够在真实环境中快速学习和适应,以保证操作的安全性和效率。工业自动化领域中的多关节机器人同样需要处理小样本决策问题,并且必须能够将窄分布的离线强化学习数据泛化到实际生产中,以提高生产效率和减少误差。这些机器人在生产线上执行精确的组装、搬运和焊接等任务,要求它们能够快速适应生产线上的变化,如新的零件设计或工艺流程的调整。在智能医疗辅助领域,多关节机器人被应用于辅助完成外科手术中精度要求高、作业条件复杂、环境动态变化的环节。这些手术机器人需要在经验数据的帮助下表现出稳定的性能,并能够迅速响应手术过程中可能出现的各种情况,以确保手术的安全和成功。
[0034] 现有的从离线到在线强化学习方法在面对这些现实应用场景时存在一些显著的局限性。许多方法基于固定策略约束和静态环境的假设,这在不断变化的现实世界中是不现实的。此外,现有的离线数据集往往质量较低,覆盖的数据分布范围有限,导致多关节机器人在遇到新情况时难以做出准确决策。例如,家政机器人在真实的家庭环境中可能会遇到未曾在离线数据中见过的环境布局和突发情况,这时依赖离线数据集的策略可能无法提供有效的指导。此外,现有方法在处理离线到在线强化学习时通常假设可以访问离线数据集,这在隐私保护和数据安全性方面存在隐患。例如,在医疗辅助机器系统中,由于隐私保护的需要,经过离线训练后部署到医疗机构的机器人可能无法再大量访问原始的医疗数据。再者,现有方法在平衡多关节机器人的稳定微调和在线学习效率方面仍面临挑战。在工业机器人的应用中,追求稳定的性能可能导致在线策略过度依赖过去的经验,而过度追求学习效率又可能导致策略不稳定,出现灾难性遗忘。
[0035] 尽管现有从离线到在线的强化学习方法取得了一定进展,但在现实世界动态环境中的泛化能力和适应性方面仍需进一步提升。为了更好地应对现实世界的挑战,迫切需要开发出更加灵活、能够快速适应环境和任务需求变化的从离线到在线强化学习策略。这些策略应当能够在不依赖大量离线数据的情况下,通过在线学习快速适应新的操作条件和任务要求,从而提高多关节机器人在实际应用中的性能和可靠性。
[0036] 为了解决上述问题,本发明提出了一种基于持续策略重振的从离线到在线可泛化强化学习方法,专门针对多关节机器人在动态在线环境中的控制问题,旨在提高机器人控制系统的稳定性和泛化能力。本方法通过策略重振激活策略网络的学习能力,并构建历史策略池存储以往知识,引入了策略竞争机制完成自适应的策略约束,从而实现对以往经验的应用和在泛化到新的数据分布上的自主调节。这种方法特别适用于离线环境中的行为策略访问分布同在线样本分布存在较大差别的环境,如智能家居机器人需要应对同过往服务经验存在区别的在线样本的策略学习。本方法不仅强调了对初始偏差的有效解决方案,还提升了在复杂环境中利用历史经验对当前环境做出的决策质量。此外,本发明通过分离离线数据和离线预训练策略解除了对离线数据访问的需求,从而提高了从离线到在线强化学习系统的整体隐私安全性。
[0037] 具体地,该方法可以用于许多现实环境,诸如工业自动化、智能家居管理紧和急救援行动等领域。在工业自动化中,可以利用该方法训练机器人去调节适应不同生产线的细微参数变化,追求生产线的稳定,并提高生成效率和质量。在智能家居管理中,该方法有助于优化家居设备的适应工作,根据实际的人居环境调整自身决策,以满足居住者的不同需求。在紧急救援行动中,该方法能训练智能体通过短期真实环境的适应,充分利用背景知识,更快投入救灾响应中。例如,在救灾响应的应用场景中,本方法能够训练机器人或智能系统根据实际的救灾现场环境和训练的背景知识,通过少量样本的更新去适应实际多变的环境。机器人可以通过对不同灾害场景的具体数据分布来学习并理解决策的执行需求和实际的执行效果,从而提供更加高效和稳定的服务。例如,在地震搜救场景下,搜救机器人可以利用本方法来学习如何更好地稳定高效地实现从预训练模型得到终端策略。以下步骤以机器人救灾响应为例,但要注意的是,本方法并不仅限于机器人救灾响应的任务场景,也可以使用其他任意无离线数据访问条件下从离线到在线可泛化强化学习问题。
[0038] 如图1所示,图中是本申请实施例中所述的从离线到在线可泛化强化学习方法的流程图。如图所示,所述包括步骤S101至步骤S105,方法的核心在于三个主要部分:首先是持续策略重振,旨在周期性地重新激活当前策略网络的学习能力,确保在线训练阶段智能体能够快速适应到新的数据分布上。其次是自适应的策略约束,通过约束策略保持在实际数据分布中被的行为策略来防止目标策略同当前数据分布存在较大不匹配。最后是策略混合,给出了针对历史策略的混合方法,利用以往知识更好辅助当前样本分布上的策略选择。整个过程设计从持续策略重振恢复策略网络学习能力到利用经验回放池约束在线策略优化,再到针对历史策略池的策略混合方法,在部署时可以选择适当的历史策略以实现对应数据分布上的适应性。
[0039] S101预构建离线策略,利用已存在的离线序贯决策数据集和基于“执行者‑评论家”的离线强化学习算法作为组合,训练得到离线强化学习策略。具体来说,将多关节机器人控制问题建模成马尔可夫序贯决策模型。我们构建的离线数据集当中包括“状态‑动作‑奖励”(s,a,r)。在多关节机器人控制问题中,状态空间(state space)可以由机器人的所有可能姿势(positions)和关节角度(joint angles)组成。每个状态代表了机器人在某一时刻的配置。由于机器人的关节数量和每个关节的运动范围不同,特定的机器人其状态空间维度往往存在差异。状态转移概率(state transition)描述了在给定当前状态和所采取的动作下,机器人将转移到哪个新状态的概率。在多关节机器人控制中,这些概率通常是基于物理动力学和环境交互来建模的。由于机器人的运动受到物理约束和可能的外部扰动,状态转移可能不是完全确定的,因此需要使用概率模型来描述。动作空间(action space)包含了所有可能的控制输入,例如每个关节的速度或力矩指令。在多关节机器人控制中,动作空间通常是连续的,因为机器人的每个关节可以有无限多个可能的速度或力矩值。奖励函数(reward function)为每个状态或状态‑动作对分配一个数值,表示在该状态下采取某个动作的好坏。在多关节机器人控制中,奖励通常与任务完成度、能耗、时间效率等因素相关。通过收集行为策略或者专家策略在环境当中执行收集到的状态‑动作‑奖励构成的序列,我们得到了离线强化学习的数据集。在离线强化学习过程中,我们交替优化价值网络和策略网络来完成离线策略的预训练,以充分利用离线数据集当中的样本信息产生较好的初始化策略用于之后的在线学习。离线强化学习中的价值网络Q优化方程式如下:
[0040]′
[0041] 其中,表示数学期望,μ代表了价值网络Q的网络参数,(s,a,r,s)是来自于离线′数据集D当中的样本(状态‑动作‑奖赏‑下一状态),y(s ,r)是TD学习的回归目标,Qμ(s,a)是价值网络对当前状态‑动作的价值估计。策略网络π的优化方程式如下:
[0042]
[0043] 其中,E表示数学期望,θ代表策略网络π的参数,(s,a)是来离线数据集D当中的样本当中的状态和动作,λ是超参数用来平衡策略提升和动作克隆的权重,πθ(s)是在策略网络对当前状态上的动作预测。
[0044] S102持续策略重振机制,重新激活策略网络学习能力。在这一步中,我们构建了一个策略重振模块来有效实现策略网络学习能力的激活。持续策略重振模块包括了重置策略和初始化新的优化策略两个关键步骤。在重置策略步骤,会将原始的输入策略函数参数进行存储,同时将策略函数对应的网络最后N层的参数进行随机丢弃,使得策略能够丢弃对离线行为策略集对应的样本分布和行为策略进行有害的过拟合。N的取值为超参数,受到网络结构和任务性影响,在我们的实验中根据实证经验通常取3。为了使得策略函数获得相对稳定的初始性能,我们利用在线的经验回放池对策略函数进行初始化,优化如下公式:
[0045]
[0046] 其中,E表示数学期望,(s,a)是来在线经验回放池B当中的样本当中的状态和动作,价值函数参数在策略重振模块中保持固定。
[0047] S103利用自适应的策略约束模块,实现稳定的在线策略更新。这一步涉及在线策略学习,利用了策略重振机制带来的学习能力恢复,得以实现高效的策略学习。在线策略学习过程中除了要求策略能够最大化奖赏,也对策略做了自适应的策略约束,最小化策略的访问数据分布在分布间散度的距离度量下同在线经验回放池的样本中行为策略的访问数据分布的差异,实现稳定的策略提升。在线策略学习过程中,我们对价值函数和策略函数交替进行优化。对价值函数的优化目标如下:
[0048]
[0049] 其中,表示数学期望,μ代表了价值网络Q的网络参数,(s,a,r,s′)是来自于在线经验回放池当中的样本,其余含义同离线优化目标当中保持一致。对策略函数的优化目标如下:
[0050]
[0051] 其中各项含义同策略重振模块中策略初始化目标保持一致。
[0052] S104构建历史策略集合,对历史策略进行策略混合。在持续策略重振机制的基础上我们通过对历史策略的重置恢复了在线学习策略的学习能力,在实际的策略执行阶段为了避免在重置过程当中发生灾难性遗忘,造成来自历史数据分布的决策知识丢失,通过持久化的策略池实现经验知识的存储。对于收集到的历史策略,通过策略混合的方式选择其中最能适应当前数据分布的动作进行执行,每个策略提出动作被选择的概率计算如下:
[0053]★
[0054] 其中P (i)是选择第i个策略提出动作的概率,k是历史经验策略的总数,是价值函数对第j个策略提出动作的价值预测,η是温度系数。
[0055] S105结合持续策略重振和自适应策略正则化约束进行策略的实际部署到实际应用中。在此阶段,根据前一步的多关节机器人控制策略的策略集合混合,在传感器得到的状态感知输送到策略集合后,所有的控制策略均会预测可能的机器人关节角度、力矩的输出动作,构成了待选动作集合。根据价值函数学习对这些动作的预测值构建的玻尔兹曼分布,我们能够选择适应当前分布的动作在实际环境当中执行。机器人执行动作后环境的样本被加入到了经验回放池中,进一步改变了经验回放池中的行为策略样本分布,提升了自适应的策略约束模块里的目标策略。被优化的策略通过策略重振不断加入到历史策略集合当中,如上步骤S102‑S105形成了一个相互促进的循环。
[0056] 通过执行这一系列步骤,该方法能够实现快速且有效地适应于新的数据样本分布,并在不断变化的样本分布下的环境中优化整体的学习效率和策略性能的稳定程度。本流程的执行涉及到复杂的强化学习策略交互和学习的过程,需要精细的策略设计和适应性考虑,确保在多变的环境中达到最佳的学习性能。上述的步骤描述提供了一个详细的实施框架,为深入理解并应用这一从离线到在线可泛化强化学习方法奠定了坚实的基础。
[0057] 参阅图2,其显示为本申请实施例中持续策略重振执行示意图。我们考虑一个机器人救灾响应系统的机器人从离线到在线交互场景,系统当中包括了一个在离线日志数据集上完成了搜救任务训练的机器人,它需要被调整到适合在某特定场景下与环境进行交互以实施搜救作业。以下是本发明在机器人救灾响应系统中的应用全流程情况描述。
[0058] 在灾害实际发生以前,机器人救灾响应系统会预先收集响应灾难救援任务的模拟数据集,如在实验室内的模拟环境或计算机构建的虚拟场景中的模拟搜救轨迹,帮助机器人覆盖各种可能越到的地形和障碍场景。系统分析这些模拟数据集,加上少量真实搜救中的任务数据,建立基本的离线数据集,为后续的训练优化打下基础。在离线强化学习阶段,机器人会在离线数据集上优化搜救策略,在不远离离线策略样本中的实例策略太远的同时,提升搜救策略的质量。
[0059] 随着离线训练的完成,系统进入了“持续策略重振”阶段。在这一阶段,机器人会被部署在真实的环境当中进行少样的样本采集,通过重置部分过拟合到离线数据集上的模型样本权重恢复策略模型的学习能力。这样的环节会持续地周期进行下去,以确认机器人的完美学习能力。例如,将机器人部署在实际的户外条件进行少样的探寻和搜索后,系统通过数据分析发现真实的环境因为降水导致摩擦力与实验室当中的模拟情况存在一定差别,此时机器人的策略网络在实验室环境中学习得到的知识会阻碍在当前作业环境里执行,因此对机器人的策略进行部分回退,消除了机器人关于离线环境分布的部分记忆。而每经过一段时间的作业完成数据采集和在线的策略优化之后,就再次重复对机器人的策略参数的重置,重新激发对新的样本分布的学习适应能力。系统根据真实的在线环境重新调整机器人到最佳的学习状态应对在线调整。
[0060] 随后是策略的更新阶段。在这一阶段,机器人通过自适应的策略约束保持当前的优化策略在不完全偏离通过验证的行为策略的基础上进行策略的优化,最终选择一个安全的提升方向。在这里,“行为策略”指的是机器人在真实环境里实际采取的行为模式。系统会动态选择最适合当前策略参考的策略约束目标,以避免机器人更新过于激进而出现严重的性能下降甚至安全隐患。除此之外,这一部分中还囊括了历史的策略集合存储的此前的历史策略,通过策略混合避免了在策略重振过程中发生的灾难性遗忘。实际进行策略执行时,系统会去问询所有保留的机器人策略,通过评估选择最好的动作执行。通过这一全流程,机器人救灾响应系统能够在从离线到在线的部署和学习过程中实现稳定和高效的策略调整和安全确认,显著提升了搜救机器人的可用性和安全性。
[0061] 参阅图3,其显示为本申请实施例提供的一种用于从离线到在线可泛化强化学习执行装置,如图所示,该装置包括三个部分:
[0062] 持续策略重振模块:这一部分致力于持续地保持实现策略重振,策略重振后得到的在线策略具有完整的学习能力和稳定的初始性能,能够实现在线策略在在线环境中的稳定提升。策略重振模块的输入为当前多关节机器人的控制函数神经网络,包含一个基本的计时出发功能,在机器人运行一定回合数时自动触发。输入函数的参数将通过总线或者通信手段传输到策略混合模块中的高速存储单元中进行存储。新初始化的控制策略在访问策略约束模块当中的样本池完成初始化后回到机器人正常的任务执行流程。此模块是系统消除初始偏差的重要基础,它为系统提供了一个坚实的学习基础,能够确保策略网络能够在后续的步骤中了解和适应最新的在线样本分布。
[0063] S302策略约束模块:该模块负责收集和整理在线策略访问的样本池,通过自适应的策略约束来平衡策略保守性和学习效率。多关节机器人在任务场景当中通过传感器获取环境信息,调用决策池进行联合决策输出各关节的控制动作,得到来自环境的反馈和状态更新,这些信息被压缩为样本保存在策略约束模块的样本池当中。策略约束模块通过实时更新机器人最近的行为策略所访问的运动轨迹获取样本分布信息,并利用这些信息来约束控制策略学习,这样在线策略就能够在既不偏离此前学习到的良好初始策略的前提下进行有效的策略提升。这一步骤是确保策略能够准确把握并适应在线样本分布的关键。
[0064] S303策略混合模块:在策略混合模块中,维持了包含历史策略的集合,多关节机器人系统使用从持续策略重振中固定下来的原始策略,在和环境交互过程中进行各个关节的角度、力矩构成的联合动作提案。这些控制函数定义的关节控制策略包含了历史数据分布当中的知识,策略混合器通过对提案关节执行动作的价值得到的玻尔兹曼分布进行采样,对历史策略进行了有效混合应对各种数据分布。策略混合模块支持控制策略超越网络本身的容量限制,将历史知识信息存储在历史策略集合当中,在安全的情况下排除历史样本分布对当前学习的效率影响。
[0065] 显然,本领域的技术人员应该明白,上述的本发明实施例都基于深度强化学习和策略,聚焦从离线到在线可泛化方法各步骤,或基于深度强化学习学习和策略,聚焦多关节机器人的从离线到在线可泛化装置各模块可以用通用的计算装置来实现,它们可以集中在单个的计算装备上,或者以分布式框架部署在多个计算机装置所组成的网络上。可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处所示出或描述的顺序执行各步骤,或者将它们分别制作成各个集成电路模块,或者将其中多个模块或步骤制作成单个集成电路模块来实现。这样,本发明实施例不限制于任何特定的硬件和软件结合。

当前第1页 第1页 第2页 第3页