一种基于自监督强化学习的即时奖励学习方法_专利转让申请注册交易-盲点网

一种基于自监督强化学习的即时奖励学习方法有效专利发明

技术领域

[0001] 本发明属于人工智能中的强化学习领域，尤其涉及一种基于自监督强化学习的即时奖励学习方法。

具体实施方式

[0046] 这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。

[0047] 在本申请使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

[0048] 应当理解，尽管在本申请可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本申请范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

[0049] 图1为本发明中一种基于自监督强化学习的即时奖励学习方法的流程示意图（例如在Atari游戏的Pong场景中），如图1所示，该方法具体包括以下步骤：

[0050] S1：获取高维图像数据集，所述高维图像数据集中包括若干带有终止状态成功或者失败标识的图像，但是可以不含有传统强化学习的即时奖励标注；

[0051] 具体地，所获取的高维图像数据为Atari游戏的Pong场景中的状态视频的视频帧，维度为210*160*3。需要说明的是，所获取的高维图像数据包含Atari游戏的Pong场景中的终止态高维图像和非终止态高维图像，每个终止态高维图像均需带有终止状态成功或者失败的标识，该标识表示游戏的成功或者失败，可以通过Pong游戏中的终止态信息标识判断。

[0052] S2：利用所述高维图像数据集训练自监督学习模型，得到对应的低维特征；

[0053] 自监督学习模型是利用Pong游戏中的自身状态（视频图像，维度为（210*160*3））作为自监督信息，以此学习视频状态有效的低维特征信息。编码器和解码器使用深度学习模型。编码器是利用二维卷积网络实现，把图像的二维特征转换为Tokens的嵌入维度（512）。编码器是利用反卷积网络实现，把Tokens转化为原来的图像信息（210*160*3）。该步骤具体包括如下子步骤：

[0054] S21：将所述高维图像数据集中的图像进行预处理；

[0055] 具体地，Pong环境提供的状态默认为Box(210, 160, 3),也就是3通道的彩色图。由于每一个像素点值的大小为0 255，为了便于深度神经网络的训练（加快训练速度、防止~
梯度消失或者爆炸、改善优化过程等），需要进行归一化处理，通过归一化处理使其便于深度网络模型训练。

[0056] S22：将预处理后的高维图像数据输入编码器，得到相应的低维信息特征；

[0057] 具体地，预处理数据信息是Pong游戏场景中的状态视频信息，然后获取视频中的每一帧（维度为，其中h=210，w=160）作为输入。编码器E：，利用二维卷积网络实现，把图像的二维特征转换为Tokens的嵌入维度（512），得到相应的低维信息特征Z: 。其中，代表Token的集合，K表示深度网络模型输出需要的token数量，d表示每一个Token的表示向量。

[0058] S23：利用所述低维特征信息与大小为N的词表对比，通过欧氏距离计算最近的嵌入向量索引；

[0059] 具体地，词表代表Tokens的集合，为Tokens的总数，代表Tokens的表达范围。通过编码器输出的低维特征张量和每一个Token的张量维度张量进行欧式距离比较，获得输出tokens: ，输出tokens作为最近的嵌入向量索引，其中，做比较时，词表中的最后一维的维度和所述低维信息特征的最后一维的维度大小一致，是词表对应的维嵌入表；找出和编码器输出
的低维特征张量欧式距离最小的Token。

[0060] S24：基于所述最近的嵌入向量索引，利用解码器得到重构图像数据；

[0061] 具体地，编码器D：利用反卷积网络实现，把Tokens转化为原来的图像信息（210*160*3）。

[0062] S25：基于高维图像数据和重构图像之间的重构损失，进行神经网络模型的训练，并在模型训练完成后得到低维特征；

[0063] 具体地，使用卷积神经网络的编码‑解码器进行学习低维特征向量和Tokens，可以通过L2损失（重构损失）、commitment损失（用来约束编码空间和词嵌入空间的一致）和感知损失（用于图像恢复）进行网络训练。

[0064] S3：利用所述高维图像数据带有的终止状态的标识，基于所述低维特征，得到成功特征和失败特征：和。

[0065] 具体地，如图2所示，本方法利用终止态的状态来标注终止态的两类特征（成功或失败），然后得到两类特征的Tokens，Tokens的数量可以相同也可以不同，本实施例中采用的是相同的数量K=K1=K2。然后通过终止态的即时奖励判断成功或失败。其中，如图2所示，表示终止态的状态特征（图像的像素信息，作为输入），表示终止态状态的低维特征表示（每一个低维特征对应一个一维向量，是每一个Token张量维度的x倍，为后续得到x个Tokens做准备），表示经过Tokens的转换得到的对应Tokens的特征低维向量（由x个Tokens的低维张量拼接而成，和维度相同），表示重构的终止态的状态特征（重构的图像的像素信息，和维度相同）。

[0066] S4：如图3所示，利用监督学习方法训练状态转移模型，并利用状态转移模型预测的下一状态信息和两类特征进行比较分类，得到即时奖励；

[0067] 具体地，状态转移模型的输入为当前状态信息和采取的决策动作a，输出为下一个状态信息、下一个状态的即时奖励信息和下一个状态的是否是终止态信息。监督信息是下一个状态的相对应信息。

[0068] 所述的状态转移模型基于Transformer架构，利用预测的下一状态的tokens：和两类终止状态的tokens比较，根据比较结果判断即时奖励的大小，具
体包括如下步骤：

[0069] S41：利用状态转移模型预测的下一状态信息；

[0070] 具体地，利用所述状态转移模型预测下一状态信息的tokens：。

[0071] S42：将所述下一状态信息与所述成功特征和失败特征进行匹配；

[0072] 具体地，把学习得到的下一个状态信息和终止态的Tokens信息比较，目的是判断此状态信息和哪一类终止态接近。具体而言，利用此tokens和两类特征信息的tokens匹配，分别得到m个tokens数值与成功终止状态的tokens数值相同，n个tokens数值与失败终止状态的tokens数值相同；

[0073] S43：根据匹配结果判断所述下一状态信息类别，从而设置即时奖励；

[0074] 根据m、n的大小进行即时奖励判定：若m>n，则即时奖励r=1；若m=n，则即时奖励r=0；若m

[0075] S5：如图3所示，基于所述即时奖励，利用强化学习方法进行决策；具体步骤如下：

[0076] S51：基于S4中得到的即时奖励r，利用求取回报R的方法得到期望回报；

[0077] 具体地，所述求取回报的方法为：R= 。其中，R表示期望回报，表示由得到的第t步的即时奖励，表示折扣因子，用来平衡即时奖励和未来奖励，T表示最大时间步长。

[0078] S52：基于所述期望回报，利用强化学习的策略方法求取策略；

[0079] 其中，如图3所示，表示所有的状态特征（包括终止态和非终止态的状态，如图像的像素信息，作为输入），表示所有状态的低维特征表示（每一个低维特征对应一个一维向量，是每一个Token张量维度的x倍，为后续得到x个Tokens做准备），表示经过Tokens的转换得到的对应Tokens的特征低维向量（由x个Tokens的低维张量拼接而成，和维度相同），表示重构的状态特征（重构的图像的像素信息，和维度相同），世界模型G表示转移模型，包括状态转移模型 ( 表示由输入得到输入，通过与词表进行欧氏距离比较得到的x个Tokens，表示策略对应的Token)，即时奖励转移模型（此方法的即时转移模型是由方法得出）。

[0080] 具体地，所述强化学习的策略方法包括基于模型强化学习方法（如交叉熵（CEM，Cross Entropy Method）方法、蒙特卡洛树搜索方法等）和无模型强化学习方法（如DQN方法、AC方法等）。

[0081] 与前述的基于自监督强化学习的即时奖励学习方法的实施例相对应，本申请还提供了基于自监督强化学习的即时奖励学习装置的实施例。

[0082] 图4是根据一示例性实施例示出的一种基于自监督强化学习的即时奖励学习装置框图。参照图4，该装置可以包括：

[0083] 图像获取模块21，用于获取高维图像数据集，所述高维图像数据集中包括若干带有终止状态成功或者失败标识的图像；

[0084] 训练模块22，用于利用所述高维图像数据集训练自监督学习模型，得到对应的低维特征；

[0085] 终止态分类模块23，用于利用所述高维图像数据带有的终止状态的标识，基于所述低维特征，得到成功特征和失败特征；

[0086] 即时奖励获取模块24，用于利用监督学习方法训练状态转移模型，并利用状态转移模型预测的下一状态信息和两类特征进行比较分类，得到即时奖励；

[0087] 决策模块25，用于基于所述即时奖励，利用强化学习方法进行决策。

[0088] 关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

[0089] 对于装置实施例而言，由于其基本对应于方法实施例，所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下，即可以理解并实施。

[0090] 相应的，一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述的基于自监督强化学习的即时奖励学习方法。

[0091] 相应的，本申请还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述的基于自监督强化学习的即时奖励学习方法。如图5所示，为本发明实施例提供的一种基于自监督强化学习的即时奖励学习方法所在任意具备数据处理能力的设备的一种硬件结构图，除了图5所示的处理器、内存以及网络接口之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

[0092] 相应的，本申请还提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述的基于自监督强化学习的即时奖励学习方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡（Smart Media Card，SMC）、SD卡、闪存卡（Flash Card）等。进一步的，所述计算机可读存储介还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

[0093] 本领域技术人员在考虑说明书及实践这里公开的内容后，将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。

[0094] 应当理解的是，本申请并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。

查看完整全部详细技术资料

当前第1页第1页第2页第3页

一种基于自监督强化学习的即时奖励学习方法有效专利发明

技术领域

相关背景技术

具体实施方式

[0002]当前，人工智能在各行各业中应用的十分广泛，提高了各行各业的工作效率和智能化。[0003]...，盲点网为您提供一种基于自监督强化学习的即时奖励学习方法专利转让信息专利转让交易数据查询就上盲点网

一种基于自监督强化学习的即时奖励学习方法有效专利 发明

技术领域

相关背景技术

具体实施方式

[0002]当前，人工智能在各行各业中应用的十分广泛，提高了各行各业的工作效率和智能化。[0003]...，盲点网为您提供一种基于自监督强化学习的即时奖励学习方法专利转让信息专利转让交易数据查询就上盲点网

一种基于自监督强化学习的即时奖励学习方法有效专利发明