首页 / 学习装置和学习方法

学习装置和学习方法无效专利 发明

技术领域

[0001] 本公开内容涉及学习装置和学习方法,并且具体地涉及允许基于用户输入来容易地校正强化学习模型的学习装置和学习方法。

相关背景技术

[0002] 存在强化学习模型,其当给出代理体(agent)、环境、行动和报酬时学习用于最大化报酬的策略(例如,参见NPL 1)。
[0003] [引用列表]
[0004] [非专利文献]
[0005] [NPL 1]“Maximum Entropy Inverse Reinforcement Learning”,Brian D.Ziebart,Andrew Maas,J.Andrew Bagnell,and Anind K.Dey,the Association for the Advancement of Artificial Intelligence(AAAI),2008.7.13

具体实施方式

[0034] 在下文中,将描述用于执行本公开内容的模式(在下文中称为实施方式)。注意,将按以下顺序进行描述。
[0035] 1.第一实施方式:个人计算机(PC)(图1至图9)
[0036] 2.第二实施方式:个人计算机(PC)(图10至图14)
[0037] 3.第三实施方式:VR(虚拟现实)装置(图15)
[0038] 4.第四实施方式:计算机(图16)
[0039] <第一实施方式>
[0040] (PC的第一实施方式的配置的示例)
[0041] 图1是描绘根据PC作为应用本公开内容的学习装置的第一实施方式的配置的示例的框图。
[0042] 图1中的PC 10包括环境设置部11、初始化部12、学习部13、显示控制部14、显示部15、接收部16和校正部17。PC 10包括例如计算机并且执行代理体的移动策略的强化学习。
[0043] 具体地,在代理体存在于例如模拟的虚拟世界中的情况下,PC 10的环境设置部11基于代理体的操作环境文件等构建代理体在虚拟世界中的周围环境。然后,环境设置部11生成环境图(环境信息)。环境图是描绘周围环境的GUI(图形用户界面)图像。
[0044] 相比之下,在代理体是现实世界中存在的机器人等的情况下,环境设置部11基于由现实世界中的代理体的各种传感器所观察到的数据来生成代理体的周围环境的环境图。环境设置部11将所生成的环境图提供至显示控制部14。
[0045] 基于从接收部16所提供的值函数的初始值或移动策略,初始化部12对学习代理体的移动策略的强化学习模型进行初始化。此时,另外设置用于强化学习模型的报酬函数的初始值。此处,虽然假设报酬函数模型是对从先前登记的报酬基函数组中所选择的预定报酬基函数组执行加权相加的线性基函数模型,但是报酬函数模型不限于此。初始化部12将经初始化的强化学习模型提供至学习部13。
[0046] 学习部13对从初始化部12或校正部17提供的强化学习模型进行优化并且基于经优化的强化学习模型来学习移动策略。学习部13将经优化的强化学习模型提供至校正部17并且将所学习的移动策略提供至显示控制部14。此外,学习部13输出移动策略的最终学习结果。另外,学习部13根据需要保持所学习的移动策略。
[0047] 显示控制部14将从环境设置部11提供的环境图提供至显示部15并使显示部15显示环境图。此外,显示控制部14生成策略信息等作为与强化学习模型有关的强化学习模型信息。策略信息是描绘从学习部13或校正部17提供的移动策略的GUI图像。显示控制部14将策略信息等叠加在环境图上。显示控制部14将叠加在环境图上的策略信息等提供至显示部15并且使显示部15显示叠加在环境图上的策略信息等。另外,如果有必要,显示控制部14生成用于选择是否追加报酬基函数的选择屏幕。显示控制部14将选择屏幕提供至显示部15并且使显示部15显示选择屏幕。
[0048] 接收部16接收来自用户的输入。例如,接收部16接收从用户输入的值函数的初始值或移动策略,并将值函数的初始值或移动策略提供至初始化部12。此外,接收部16从已经观看了显示在显示部15上的策略信息等的用户接收移动路径的输入作为关于策略信息的移动策略的间接教导,并且将移动路径提供至校正部17。
[0049] 校正部17对从学习部13提供的强化学习模型进行校正,以便根据各种逆强化学习方法来基于从接收部16提供的移动路径对移动策略进行优化。此时,如果有必要,校正部17追加强化学习模型的报酬基函数。例如,可以使用NPL 1中描述的方法作为逆强化学习方法。
[0050] 例如,当假设代理体的周围环境是M并且假设从接收部16提供的移动路径是ZE(s,a)时,通过以下等式(1)限定移动策略π的优化。
[0051] [数学1]
[0052] π*=argmaxπP(ZE|π,M)   …(1)
[0053] 注意,s表示代理体的状态例如代理体的位置,a表示代理体的动作,以及P表示概率。
[0054] 通常,存在满足上述等式(1)的许多移动策略π*,并且存在将移动策略π*限制为一个的各种问题设置方法。在问题设置方法中的任意中,在对移动策略π进行优化的同时间接地校正报酬函数。校正部17将经校正的强化学习模型提供至学习部13并且将经优化的移动策略提供至显示控制部14。
[0055] (环境图的描述)
[0056] 图2和图3是用于描述环境图的图。
[0057] 在图2和图3中的示例中,在代理体31周围存在区域32和区域33。在区域32中代理体31是可移动的,而在区域33中代理体31是不可移动的。在可移动区域32中,存在目标34和障碍35。在目标34中设置有正报酬值。障碍物35是对移动的障碍。
[0058] 首先,在这种情况下,如图2中所描绘的,环境设置部11生成以二维方式描绘周围环境的GUI图像30。周围环境包括代理体31、区域32、区域33、目标34和障碍物35。接下来,环境设置部11基于强化学习模型的正交坐标系将GUI图像30划分为网格(格点)并且生成环境图50。这些网格中的每个用作强化学习模型的报酬函数或者概率密度分布的单元。
[0059] (其上已经叠加有策略信息的环境图的示例)
[0060] 图4是描绘其上已经叠加有移动策略的策略信息的环境图的示例的图。移动策略已经被由校正部17校正前的强化学习模型学习。
[0061] 如图4中所描绘的,在已经生成图3中的环境图50的情况下,显示控制部14生成策略信息71。策略信息71使用箭头指示基于移动策略的从代理体31的当前位置到目标34的移动路径。移动策略已经被由校正部17校正前的强化学习模型学习。
[0062] 此外,显示控制部14根据从学习部13提供的移动策略,计算在每个网格中存在代理体31的情况下代理体31到达目标34的概率密度分布(移动预测分布)。然后,显示控制部14生成轮廓线图像72至75。轮廓线图像72至75是移动预测分布的概率的轮廓线的GUI图像。
注意,移动预测分布的概率按轮廓线图像72、73、74和75依次为高。
[0063] 显示控制部14将如上所述生成的策略信息71和轮廓线图像72至75叠加在环境图50上,并且使显示部15显示叠加在环境图50上的策略信息71和轮廓线图像72至75。
[0064] 注意,虽然障碍物35是对移动的障碍,但是存在如图4中所描绘的可能性,由于障碍物35存在于可移动区域32中,所以基于由校正前的强化学习模型学习的移动策略的移动路径是穿过障碍物35的路径。此外,轮廓线图像72至75不需要叠加在环境图50上。
[0065] (教导移动策略的第一方法的描述)
[0066] 图5和图6是用于描述教导相对于图4中的策略信息71的移动策略的第一方法的图。
[0067] 如图4中所描绘的,在策略信息71和轮廓线图像72至75已经被叠加在环境图50上的情况下,用户输入移动路径111。例如,如图5中所描绘的,移动路径111在不穿过障碍物35的情况下从代理体31的当前位置向目标34延伸。以这种方式,用户教导与移动路径111相对应的移动策略作为期望的移动策略。
[0068] 在这种情况下,校正部17校正强化学习模型以便基于移动路径111对移动策略进行优化,并且将经优化的移动策略提供至显示控制部14。显示控制部14生成策略信息121。策略信息121使用箭头指示基于从校正部17提供的移动策略的移动路径。此外,显示控制部
14根据移动策略来计算移动预测分布并且生成移动预测分布的概率的轮廓线图像122至
125。然后,如图6中所描绘的,显示控制部14将策略信息121和轮廓线图像122至125叠加在环境图50上,并且使显示部15显示叠加在环境图50上的策略信息121和轮廓线图像122至
125。注意,移动预测分布的概率按轮廓线图像122、123、124和125依次为高。
[0069] (教导移动策略的第二方法的描述)
[0070] 图7是用于描述教导相对于图4中的策略信息71的移动策略的第二方法的图。
[0071] 例如,如图4中所描绘的,在策略信息71和轮廓线图像72至75已经被叠加在环境图50上的情况下,用户输入如图7中所描绘的移动路径131。移动路径131位于在不穿过障碍物
35的情况下从代理体31的当前位置向目标34延伸的移动路径的中间。以这种方式,用户教导与移动路径131相对应的移动策略作为期望的移动策略。
[0072] 在这种情况下,校正部17校正强化学习模型,以便基于移动路径131来对与通过移动路径131向目标34延伸的移动路径相对应的移动策略进行优化。校正部17将经优化的移动策略提供至显示控制部14。显示控制部14生成策略信息141。策略信息141使用箭头指示移动路径131之后的路径,该路径是基于从校正部17提供的移动策略的移动路径的一部分。此外,显示控制部14根据移动策略来计算移动预测分布并且生成移动预测分布的概率的轮廓线图像142至145。
[0073] 然后,如图7中所描绘的,显示控制部14将移动路径131、策略信息141和轮廓线图像142至145叠加在环境图50上,并且使显示部15显示叠加在环境图50上的移动路径131、策略信息141和轮廓线图像142至145。注意,移动预测分布的概率按轮廓线图像142、143、144和145依次为高。
[0074] 输入移动路径111(131)的方法的示例包括未描绘出的、使用鼠标输入移动路径111(131)的轨迹的方法、在移动路径上输入网格的坐标的方法等。
[0075] (PC的处理的描述)
[0076] 图8是用于描述图1中的PC 10的移动策略学习处理的流程图。
[0077] 在图8中的步骤S31中,PC 10的环境设置部11确定代理体是否存在于虚拟世界中。在已经在步骤S31中确定代理体存在于虚拟世界中的情况下,在步骤S32中环境设置部11获得代理体的操作环境文件等。
[0078] 在步骤S33中,环境设置部11基于在步骤S32中已经获得的代理体的操作环境文件等构建代理体在虚拟世界中的周围环境,并且生成周围环境的环境图。然后,环境设置部11将所生成的环境图提供至显示控制部14,并且使处理进行到步骤S36。
[0079] 另一方面,在已经在步骤S31中确定代理体不存在于虚拟世界中的情况下,即,在代理体存在于现实世界中的情况下,处理进行到步骤S34。在步骤S34中,环境设置部11获得由现实世界中的代理体的各种传感器观察到的数据。
[0080] 在步骤S35中,环境设置部11基于在步骤S34中获得的数据生成代理体的周围环境的环境图,将环境图提供至显示控制部14,并且使处理进行到步骤S36。
[0081] 在步骤S36中,显示控制部14将从环境设置部11提供的环境图提供至显示部15,并且使显示部15显示环境图。
[0082] 在步骤S37中,接收部16确定是否已经输入值函数的初始值或移动策略。在已经在步骤S37中确定尚未输入值函数的初始值或移动策略的情况下,接收部16待机直到输入值函数的初始值或移动策略。
[0083] 另一方面,在已经在步骤S37中确定已经输入值函数的初始值或移动策略的情况下,接收部16接收从用户输入的值函数的初始值或策略,并且将值函数的初始值或策略提供至初始化部12。然后,在步骤S38中,初始化部12基于从接收部16提供的值函数或移动策略对强化学习模型进行初始化。初始化部12将经初始化的强化学习模型提供至学习部13。
[0084] 在步骤S39中,学习部13根据来自用户等的输入来选择用于优化强化学习模型的方法。优化方法的示例包括MDP(马尔可夫决策过程)等。
[0085] 在步骤S40中,学习部13根据在步骤S39中所选择的优化方法对从初始化部12或校正部17提供的强化学习模型进行优化(搜索),并且基于经优化的强化学习模型来学习(改进)移动策略。学习部13将经优化的强化学习模型提供至校正部17。学习部13将所学习的移动策略提供至显示控制部14。
[0086] 在步骤S41中,显示控制部14基于从学习部13提供的移动策略来生成策略信息和轮廓线图像,并且将策略信息和轮廓线图像叠加在环境图上。
[0087] 在步骤S42中,显示控制部14将其上已经叠加有策略信息和轮廓线图像的环境图提供至显示部15,并且使显示部15显示环境图。
[0088] 在步骤S43中,接收部16确定已经观看了显示在显示部15上的策略信息等的用户是否已经教导了关于策略信息的移动策略。在已经在步骤S43中确定已经教导了移动策略的情况下,接收部16接收移动路径的输入作为移动策略的教导,将移动路径提供至校正部17,并且使处理进行到步骤S44。
[0089] 在步骤S44中,校正部17基于从接收部16提供的移动路径来执行对从学习部13提供的强化学习模型进行校正的校正处理。将参照稍后描述的图9来描述该校正处理的细节。
[0090] 在步骤S45中,PC 10确定是否结束处理。例如,在强化学习模型已经收敛的情况下或者在用户已经给出结束指令的情况下,在步骤S45中PC 10确定结束处理。然后,学习部13输出当前移动策略作为最终学习结果并且结束处理。
[0091] 另一方面,在强化学习模型还未收敛并且用户未给出任何结束指令的情况下,在步骤S45中PC 10确定不结束处理并且将处理返回到步骤S40。
[0092] 此外,在已经在步骤S43中确定还未教导移动策略的情况下,处理返回到步骤S40。
[0093] 注意,在用户已经给出开始优化(搜索)的指令的情况下,可以开始第一步骤S40中的处理。
[0094] 图9是用于描述图8中的步骤S44中的校正处理的流程图。
[0095] 在图9中的步骤S51中,校正部17通过基于根据各种逆强化学习方法从接收部16提供的移动路径来解决强化学习模型的策略优化问题,从而对从学习部13提供的强化学习模型进行校正。校正部17将经优化的移动策略提供至显示控制部14。
[0096] 在步骤S52中,显示控制部14基于从校正部17提供的移动策略来生成策略信息和轮廓线图像,并且将策略信息和轮廓线图像叠加在环境图上。
[0097] 在步骤S53中,显示控制部14将其上已经叠加有策略信息和轮廓线图像的环境图提供至显示部15,并且使显示部15显示环境图。
[0098] 在步骤S54中,校正部17确定是否追加在预先登记的报酬基函数组之中的报酬基函数作为报酬基函数 (s,a)。该报酬基函数不是在经校正的强化学习模型中使用的n个报酬基函数 (s,a)至 (s,a)中的任意一个。
[0099] 例如,校正部17顺序地追加预先登记的报酬基函数组之中的除了报酬基函数(s,a)至 (s,a)之外的每个报酬基函数作为报酬基函数 (s,a)。注意,报酬基函数可以是仅依赖于状态s的报酬基函数 (s)。基于从接收部16提供的移动路径,校正部17解决了已经追加报酬基函数 (s,a)的强化学习模型的策略优化问题。
[0100] 结果,在存在其对应于问题设置的目标函数与追加前的强化学习模型相比已经有所改进的至少一个报酬基函数 (s,a)的情况下,在步骤S54中,校正部17确定追加其目标函数已最大化改进的报酬基函数 (s,a)。另一方面,在不存在其目标函数已改进的报酬基函数 (s,a)的情况下,在步骤S54中,校正部17确定不追加任何报酬基函数 (s,a)。
[0101] 在已经在步骤S54中确定追加报酬基函数 (s,a)的情况下,在步骤S55中,显示控制部14使显示部15显示用于选择是否追加报酬基函数的选择屏幕。
[0102] 在步骤S56中,接收部16确定已经观看了选择屏幕的用户是否已经做出用于选择基函数的追加的输入。在已经在步骤S56中确定已经做出用于选择基函数的追加的输入的情况下,接收部16接收输入。
[0103] 在步骤S57中,与步骤S51中的处理类似地,校正部17通过基于从接收部16提供的移动路径解决了已经追加报酬基函数 (s,a)的强化学习模型的策略优化问题,对强化学习模型进行校正。校正部17将经校正的强化学习模型提供至学习部13,并且将经优化的移动策略提供至显示控制部14。
[0104] 由于步骤S58中的处理和步骤S59中的处理分别类似于步骤S52中的处理和步骤S53中的处理,因此将省略描述。在步骤S59中的处理之后,处理返回到图8中的步骤S44,并且进行到步骤S45。
[0105] 另一方面,在已经在步骤S54中确定不追加报酬基函数 (s,a)的情况下,或者在已经在步骤S56中确定还没有作出用于选择报酬基函数 (s,a)的追加的输入的情况下,不追加报酬基函数 (s,a)。然后,校正部17将在步骤S51中校正过的强化学习模型提供至学习部13,将处理返回到图8中的步骤S44,并且使处理进行到步骤S45。
[0106] 注意,在步骤S54中的处理之前,校正部17可以确定在步骤S51中所优化的移动策略与由用户所教导的移动策略之间的差异(距离比例)是否大于阈值。在差异(距离比例)大于阈值的情况下,校正部17可以使处理进行到步骤S54。在这种情况下,当距离比例等于或小于阈值时,不追加报酬基函数 (s,a)。校正部17将在步骤S51中所校正的强化学习模型提供至学习部13,将处理返回到图8中的步骤S44,并且使处理进行到步骤S45。
[0107] 如上所述,PC 10使显示部15显示策略信息。因此,用户可以通过查看显示在显示部15上的策略信息来识别当前策略。因此,在查看策略信息时,用户可以直观地教导期望的移动策略并且通过GUI来直接且容易地校正强化学习模型。也就是说,用户可以通过与PC 10交互来直接且容易地校正强化学习模型。结果,这样可以防止学习用户认为明显不合适的移动策略。因此,可以有效地改进移动策略并且优化强化学习模型。
[0108] <第二实施方式>
[0109] (PC的第二实施方式的配置的示例)
[0110] 图10是描绘PC作为应用本公开内容的学习装置的第二实施方式的配置的示例的框图。
[0111] 在图10中所描绘的部件中,与图1中的部件相同的部件由相同的附图标记表示。适当时将省略冗余描述。
[0112] 图10中的PC 200的配置与图1中的PC 10的配置的不同之处在于学习部13、显示控制部14、接收部16和校正部17分别由学习部203、显示控制部204、接收部206和校正部207替代。在PC 200中,用户不通过教导移动策略来直接地校正强化学习模型,而是通过教导报酬函数来间接地校正强化学习模型。
[0113] 具体地,PC 10的学习部203对从初始化部12或校正部207提供的强化学习模型进行优化,并且基于经优化的强化学习模型来学习移动策略。学习部203将经优化的强化学习模型提供至校正部207,并且将经优化的强化学习模型中的报酬函数(报酬值分布)提供至显示控制部204。此外,学习部203输出移动策略的最终学习结果。另外,如果有必要,学习部203保持所学习的移动策略。
[0114] 显示控制部204将从环境设置部11提供的环境图提供至显示部15,并且使显示部15显示环境图。此外,显示控制部204生成报酬函数信息作为强化学习模型信息。报酬函数信息是描绘从学习部203或校正部207提供的报酬函数的GUI图像。显示控制部204将报酬函数信息叠加在环境图上。显示控制部204将叠加在环境图上的报酬函数信息提供至显示部
15,并且使显示部15显示叠加在环境图上的报酬函数信息。
[0115] 接收部206接收来自用户的输入。例如,接收部206接收从用户输入的值函数的初始值或移动策略,并且将值函数的初始值或移动策略提供至初始化部12。此外,接收部206从已经观看了显示在显示部15上的报酬函数信息等的用户接收基于网格的报酬值的输入作为关于报酬函数信息的报酬函数的教导,并且将基于网格的报酬值提供至校正部207。
[0116] 校正部207根据各种逆强化学习方法,基于从接收部206提供的基于网格的报酬值,对从学习部203提供的强化学习模型中的报酬函数进行校正,使得报酬函数近似基于网格的报酬值。此时,如果有必要,校正部207追加强化学习模型的报酬基函数。例如,可以使用NPL 1中描述的方法作为逆强化学习方法。
[0117] 当假设报酬函数中包括的n个报酬基函数为 (s,a)(i=1,2,……,n)并且假设报酬基函数 的权重为wi时,通过利用最小二乘法使用以下等式(2)更新权重wi来近似报酬函数。
[0118] [数学2]
[0119] w*=(λI+ΦTΦ)-1φR   …(2)
[0120] 注意,RE(s,a)表示在状态s和动作a中所教导的每个基于网格的报酬值的分布。表示设计矩阵,I表示单位矩阵,以及λ表示正则化参数。
[0121] 报酬函数近似方法不限于使用等式(2)的方法。此外,报酬基函数 可以是仅依赖于状态s的报酬基函数 (s)。在这种情况下,分布RE是仅依赖于状态s的分布RE(s)。
[0122] 校正部207将其中已经校正了报酬函数的强化学习模型提供至学习部203,并且将经校正的报酬函数提供至显示控制部204。
[0123] (其上已经叠加有报酬函数信息的环境图的示例)
[0124] 图11是描绘其上已经叠加有由校正部207校正前的强化学习模型中的报酬函数的报酬函数信息的环境图的示例的图。
[0125] 如图11中所描绘的,在已经生成图3中的环境图50的情况下,显示控制部204生成报酬函数信息221(报酬值图)。报酬函数信息221基于由校正部207校正之前的强化学习模型中的报酬函数来使用颜色、图案等描绘每个网格的报酬值。然后,显示控制部204将报酬函数信息221叠加在环境图50上,并且使显示部15显示叠加在环境图50上的报酬函数信息221。
[0126] 在图11中的示例中,与目标34相对应的网格的报酬值为正,而其他网格的报酬值为零。因此,报酬函数信息221是GUI图像,其中与目标34相对应的网格的颜色(图11中的示例中为灰色)与其他网格的颜色(图11中的示例中为透明颜色)不同。
[0127] (教导报酬函数的方法的描述)
[0128] 图12是用于描述教导关于图11中的报酬函数信息221的报酬函数的方法的图。
[0129] 在报酬函数信息221已经如图11中所描绘的叠加在环境图50上的情况下,例如,如图12中所描绘的,对于障碍物35的区域241中的每个网格,用户输入负报酬值-r1。此外,对于区域242中的每个网格,用户输入负报酬值-r2。区域242位于相对于代理体31在垂直方向上与目标34相对的一侧。
[0130] 如上所述,用户教导其中与目标34相对应的网格的报酬值为正的报酬函数作为期望报酬函数,区域241中的每个网格的报酬值是报酬值-r1,以及区域242中的每个网格的报酬值是报酬值-r2。
[0131] 在这种情况下,校正部207对强化学习模型中的报酬函数进行校正,以便基于区域241中的每个网格的报酬值-r1和区域242中的每个网格的报酬值-r2来近似由用户所教导的报酬函数。然后,校正部207将经校正的报酬函数提供至显示控制部204。显示控制部204生成从校正部207提供的报酬函数的报酬函数信息。显示控制部204将报酬函数信息叠加在环境图50上,并且使显示部15显示叠加在环境图50上的报酬函数信息。
[0132] (PC的处理描述)
[0133] 图13是用于描述图10中的PC 200的移动策略学习处理的流程图。
[0134] 由于图13中的步骤S131至S139中的处理分别与图8中的步骤S31至S39中的处理类似,因此将省略描述。
[0135] 在步骤S140中,学习部203根据在步骤S139中所选择的优化方法来对从初始化部12或校正部207提供的强化学习模型进行优化,并且基于经优化的强化学习模型来学习移动策略。学习部203将经优化的强化学习模型提供至校正部207并且将经优化的强化学习模型中的报酬函数提供至显示控制部204。
[0136] 在步骤S141中,显示控制部204基于从学习部203提供的报酬函数来生成报酬函数信息,并且将报酬函数信息叠加在环境图上。
[0137] 在步骤S142中,显示控制部204将其上已经叠加报酬函数信息的环境图提供至显示部15,并且使显示部15显示环境图。
[0138] 在步骤S143中,接收部206确定已经观看了显示在显示部15上的报酬函数信息的用户是否已经教导了关于报酬函数信息的报酬函数信息。在已经在步骤S143中确定已经教导了报酬函数信息的情况下,接收部206接收基于网格的报酬值作为报酬函数信息的教导,将报酬值提供至校正部207,并且使处理进行到步骤S144。
[0139] 在步骤S144中,校正部207基于从接收部206提供的基于网格的报酬值来执行对从学习部203提供的强化学习模型进行校正的校正处理。将参照稍后描述的图14来描述该校正处理的细节。
[0140] 在步骤S145中,与步骤S45中的处理相类似,PC 200确定是否结束处理。在已经在步骤S145中确定处理结束的情况下,学习部203输出当前移动策略作为最终学习结果并且结束处理。
[0141] 另一方面,在已经在步骤S145中确定处理没有结束的情况下,处理返回到步骤S140。此外,在已经在步骤S143中确定还没有教导报酬函数的情况下,处理返回到步骤S140。
[0142] 注意,可以在用户已经给出开始优化的指令的情况下开始第一步骤S140中的处理。
[0143] 图14是用于描述图13中的步骤S144中的校正处理的流程图。
[0144] 在图14中的步骤S151中,校正部207通过根据各种逆强化学习方法、使用报酬函数模型来解决用于近似当前报酬值的分布的回归问题。已经利用从接收部206提供的报酬值对当前报酬值更新。报酬函数模型包括n个报酬基函数 (s,a)至 (s,a)。以这种方式,对强化学习模型中的报酬函数进行校正。校正部207将经校正的报酬函数提供至显示控制部204。
[0145] 在步骤S152中,显示控制部204基于从校正部207提供的报酬函数来生成报酬函数信息,并且将报酬函数信息叠加在环境图上。
[0146] 在步骤S153中,显示控制部204将其上已经叠加报酬函数信息的环境图提供至显示部15,并且使显示部15显示环境图。
[0147] 在步骤S154中,校正部207确定是否追加在预先登记的报酬基函数组之中的报酬基函数作为报酬基函数 (s,a)。报酬基函数不是在经校正的强化学习模型中使用的n个报酬基函数 (s,a)至 (s,a)中的任何一个。
[0148] 例如,校正部207顺序地追加预先登记的报酬基函数组之中的除了报酬基函数(s,a)至 (s,a)之外的每个报酬基函数作为报酬基函数 (s,a)。然后,校正部207使用上述等式(2)来近似其中已经追加报酬基函数 (s,a)的报酬函数,并且使用以下等式(3)来计算所近似的报酬函数与报酬分布RE之间的残差的绝对值D(距离比例)。
[0149] [数学3]
[0150] D=||RE-wTφ||   …(3)
[0151] 在存在绝对值D与追加前的绝对值D相比有所减小(改进)的至少一个报酬基函数(s,a)的情况下,在步骤S154中,校正部207确定追加绝对值D最小的报酬基函数(s,a)。另一方面,在不存在绝对值D与追加前的绝对值D相比有所减小的报酬基函数(s,a)的情况下,在步骤S154中,校正部207确定不追加任何报酬基函数 (s,a)。
[0152] 在已经在步骤S154中确定追加报酬基函数 (s,a)的情况下,处理进行到步骤S155。由于步骤S155和S156中的处理分别与图9中的步骤S55和S56中的处理类似,因此将省略描述。
[0153] 在步骤S157中,与步骤S151类似,校正部207通过使用已经追加报酬基函数(s,a)的报酬函数模型来解决用于近似已经利用从接收部206提供的报酬值更新过的当前报酬值的分布的回归问题。以这种方式,对强化学习模型中的报酬函数进行校正。校正部207将其中已经对报酬函数校正过的强化学习模型提供至学习部203,并且将经校正的报酬函数提供至显示控制部204。
[0154] 由于步骤S158和S159中的处理分别与步骤S152和S153中的处理类似,因此将省略描述。在步骤S159中的处理之后,处理返回到图13中的步骤S144,并且进行到步骤S145。
[0155] 另一方面,在已经在步骤S154中确定不追加报酬基函数 (s,a)的情况下,或者在已经在步骤S156中确定还没有做出用于选择报酬基函数 (s,a)的追加的输入的情况下,不追加报酬基函数 (s,a)。然后,校正部207将在步骤S151中校正过的强化学习模型提供至学习部203,将处理返回到图13中的步骤S144,并且使处理进行到步骤S145。
[0156] 注意,在步骤S154中的处理之前,校正部207可以确定在步骤S151中校正过的报酬函数与利用由用户所教导的报酬值更新的当前报酬值的分布之间的距离比例是否大于阈值。在距离比例大于阈值的情况下,校正部207可以使处理进行到步骤S154。在这种情况下,当距离比例等于或小于阈值时,不追加报酬基函数 (s,a),并且校正部207将在步骤S151中校正过的强化学习模型提供至学习部13,将处理返回到图13中的步骤S144,并且使处理进行到步骤S145。
[0157] 如上所述,PC 200使显示部15显示报酬函数信息。因此,用户可以通过查看显示在显示部15上的报酬函数信息来识别报酬函数。因此,在查看报酬函数信息时,用户可以直观地教导使代理体采取所要采取的行动的报酬函数,并且通过GUI来间接且容易地校正强化学习模型。也就是说,用户可以通过与PC 200交互来间接且容易地校正强化学习模型。结果,这样可以防止使用用户认为明显不适当的报酬函数来利用强化学习模型进行学习。因此,可以有效地改进移动策略并且优化强化学习模型。
[0158] 注意,在第一实施方式和第二实施方式中,显示部15和接收部16(接收部206)可以彼此集成以形成触摸板。在这种情况下,接收部16接收用户在触摸板上的操作的输入。例如,在第二实施方式中,用户对触摸板上的环境图中将报酬值所输入到的区域执行缩小/放大操作等,从而校正(增大或减小)该区域中的报酬值并且输入经校正的报酬值。
[0159] 此外,当第一实施方式和第二实施方式中的环境图是作为代理体的周围环境的鸟瞰图的GUI图像时,环境图可以是从代理体观看的GUI图像。在这种情况下,环境图中不包括代理体。
[0160] 另外,当第一实施方式和第二实施方式中的环境图是以二维描绘周围环境的GUI图像时,环境图可以是以一维或以三维描绘周围环境的GUI图像。
[0161] 此外,在上述描述中,将策略信息叠加在已经教导了移动策略的PC 10中的环境图上,同时将报酬函数信息叠加在已经教导了报酬函数的PC 200中的环境图上。然而,教导内容和所叠加的内容不需要彼此对应。也就是说,PC 10可以将报酬函数信息叠加在环境图上,同时PC 200可以将策略信息叠加在环境图上。在这种情况下,PC 10的用户在查看其上已经叠加报酬函数信息的环境图的同时教导策略信息。PC 200的用户在查看其上已经叠加策略信息的环境图的同时教导报酬函数。
[0162] <第三实施方式>
[0163] (其上已经叠加策略信息的环境图的示例)
[0164] 除了代理体总是存在于虚拟世界中并且显示部15是安装在用户头部上的头戴式显示器之外,作为应用本公开内容的学习装置的VR装置的一个实施方式的配置与图1中的PC 10的配置相类似。因此,将使用图1中的PC 10的每个部分对VR装置的每个部分进行描述。VR装置提供从代理体查看的虚拟世界的体验。
[0165] 图15是描绘其上已经叠加由校正部17校正前的强化学习模型学习的移动策略的策略信息的环境图的示例的图。在这种VR装置的显示部15上显示环境图。
[0166] 如图15中所描绘的,显示在VR装置的显示部15上的环境图260是以三维描绘从代理体查看的周围环境的GUI图像。在图15中的示例中,壁261至263存在于代理体的前方、左侧和右侧。与壁261至263相比更接近代理体的空间是可移动区域264。此外,在可移动区域264中存在作为对代理体的移动的障碍的障碍物265。在跨过可移动区域264中的障碍物265的代理体的相反侧存在目标266。在目标266中设置有正报酬值。
[0167] 注意,在图15中的示例中,从代理体查看环境图260,并且代理体本身不存在于环境图260中。替选地,可以从代理体稍后方查看环境图260,并且可以包括代理体的背面等。
[0168] 如图15中所描绘的,在已经生成环境图260的情况下,显示控制部14生成策略信息281。策略信息281使用箭头指示基于移动策略从代理体的当前位置到目标266的移动路径。
已经通过由校正部17校正前的强化学习模型学习了移动策略。然后,显示控制部14将策略信息281叠加在环境图260上并且使显示部15显示叠加在环境图260的策略信息。注意,如图
4的情况,轮廓线图像也可以叠加在图15中的环境图260上。
[0169] 障碍物265是对移动的障碍。然而,由于障碍物265存在于可移动区域264中,因此,如图15中所描绘的,存在基于由校正前的强化学习模型学习的移动策略的移动路径是穿过障碍物265的路径的可能性。
[0170] 在这种情况下,例如,用户通过操作控制器(未描绘出)来输入移动路径282。如图15中所描绘的,移动路径282是在不穿过障碍物265的情况下从代理体的当前位置延伸到目标266的路径。以这种方式,用户教导与移动路径282相对应的移动策略作为期望的移动策略。
[0171] 注意,作为应用本公开内容的学习装置的VR装置的配置也可以与图1中的PC 200的配置相类似。
[0172] 在VR装置中,接收部16(接收部206)可以包括连续地检测在头部上安装有显示部15的用户的视线方向的视线检测部。视线检测部可以接收用于在用户的视线方向上移动的移动路径的输入。此外,接收部16(接收部206)可以包括检测用户的移动的移动检测部。移动检测部可以根据用户的移动来接收移动路径的输入。
[0173] 此外,PC 10(PC 200)和VR装置的接收部16(接收部206)可以包括检测用户的手势的手势检测部。手势检测部可以接收用户基于特定手势的输入。在这种情况下,例如,用户输入用于通过在将手保持在特定形状的同时在右方向上摆动臂来在右方向移动的移动路径。
[0174] 另外,PC 10(PC 200)和VR装置的接收部16(接收部206)可以包括识别用户的语音的语音识别部。语音识别部可以接收用户基于用户的语音的输入。
[0175] 此外,可以使用由Preference IRL所启发的随机抽样方法来确定是否追加上述报酬基函数。例如,Preference IRL的详细信息在“APRIL:Active Preference-learning based Reinforcement Learning”,Riad Akrour,Marc Schoenauer,and Mich`ele Sebag,European Conference,ECML PKDD 2012,Bristol,UK,2012年9月24至28日会议记录的第二部分有所描述。
[0176] 另外,在上述描述中,从预先登记的报酬基函数组中选择要追加到强化学习模型的报酬基函数。然而,报酬基函数可以是除了预先登记的报酬基函数组之外的新的报酬基函数。
[0177] 此外,在PC 10(PC 200)和VR装置中所执行的处理的内容可以存储在数据库(未描绘出)中,以便可再现该处理。
[0178] PC 10(PC 200)和VR装置基于用户在各种周围环境中的输入来对强化学习模型进行校正。因此,PC 10(PC 200)和VR装置能够在经校正的强化学习模型中学习稳健的移动策略。
[0179] <第四实施方式>
[0180] (应用本公开内容的计算机的描述)
[0181] 上述一系列处理可以由硬件或软件执行。在由软件执行一系列处理的情况下,将构成软件的程序安装在计算机中。此处,计算机包括能够通过安装各种程序等来执行各种功能的结合在专用硬件中的计算机,例如通用个人计算机。
[0182] 图16是描绘其中程序执行上述一系列处理的计算机的硬件的配置的示例的框图。
[0183] 在计算机400中、CPU(中央处理单元)401、ROM(只读存储器)402和RAM(随机存取存储器)403经由总线404彼此相互连接。
[0184] 另外,输入/输出接口405连接至总线404。输入部406、输出部407、存储部408、通信部409和驱动器410连接至输入/输出接口405。
[0185] 输入部406包括键盘、鼠标、麦克风等。输出部407包括显示器、扬声器等。存储部408包括硬盘、非易失性存储器等。通信部409包括网络接口等。驱动器410驱动可移动介质
411,例如磁盘、光盘、磁光盘或半导体存储器。
[0186] 例如,在如上所述配置的计算机400中,CPU 401经由输入/输出接口405和总线404将存储在存储部408中的程序加载到RAM 403中,并且执行该程序,从而执行上述一系列处理。
[0187] 例如,可以对由计算机400(CPU 401)所执行的程序记录并且在可移动介质411上作为打包介质等提供。此外,可以经由例如局域网、因特网或数字卫星广播的有线或无线传输介质来提供程序。
[0188] 在计算机400中,通过将可移动介质411附接至驱动器410,可以经由输入/输出接口405将程序安装在存储部408中。此外,程序可以由通信部409经由有线或无线传输介质接收并安装至存储部408中。另外,可以将程序预先安装在ROM 402或存储部408中。
[0189] 注意,由计算机400执行的程序可以是根据本说明书中描述的顺序按时间顺序执行处理的程序,或者可以是并行地或在必要时机例如调用的时候执行处理的程序。
[0190] 此外,本说明书中描述的效果仅是示例并且不受限制的,并且可以提供其他效果。
[0191] 本公开内容的实施方式不限于上述实施方式,并且可以在不脱离本公开内容的主旨的情况下进行各种修改。
[0192] 例如,本公开内容可以被配置为云计算,在该配置中,一个功能由多个装置通过网络共享并协同处理。
[0193] 此外,在上述的流程图中所描述的步骤中的每一个不仅可以由一个装置执行,而且还可以由多个装置共享和执行。
[0194] 另外,在一个步骤中包括多个处理的情况下,包括在一个步骤中的多个处理不仅可以由一个装置执行,而且还可以由多个装置共享和执行。
[0195] 此外,本公开内容还可以应用于执行除了移动之外的动作的策略的强化学习的学习装置。除了移动之外的动作的示例包括例如作为代理体的车辆的喇叭的警告、例如向另一个代理体的转向信号(turn signal)的意图的间接指示、这些动作和移动的组合等。
[0196] 另外,本公开内容还可以应用于同时执行对多个代理体(多代理体)的策略进行强化学习的学习装置。在这种情况下,在指定代理体之后,对每个代理体教导移动策略和报酬函数。
[0197] 注意,本公开内容还可以如下配置。
[0198] (1)
[0199] 一种学习装置,包括:
[0200] 显示控制部,被配置成使显示部显示关于强化学习模型的强化学习模型信息;以及
[0201] 校正部,被配置成基于对所述强化学习模型信息的用户输入来校正所述强化学习模型。
[0202] (2)
[0203] 根据(1)所述的学习装置,其中,所述强化学习模型信息包括指示由所述强化学习模型学习到的策略的策略信息。
[0204] (3)
[0205] 根据(1)所述的学习装置,其中,所述强化学习模型信息包括指示所述强化学习模型中所使用的报酬函数的报酬函数信息。
[0206] (4)
[0207] 根据(1)至(3)中任一项所述的学习装置,其中,所述用户输入包括策略的教导。
[0208] (5)
[0209] 根据(4)所述的学习装置,其中,在通过追加所述强化学习模型中所使用的报酬函数的基函数来改进目标函数的情况下,所述校正部追加所述报酬函数的基函数。
[0210] (6)
[0211] 根据(1)至(3)中任一项所述的学习装置,其中,所述用户输入包括报酬函数的教导。
[0212] (7)
[0213] 根据(6)所述的学习装置,其中,在通过追加所述强化学习模型中所使用的报酬函数的基函数来使作为所述用户输入所教导的报酬函数与基于所述用户输入而校正后的强化学习模型的报酬函数之间的差减小的情况下,所述校正部追加所述报酬函数的基函数。
[0214] (8)
[0215] 根据(1)至(7)中任一项所述的学习装置,其中,所述显示控制部将所述强化学习模型信息叠加在指示环境的环境信息上,并且使所述显示部显示叠加在环境信息上的所述强化学习模型信息。
[0216] (9)一种学习方法,包括:
[0217] 显示控制步骤,学习装置使显示部显示关于强化学习模型的强化学习模型信息;以及
[0218] 校正步骤,所述学习装置基于对所述强化学习模型信息的用户输入来校正所述强化学习模型。
[0219] [附图标记列表]
[0220] 10 PC,14显示控制部,15显示部,17校正部,71策略信息,50环境图,200 PC,204显示控制部,207校正部,221报酬函数信息,260环境图,281策略信息。

当前第1页 第1页 第2页 第3页