技术领域
[0001] 本说明书所述的技术涉及使用了机械学习的学习装置。
相关背景技术
[0002] 日本特开2013-106202号公报(专利文献1)公开了与采用机械学习的学习装置相关联的技术。在专利文献1中,公开了下述这样的技术:在进行机械学习的各代理所具有的模型与进行机械学习的其他代理所具有的模型相类似的情况下,通过合成这些模型整体来提高学习效率。另外,通过引用将专利文献1的公开内容列入本说明书中。
[0003] 现有技术文献
[0004] 专利文献
[0005] 专利文献1:日本特开2013-106202号公报
具体实施方式
[0025] 下面,参照附图适当对本发明的各种实施方式进行说明。另外,对附图中共用的构成要素标记相同的参照标号。
[0026] 1.系统结构
[0027] 图1是示出使用本发明的各种实施方式的学习装置单元的系统的结构例的示意图。如图1所示,该系统1包括:学习装置单元10-1~10-N、与通信线路20连接的服务器装置30、测量装置40以及输出装置50。学习装置单元10-1~10-N(以下存在统称为“学习装置单元10”的情况。)中的各个学习装置单元能够经由通信线路20而与学习装置单元10-1~10-N中的其他学习装置单元以及服务器装置30通信息。
[0028] 2.学习装置单元10的硬件结构
[0029] 学习装置单元10-1~10-N分别搭载于所对应的个体(设备)。另外,学习装置单元10-1~10-N分别与测量装置40-1~40-N以及输出装置50-1~50-N连接(虽然未进行图示)。
上述测量装置40-1~40-N以及输出装置50-1~50-N也存在搭载于所对应的个体(设备)的情况,也存在作为另外的设备而使用通信单元进行连接的情况。在一个实施方式中,学习装置单元10是能够执行机械学习的任意的信息处理装置,例如包括汽车及飞机、机器人等产业设备、化学设备及设施园艺等的环境控制终端、信息处理服务器、个人计算机、平板电脑、手机、智能手机、便携信息终端、触摸板等,但并不限于这些。
[0030] 在图1中,在标记有参照标号“10”的框内示出了学习装置单元10的硬件结构例。如图示那样,学习装置单元10包括CPU 11、主存储器12、输入I/F 13、通信I/F 14、外部存储器15以及输出I/F 18,这些各构成要素经由内部总线17而彼此电连接。
[0031] CPU 11从外部存储器15将操作系统等各种程序加载到主存储器12,并执行包含在所加载的程序中的命令。主存储器12用于储存CPU 11所执行的程序,例如由DRAM构成。
[0032] 输入I/F 13具有输入测量设备40的输出数据的功能,通过内部总线17与各构成要素连接。在此,作为测量设备40的输出的各种测量数据例如包括温度、湿度、位置信息及图像数据等由传感器等取得的信息,也可以是动态图像数据或以温度的某一间隔取得的温度数据组等时序数据。输出I/F 18通过内部总线17从各构成要素接收数据,并将所述数据输出至位于学习装置单元的外部的输出装置50。在此,关于被输出至输出装置50的数据,例如可以想到驱动马达时的控制信息,或者对蜂鸣器、控制开关、汽车的油门或制动器、液晶显示器等信息输出装置进行控制的控制信息等。
[0033] 通信I/F 14被安装为硬件、固件、或TCP/IP驱动器以及PPP驱动器等通信用软件、或上述部分的组合,并且,构成为能够经由通信网20与其他学习装置单元10和服务器装置10通各种信息。
[0034] 外部存储器15例如由磁盘驱动器、闪存等构成,存储操作系统等各种程序。
[0035] 具有以上的结构的一个实施方式的学习装置单元10能够作为如下的学习装置单元起作用:CPU 11执行从外部存储器15加载到主存储器12的规定的程序,由此进行机械学习。例如,该进行机械学习的学习装置单元是作为如下单元来实现的:包括多个学习装置等,所述多个学习装置通过CPU 11执行各种程序而被使用神经元网络来模型化。
[0036] 3.被使用神经元网络来模型化的学习装置的概念
[0037] 首先,参照图2对用于被模型化的学习装置的神经元的模型进行说明。图2是示出神经元的模型的示意图。
[0038] 如图2所示,神经元输出针对多个输入x(在此,作为一个示例为输入x1~输入x3)的输出y。对各输入x乘上与该输入x相对应的权重w。由此,神经元输出由下式来表现的输出y。另外,输入x、输出y及权重w都是矢量。
[0039] [数学式1]
[0040]
[0041] 在此,θ是偏差值,fk是活化函数。
[0042] 接下来,参照图3对组合了上述神经元的具有3层权重的神经元网络进行说明。图3是示出具有3层权重的神经元网络的示意图。
[0043] 如图3所示,从神经元网络的左侧输入多个输入x(在此,作为一个示例为输入x1~输入x3),并从右侧输出结果y(在此,作为一个示例为结果y1~输入y3)。
[0044] 具体而言,输入x1~输入x3是对3个神经元N11~N13中的各神经元乘上所对应的权重后被输入的。将这些输入所乘上的权重统一标记为w1。
[0045] 神经元N11~N13分别输出特征矢量z11~特征矢量z13。将这些特征矢量z11~特征矢量z13统一标记为z1。该特征矢量z1是权重w1与权重w2之间的特征矢量。
[0046] 特征矢量z11~特征矢量z13是对2个神经元N21、N22中的各神经元乘上所对应的权重后被输入的。将这些特征矢量所乘上的权重统一标记为w2。
[0047] 神经元N21、N22分别输出特征矢量z21、z22。将这些特征矢量z21、z22统一标记为z2。该特征矢量z2是权重w2与权重w3之间的特征矢量。
[0048] 特征矢量z21、z22是对3个神经元N31~N33的各神经元乘上所对应的权重后被输入的。将这些特征矢量所乘上的权重统一标记为w3。
[0049] 最后,神经元N31~N33分别输出结果y1~输入y3。
[0050] 权重w1~w3是能够利用反向传播算法(Backpropagation)来学习的。误差的信息从右侧进入,传播至左侧。反向传播算法是下述这样的手法:针对各神经元,调整(学习)各自的权重,使得减小输入x被输入时的输出y和真正的输出y(教师)之间的差分。
[0051] 该具有3层权重的神经元网络可以作为下述这样的神经元网络来考虑:包括依次连接的3个学习装置、即学习装置D1~D3。连接学习装置的变量(特征矢量z1、z2)随着各学习装置的学习进展而自动成为最优表达。这些特征矢量的表达是人无需明示地给予的。另外,由于这些特征矢量是通过学习来自动确定的,因此,很多情况下难以获知具体表达了什么。
[0052] 4.第1实施方式的学习装置单元10的基本结构
[0053] 接下来,根据上述“3”中说明的概念,参照图4对第1实施方式的学习装置单元10的基本结构例进行说明。
[0054] 图4是概念性地示出本发明第1实施方式的被使用神经元网络来模型化后的学习装置单元10的结构例的示意图。
[0055] 作为一个示例,搭载于个体1的学习装置单元(为了方便,称作“学习装置单元10-1”。)包括配置于输入侧的输入侧学习装置D11和配置于输出侧的输出侧学习装置D31。学习装置单元10-1也可以仅包括输入侧学习装置D11和输出侧学习装置D31中的任意一个,以代替上述配置。此外,搭载于个体1的学习装置单元10-1例如包括如下连接功能(未图示):将配置于服务器装置30(参照图1)的中间学习装置D2连接在输入侧学习装置D11与输出侧学习装置D31之间。另外,在学习装置单元10-1仅包括输入侧学习装置D11和输出侧学习装置D31中的任意一个的情况下,该连接功能用于将中间学习装置D2与那样所包含的学习装置连接。
[0056] 同样地,搭载于个体2(个体3)的学习装置单元(为了方便,称作“学习装置单元10-2”(“学习装置单元10-3”)。)包括配置于输入侧的输入侧学习装置D12(D13)和配置于输出侧的输出侧学习装置D32(D33)。学习装置单元10-2(10-3)也可以仅包括输入侧学习装置D12(D13)和输出侧学习装置D32(D33)中的任意一个,以代替上述配置。此外,搭载于个体2(个体3)的学习装置单元10-2(10-3)例如包括如下连接功能(未图示):将配置于服务器装置30的中间学习装置D2连接在输入侧学习装置D12(D13)与输出侧学习装置D32(D33)之间。
另外,在学习装置单元10-2(10-3)仅包括输入侧学习装置D12(D13)和输出侧学习装置D32(D33)中的任意一个的情况下,该连接功能用于将中间学习装置D2与那样所包含的学习装置连接。
[0057] 着眼于搭载于个体1的学习装置单元10-1,输入侧学习装置D11对1个输入分别乘以所对应的权重W11,然后交给所对应的神经元。输出由这些神经元输出的特征矢量(的集合)作为特征矢量Z11。
[0058] 然后,在连接功能(未图示)将中间学习装置D2“连接”在输入侧学习装置D11与输出侧学习装置D31之间(在仅存在输入侧学习装置D11和输出侧学习装置D31中的任意一个的情况下,“连接”在那样存在的学习装置上)。具体而言,连接功能经由通信线路将由输入侧学习装置D11输出的特征矢量Z11发送至服务器装置30(图1)。接收到特征矢量Z11的服务器装置30将该特征矢量Z11输出至通过该服务器装置30被使用神经元网络模型化后的中间学习装置D2。该中间学习装置D2输入将特征矢量Z11分别与所对应的权重W2相乘后得到的值,得到特征矢量Z2作为输出。进而,服务器装置30经由通信线路将这样得到的特征矢量Z2发送至学习装置单元10-1。接收到特征矢量Z2的学习装置单元10-1将该特征矢量Z2输出至输出侧学习装置D31。这样,将特征矢量Z11发送至服务器装置30的中间学习装置D2,然后从中间学习装置D2接收特征矢量Z2,再将所接收到的特征矢量Z2输出至输出侧学习装置D31这一一系列的动作相当于由“连接功能”来进行的“连接”。该连接功能是通过搭载于学习装置单元10-1的CPU 11执行规定的程序来实现的功能。
[0059] 另外,连接功能在与服务器装置30通信息(特征矢量Z11、Z2)时使用通信I/F14(参照图1)。
[0060] 输出侧学习装置D31输入对接收到的特征矢量Z2乘以所对应的权重W31而得到的值,从而得到输出。
[0061] 搭载于个体2(个体3)的学习装置单元10-2(10-3)也同样具有以上那样的结构。
[0062] 各学习装置单元分别与固有的测量装置和输出装置连接。例如,学习装置单元10-1分别与固有的测量装置40-1和输出装置50-1连接。关于用于输入侧学习装置的权重和用于输出侧学习装置的权重,使用学习装置单元中固有的权重。即,输入侧学习装置D11~D13分别使用固有的权重W11~W13,输出侧学习装置D31~D33分别使用固有的权重W31~W33。
另一方面,用于中间学习装置D2的权重W2(构成内部状态的信息)由所有的学习装置单元所共有。
[0063] 可以认为:图4所示的被模型化的网络在整体上具有与图3所示的被模型化的网络相同的结构,因此,在图4所示的网络中,也能够使用通常的反向传播算法来进行学习。即,向与图4所示的箭头相反的方向(即,从纸面上右侧朝左侧)传播误差,然后对包含在各学习装置中的各神经元(被给予的权重)进行学习。
[0064] 在本实施方式中,对各学习装置单元共有由服务器装置30实现的中间学习装置D2(更具体来说,为中间学习装置的内部状态)的结构进行了说明,但在另外的实施方式中,也可以采用各学习装置单元具备固有的中间学习装置的结构。该情况下,也可以以各学习装置单元所具备的中间学习装置在所有的学习装置单元之间具有相同的内部状态(权重)的方式(即,所有的中间学习装置的内部状态成为相同的方式),各学习装置单元相互以固定的频率对构成内部状态的信息(权重)进行通信。为了使所有的中间学习装置具有相同的内部状态,也可以设为,某一特定的学习装置单元(例如具有最新的内部状态的学习装置单元)将构成其内部状态的信息(权重)照原样发送给其他所有的学习装置单元,也可以设为,某一特定的学习装置单元(例如具有最新的内部状态的学习装置单元)仅将其内部状态与各学习装置单元的内部状态之间的差分发送至该学习装置单元。另外,各中间学习装置也可以使用通过将构成其内部状态的信息(权重)混合(例如存在线性和等运算处理,但并不限于此)而得到的信息(权重)。
[0065] 5.第2实施方式的学习装置单元10的基本结构
[0066] 接下来,参照图5对第2实施方式的学习装置单元10的基本结构例进行说明。
[0067] 图5是概念性地示出本发明的第2实施方式的被使用神经元网络来模型化后的学习装置单元10的结构例的示意图。以下,仅着眼于与上述的第1实施方式不同的点进行说明。
[0068] 搭载于各个体的学习装置单元、在此例如搭载于个体1的学习装置单元10-1包括配置于输入侧的输入侧学习装置D11、配置于输出侧的输出侧学习装置D31、以及在输入侧学习装置11与输出侧学习装置D31之间连接的中间学习装置D21。学习装置单元10-1也可以仅包括输入侧学习装置D11和输出侧学习装置D31中的任意一个,以代替上述配置。可以说,该中间学习装置D21也通过搭载于学习装置单元10-1的CPU 11执行规定的程序来实现的“连接功能”而连接在输入侧学习装置11与输出侧学习装置D31之间(在仅存在输入侧学习装置D11和输出侧学习装置D31中的任意一个的情况下,连接在那样存在的学习装置上)。
[0069] 在本实施方式中,处理各学习装置单元的中间学习装置不具有相同的内部状态(权重)的情况。
[0070] 参照图5,学习装置单元10-1的中间学习装置D21与学习装置单元10-2的中间学习装置D22不直接共有权重。由一个学习装置单元(例如学习装置单元10-1)经由通信线路将输入至中间学习装置D21的信息(特征矢量Z11)和与此相对应地从中间学习装置D21输出的信息(特征矢量Z21)的组合(set)发送至另一个学习装置单元(例如学习装置单元10-2)。该组合相当于产生学习装置单元10-1的中间学习装置D21具有权重W21这一内部状态的结果的信息(该信息也相当于在权利要求所记载的“构成内部状态的信息”)。
[0071] 接收到上述组合的学习装置单元10-2将上述组合中的特征矢量Z11作为特征矢量Z12、将上述组合中的特征矢量Z21作为特征矢量Z22来学习中间学习装置D22的权重W22。该学习可以使用通常的反向传播算法来执行。
[0072] 这样,可以说,虽然学习装置单元10-1和学习装置单元10-2不直接共有中间学习装置的权重,但间接地实质上共有中间学习装置的权重。
[0073] 6.第3实施方式的学习装置单元10的基本结构
[0074] 接下来,参照图6对第3实施方式的学习装置单元10的基本结构例进行说明。
[0075] 图6是概念性地示出本发明的第3实施方式的使用神经元网络来模型化后的学习装置单元10的结构例的示意图。以下,仅着眼于与上述的第1实施方式和第2实施方式不同的点进行说明。
[0076] 服务器装置30(或者也可以是至少1个某特定的学习装置单元)所具备的数据库储存有多个权重(在图6中,作为一个示例示出了权重(1)~(4))作为用于中间学习装置的权重。上述权重也可以是在特定的学习装置单元(例如被认为是执行了最有效或可靠性高的学习的学习装置单元)的中间学习装置中所使用的权重的复制。
[0077] 某一个体的学习装置单元(在此,作为一个示例为搭载于个体1的学习装置单元10-1)根据输入侧学习装置D11的输入或该输入侧学习装置D11的内部状态,经由通信线路从服务器装置30接收与权重(1)~(4)中的任意权重相关的信息。
[0078] 该学习装置单元整体通过使用配置于该学习装置单元的中间学习装置所接收到的权重、并按照通常的反向传播算法进行学习,从而更新在输入侧学习装置D11、中间学习装置D21以及输出侧学习装置D31中的各学习装置中所包含的权重(W11、W21、W31)。
[0079] 7.利用上述实施方式的学习装置单元10的具体的应用例
[0080] 接下来,对采用了上述第1实施方式1~第3实施方式的学习装置单元10的具体的应用例进行说明。
[0081] 在此,以容易理解说明为目的,对将各实施方式的学习装置单元使用于在食品工厂等中采用的制造工序中的情况进行具体的说明。具体而言,参照图7来考虑对载置于传送带上传送来的圆形的蛋糕和四边形的蛋糕分别搭上奶油和草莓的操作。图7是示出采用了本发明的各种实施方式的学习装置单元的具体应用的概要的示意图。
[0082] 如图7的(a)所示,搭载于个体1的学习装置单元处理在圆形的蛋糕上搭上奶油的操作。如图7的(b)所示,搭载于个体2的学习装置单元处理在四边形的蛋糕上搭上草莓的操作。
[0083] 在实现这样的操作时,各学习装置单元将由视觉传感器(vision sensor)获得的信息作为输入来进行“物品检测”和“合格品/不合格品的判定”。搭载于个体1的学习装置单元在判定为蛋糕是不合格品的情况下将该蛋糕从传送带上弹出去,在判定为蛋糕是合格品的情况下在该蛋糕上搭上奶油,搭载于个体2的学习装置单元在判定为蛋糕是不合格品的情况下停止生产线,在判定为蛋糕是合格品的情况下在该蛋糕上搭上草莓。
[0084] 7-1.使用第1实施方式的学习装置单元的情况
[0085] 图8~图11是对采用了本发明的第1实施方式的学习装置单元的应用的具体例详细地进行说明的示意图。
[0086] 在图8所示的示例中,作为个体,采用2个个体(个体1和个体2)。在个体1和个体2这两者中,输入是与各个体相对应地进行设置的视觉传感器的图像数据。输出根据各个体而不同,具体而言,在个体1中,是“将不合格品弹出去”和“搭上奶油”,在个体2中,是“停止生产线”和“搭上草莓”。
[0087] 首先,着眼于学习装置1,在包含在个体1的学习装置单元中的输入侧学习装置D11例如形成为在图8中的结构的情况下,将视觉传感器的图像数据作为输入,输出二维的特征矢量。假设该输入侧学习装置D11在学习结束后能够分担检测出某种物体经由传送带传送来的功能以及判定该物体是否具有正常的圆形的形状的功能。
[0088] 包含在个体2的学习装置单元中的输入侧学习装置D12也将视觉传感器的图像数据作为输入,输出二维的特征矢量。假设该输入侧学习装置D12在学习结束后能够分担检测出某种物体经由传送带传送来的功能以及判定该物体是否具有正常的四边形的形状的功能,即能够分担由于与各个学习装置单元连接的测量装置的差异而不同的处理。
[0089] 接下来,着眼于学习装置2,中间学习装置D2将输入侧学习装置D11、D12的各输出作为输入,例如形成为在图8中的结构的情况下,输出二维的特征矢量。假设该中间学习装置D2在学习结束后能够表现判定是否进行例外处理(对不合格品的处理)的结果、以及判定是否执行对正常产品的下一个操作(制造工序)的结果,即能够表现不依赖于与各个学习装置单元连接的测量装置或输出装置的特性的一般处理。
[0090] 接下来,着眼于学习装置3,包含在个体1的学习装置单元中的输出侧学习装置D31将中间学习装置D2的输出作为输入,将“把不合格品弹出去”和“搭上奶油”作为输出。包含在个体2的学习装置单元中的输出侧学习装置D32将中间学习装置D2的输出作为输入,将“停止生产线”和“搭上草莓”作为输出,即,假设输出侧学习装置D32能够分担由于与各个学习装置单元连接的输出装置的差异而不同的处理。
[0091] 具体而言,关于不合格品,输出侧学习装置D31输出表示“将不合格品弹出去”这一指示的信号,输出侧学习装置D32输出表示“停止生产线”这一指示的信号。关于正常产品,输出侧学习装置D31输出表示“搭上奶油”这一指示的信号。这样被各输出侧装置输出的信号经由输出I/F 18而被发送至输出装置50。
[0092] 接下来,在搭载于个体1的学习装置单元10-1进行学习的结果,在假设为各神经元的权重W已成为图9中所标记的权重的情况下,考虑搭载于个体1的学习装置单元10-1检测出“正确的物体”时的各学习装置的输出。
[0093] 图9中,虽然省略了输入侧学习装置D11的权重W11,但关于表示物体检测的输出,输出“1”作为通过偏差值(θ)和活化函数(fk)而得到的值。另一方面,关于“不合格品判定”的输出,则输出“0”。
[0094] 在中间学习装置D2中,输出“1”作为表示“操作执行判定”的输出,输出“0”作为表示“例外处理判定”的输出。
[0095] 在输出侧学习装置D31中,输出“1”作为表示“搭上奶油”的输出,输出“0”作为表示“将不合格品弹出去”的输出。
[0096] 这样,在检测出正确的物体的情况下,输出表示“搭上奶油”这一指示的信号。
[0097] 接下来,参照图10对使用反向传播算法来更新学习装置的权重的动作进行说明。
[0098] 考虑当搭载于个体1中的学习装置单元10-1的输入侧学习装置D11检测出“正确的物体”时,输出侧学习装置D31“输出了错误的输出”的情况。
[0099] 在此,假设为,由于中间学习装置D2的权重W2已成为图10中所例示的那样的权重而使得中间学习装置D2的输出与所期待的输出不同,其结果是,输出侧学习装置D31的输出也成为错误的输出。
[0100] 该情况下,CPU 11利用反向传播算法(Backpropagation)使各学习装置的权重反映出D31的输出结果与期待值(教师)之间的误差。由此来进行学习以使各学习装置的权重具有正确的分布。图10中,作为一个示例,示出了将W2与表示输入侧学习装置D11的“物体检测”的输出相乘的2个权重“0.9”和“0.1”分别被更新为“0.3”和“0.7”的情况。参照图9,这样更新后,当输入侧学习装置D11检测出“正确的物体”时,输出侧学习装置D31输出表示“搭上奶油”这一指示的信号的情况如上述那样。
[0101] 接下来,参照图11,考虑由搭载于个体2的学习装置单元10-2实现的检测动作和学习。
[0102] 中间学习装置D2具有通过搭载于个体1的学习装置单元10-1进行学习而得到的权重W2。在搭载于个体2的学习装置单元10-2中也共有该权重W2(即,中间学习装置D2的内部状态)。即,极端地说,即使学习装置单元10-2自身实际上不进行学习,利用通过由其他学习装置单元进行的学习而得到的中间学习装置D2的内部状态(权重),也能够简单且高精度地进行“操作执行判定”和“例外处理执行判定”。
[0103] 另外,图11示出了当检测出不合格品时进行停止生产线这一动作的情况下的各学习装置的情况的示例。
[0104] 7-2.使用第2实施方式的学习装置单元的情况
[0105] 图12是对采用了本发明的第2实施方式的学习装置单元的应用的具体例详细地进行说明的示意图。
[0106] 参照图5,如上述那样,在个体1中搭载的学习装置单元10-1的中间学习装置D21共有被输入至在个体2中搭载的学习装置单元10-2的中间学习装置D22的信息(特征矢量Z12)、和与此相对应地由中间学习装置D22输出的信息(特征矢量Z22)的组合。由于该组合是产生中间学习装置D22具有内部状态(权重W22)这一结果的信息,因此,通过由学习装置单元10-1来执行使用该组合的学习,存在中间学习装置D21的内部状态更加接近中间学习装置D22的内部状态的可能性。因此,中间学习装置D21能够间接地与中间学习装置D22共有内部状态。
[0107] 同样地,在个体2中搭载的学习装置单元10-2的中间学习装置D22共有被输入至在个体1中搭载的学习装置单元10-1的中间学习装置D12的信息(特征矢量Z11)、和与此相对应地由中间学习装置D12输出的信息(特征矢量Z21)的组合。因此,根据上述的理由,中间学习装置D22也能够间接地与中间学习装置D21共有内部状态。
[0108] 7-3.使用第3实施方式的学习装置单元的情况
[0109] 图13是对采用了本发明的第3实施方式的学习装置单元的应用的具体例详细地进行说明的示意图。
[0110] 参照图6,如上述那样,各学习装置单元(例如在个体1中搭载的学习装置单元10-1)的中间学习装置D21经由通信线路取得从储存于服务器装置30等所具备的数据库(存储装置)中的多个权重中选择出的权重(内部状态)。由此,中间学习装置D21可以利用根据输入数据或输入侧学习装置的内部状态选择出的权重(内部状态)。为了实现此方案,中间学习装置D21或学习装置单元10-1具备学习功能(确定单元),该学习功能用于确定学习装置单元10-1(包含在学习装置单元10-1中的学习装置)所接收的输入、或学习装置单元10-1的内部状态(包含在学习装置单元10-1中的学习装置的内部状态),中间学习装置D21也可以根据由该学习功能确定的上述输入或上述内部状态从储存于上述存储装置的多个权重中取得适当的权重(内部状态)。具体而言,学习功能不仅使用预先初始设定好的识别方法(确定方法),例如在输出侧学习装置的输出(学习装置单元整体的输出)与所期待的输出不同的情况下,能够利用对识别方法的输入来确定从数据库选择什么,即以与此相应地改变识别方法(确定方法)的方式进行学习。在学习装置单元的内部为了执行学习功能而准备好的学习装置,通过将学习装置单元的输出矢量的一部分用于该识别等而能够给出输入、内部状态、输出以及与所期待的输出的误差,来执行学习。
[0111] 以上说明的具体的应用只不过是为了容易说明而使用的一个示例,各框的输入输出数据的形式、意思以及各框的处理内容等并不限定于到此为止所说明的方案。不如说,不依赖于个体的应共有的信息(与中间学习装置相关联的信息)和依赖于个体的信息(与输入侧学习装置和输出侧学习装置相关联的信息)即使没有被用户明确地给出,随着推进学习,也会自动被分开。
[0112] 8.变形例
[0113] 到此为止,为了使说明变得简洁,对由(搭载于)多个个体的(学习装置单元)共有的中间学习装置为1个装置的情况进行了说明。但是,(搭载于)各个体的(学习装置单元)也可以同时利用多个中间学习装置。
[0114] 例如,如图14所例示的那样,在(搭载于)各个体的(学习装置单元)中,中间学习装置D21与互相并列设置的2个中间学习装置D22、D23串联连接。一般来说,各种实施方式的中间学习装置可以至少包括1个或多个中间学习装置、以及与该1个或多个中间学习装置串联和/或并联连接的1个或多个中间学习装置。
[0115] 参照前面使用的图8对搭载于各个体的学习装置单元共有多个中间学习装置的一个具体例进行说明。上述多个中间学习装置可以分别作为处理互不相同的对象范围的学习装置来设置。作为第1中间学习装置,准备有以“整个社会”为对象而被共有的中间学习装置D21,进一步地,在该中间学习装置D21与后段的输出侧学习装置D31、D32之间,作为第2中间学习装置,准备有以“工厂内的个体之间”为对象而被共有的中间学习装置D22,来代替图8所示的中间学习装置D2。在中间学习装置D21中,例如,进行基于由其他10000台学习装置单元所共有的更一般的技术的运算处理,进行“例外处理执行判定”和“操作执行判定处理”作为输出。另一方面,中间学习装置D22由配置于某工厂内的其他50台学习装置单元(包括个体1所搭载的学习装置单元以及个体2所搭载的学习装置单元)所共有,进行“不合格品应对处理”和“制造继续执行”这样的输出。由此,中间学习装置D22在从中间学习装置D21接到请求执行例外处理而不执行操作执行这样的输入的情况下,使用该工厂中的局部地共有的技术来进行“执行不合格品应对处理”这一输出。这些输出被输入到输出侧学习装置D31。由此,与“将不合格品弹出去”等的输出侧的特性相称的学习由输出侧学习装置D31来进行。如以上例示的那样,各种实施方式的中间学习装置可以适当包括多个中间学习装置。
[0116] 以上,各种实施方式对使用了神经元网络的、利用基于有教师的学习的学习装置的情况进行了说明。该情况下,关于1个个体中的“一般的(已知的)”学习的动作和特征,可以说:取得并使用与各个体相对应的教师数据(输入输出数据的组),以使实现学习装置的函数最优化的方式进行学习,以便相对于输入进行正确的输出。
[0117] 但是,各种实施方式并不限定于此。例如,在针对自动驾驶或机器人的控制等那样的环境要求行动的问题中,不仅利用有教师的学习,而且还可以利用强化学习的结构。
[0118] 另外,根据作为对象的课题,还可以利用不使用神经元网络的机械学习。例如,在许多个体中以相同的条件进行数据收集,在已知道该输入数据的特性的情况下等,不一定需要使用神经元网络。该情况下,可以在输入侧学习装置中使用根据经验已知优越的特征提取器。在中学学习装置中,进行聚类(clustering)、降维、词典学习(Dictionary learning)等无教师的学习算法,这使用许多个体的输入来实施。例如如果是强化学习,则输出学习装置执行一般的表格型的Q学习或古典的控制理论的控制等。
[0119] 另外,在使用了神经元网络的机械学习中,可以使用照相机图像数据和速度数据等维数不同的多个形式的数据,用1个学习装置来进行学习。
[0120] 本说明书中所说明的处理和步骤不仅可以通过在实施方式中明示地说明的方案,还可以通过软件、硬件或它们的组合来实现。具体而言,本说明书中说明的处理和步骤通过在集成电路、挥发性存储器、非挥发性存储器、磁盘及光存储器等介质中安装与该处理相应的逻辑电路来实现。另外,关于本说明书中说明的处理和步骤,可以将这些处理/步骤作为计算机程序来安装,并使各种计算机来执行所述计算机程序。
[0121] 即使已经说明过,本说明书中所说明的处理和步骤由单独的装置、软件、组合件及模块来执行,那样的处理或步骤也可以由多个装置、多个软件、多个组合件和/或多个模块来执行。另外,即使已经说明过,本说明书中所说明的数据、表格或数据库被储存于单独的存储器中,那样的数据、表格或数据库也可以分散地储存于单独的装置所具备的多个存储器中或被分散地配置在多个装置中的多个存储器中。此外,本说明书中所说明的软件和硬件的要素可以通过将这些要素整合为更少的构成要素、或分解为更多的构成要素来实现。
[0122] 9.关于采用了各种实施方式的学习装置单元的应用
[0123] 以上,为了容易理解说明,对将各种实施方式用于在食品工厂中采用的制造工序的情况进行了说明。但是,在本说明书中公开的各种实施方式并不限定于此,能够用于各种应用中。例如,上述实施方式还可以用于以下例示地列举出的各种应用中。
[0124] (1)汽车
[0125] 各种实施方式的学习装置单元可以将搭载于汽车的照相机、距离传感器、GPS等的传感器信息作为输入,并将进行驾驶支援信息的提示或自动驾驶的情况作为输出。该情况下,能够高效地利用从各个体、即各汽车(各个体上搭载有各种实施方式的学习装置单元)输出的传感器信息等。
[0126] (2)制造业
[0127] 各种实施方式的学习装置单元能够将来自用于制造的多个制造装置/机器人的信息作为输入,并将给予这些制造装置/机器人的指示作为输出。各种实施方式的学习装置单元例如能够用于高程度的机器人控制的实现、工序最优化、异常的预测等中。
[0128] (3)农业
[0129] 各种实施方式的学习装置单元能够应用于温室栽培中的环境控制,例如,能够用于与温室的外部环境变化相对应的环境控制的实现、能耗的最小化、与生产种类相对应的栽培方法的共有化等中。
[0130] (4)所有具有传感器/控制装置的设备
[0131] 各种实施方式的学习装置单元能够应用于多个设备,能够用于传感器信息的分析结果的出示、设备的控制等中。
[0132] 在任何应用中,通过使用各种实施方式的学习装置单元,与以往的手法相比较,都可以改善传感器信息的利用所花费的时间成本和精度。
[0133] 如以上所说明的那样,在各种实施方式中,共有在搭载于许多个体(设备)的学习装置单元(的中间学习装置)之间共用的技术。具体而言,搭载于各个体(设备)的学习装置单元构成为包括学习该个体中固有的信息的学习装置、以及进行和能够在与其他个体之间共有的信息相关的学习的学习装置。搭载于具备上述结构的各个体的学习装置单元在执行学习时,利用在搭载于其他个体的学习装置单元中得到的输入输出数据和/或学习结果(包括内部状态、将某种数据输入学习装置的情况下得到的输出等)。
[0134] 由此,与在每个个体中独立且大量地储存数据来执行学习的情况相比较,能够以更短的时间来执行学习。此外,与单纯地合成针对各个体而得到的数据的情况(例如专利文献1所公开的手法)相比较,能够在抑制精度降低的基础上执行学习。
[0135] 标号说明
[0136] 10:学习装置单元;
[0137] 11:CPU;
[0138] 13:输入I/F;
[0139] 14:通信I/F;
[0140] 18:输出I/F;
[0141] 20:通信线路;
[0142] 30:服务器装置;
[0143] 40:测量装置;
[0144] 50:输出装置;
[0145] D11~D13:输入侧学习装置;
[0146] D2、D21、D22:中间学习装置;
[0147] D31~D33:输出侧学习装置。