首页 / 信息处理方法、信息处理系统以及程序

信息处理方法、信息处理系统以及程序实质审查 发明

技术领域

[0001] 本公开涉及分析弦乐器的演奏的技术。

相关背景技术

[0002] 从以往提出了用于辅助弦乐器的演奏的各种技术。例如在专利文献1中公开了在显示装置显示表示演奏弦乐器的和弦(chord)时的运指的运指图像的技术。
[0003] 现有技术文献
[0004] 专利文献
[0005] 专利文献1:日本特开2005‑241877号公报

具体实施方式

[0027] A:第一实施方式
[0028] 图1是例示第一实施方式所涉及的信息处理系统100的结构的框图。信息处理系统100是用于分析由利用者U进行的弦乐器200的演奏的计算机系统(演奏分析系统)。弦乐器
200例如是包含指板和多个弦的原声吉他等自然乐器。第一实施方式的信息处理系统100对由利用者U进行的弦乐器200的演奏中的运指进行分析。运指是在弦乐器200的演奏中利用者U使用自身的手指的方法。具体而言,利用者U将各弦针对指板而按压(以下称为“压弦”)的手指、和指板上的压弦的位置(弦与音品的组合)作为弦乐器200的运指而被分析。
[0029] 信息处理系统100具备控制装置11、存储装置12、操作装置13、显示装置14、收音装置15和摄像装置16。信息处理系统100例如通过智能手机或平板电脑终端等可移动型的信息装置、或个人计算机等可移动型或放置型的信息装置来实现。另外,信息处理系统100除了作为单体的装置来实现以外,也由通过相互独立体来构成的多个装置来实现。
[0030] 控制装置11是控制信息处理系统100的动作的单个或多个处理器。具体而言,例如由CPU(Central Processing Unit:中央处理单元)、GPU(Graphics Processing Unit:图形处理单元)、SPU(Sound Processing Unit:声音处理单元)、DSP(Digital Signal Processor:数字信号处理器)、FPGA(Field Programmable Gate Array:现场可编程门阵列)、或ASIC(Application Specific Integrated Circuit:专用用途集成电路)等一种以上的处理器来构成控制装置11。
[0031] 存储装置12是存储控制装置11所执行的程序、和控制装置11所使用的各种数据的单个或多个存储器。例如半导体记录介质以及磁记录介质等公知的记录介质、或多种记录介质的组合作为存储装置12而被利用。另外,例如,也可以是针对信息处理系统100而可装卸的可移动型的记录介质、或控制装置11经由通信网而可访问(access)的记录介质(例如云储存器)作为存储装置12而被利用。
[0032] 操作装置13是接受由利用者U进行的操作的输入设备。例如,利用者U操作的操作件、或探测由利用者U进行的接触的触摸面板作为操作装置13而被利用。显示装置14根据基于控制装置11的控制,显示各种图像。例如,液晶显示面板或有机EL面板等各种显示面板作为显示装置14而被利用。另外,也可以是与信息处理系统100分体的操作装置13或显示装置14针对信息处理系统100通过有线或无线来连接。
[0033] 收音装置15是通过收集通过由利用者U进行的演奏从弦乐器200发音的乐音,从而生成声音信号Qx的麦克风。声音信号Qx是表示弦乐器200发音的乐音的波形的信号。另外,也可以是与信息处理系统100分体的收音装置15通过有线或无线与信息处理系统100连接。为了方便,省略将声音信号Qx从模拟转换为数字的A/D转换器的图示。
[0034] 摄像装置16通过拍摄利用者U演奏弦乐器200的情形来生成图像信号Qy。图像信号Qy是表示利用者U演奏弦乐器200的动画的信号。具体而言,摄像装置16具备拍摄镜片等光学系统、接收来自光学系统的入射光的摄像元件、和生成与基于摄像元件的受光量对应的图像信号Qy的处理电路。另外,也可以是与信息处理系统100分体的摄像装置16通过有线或无线与信息处理系统100连接。
[0035] 图2是与摄像装置16所拍摄的图像有关的说明图。图像信号Qy所表示的图像(以下称为“演奏图像”)G包含演奏者图像Ga和乐器图像Gb。演奏者图像Ga是演奏弦乐器200的利用者U的图像。乐器图像Gb是利用者U演奏的弦乐器200的图像。演奏者图像Ga包含利用者U的左手的图像(以下称为“左手图像”)Ga1和利用者U的右手的图像(以下称为“右手图像”)Ga2。在以下的说明中,设想利用者U用左手压弦,用右手拨弦的情况。但是,利用者U也可以用左手拨弦,用右手压弦。乐器图像Gb包含弦乐器的指板的图像(以下称为“指板图像”)Gb1。
[0036] 图3是例示信息处理系统100的功能性的结构的框图。控制装置11通过执行存储于存储装置12的程序,从而实现用于分析由利用者U进行的弦乐器200的演奏的多个功能(信息取得部21、信息生成部22、提示处理部23)。
[0037] 信息取得部21取得输入信息C。输入信息C是包含声音信息X和手指信息Y的控制数据。声音信息X是与利用者U通过弦乐器200演奏的乐音有关的数据。手指信息Y是与演奏弦乐器200的利用者U的演奏图像G有关的数据。基于信息取得部21的输入信息C的生成与由利用者U进行的弦乐器200的演奏并行地依次反复进行。第一实施方式的信息取得部21包含声音分析部211和图像分析部212。
[0038] 声音分析部211通过声音信号Qx的分析,生成声音信息X。第一实施方式的声音信息X指定利用者U通过弦乐器200演奏的音高。即,声音分析部211推定声音信号Qx所表示的声音的音高,生成指定该音高的声音信息X。另外,在声音信号Qx的音高的推定中可任意地采用公知的分析技术。
[0039] 此外,声音分析部211通过声音信号Qx的分析依次检测发音点。发音点是由弦乐器200进行的发音开始的时间点(即音头(onset))。具体而言,声音分析部211以给定的周期依次确定声音信号Qx的音量,将音量超过给定的阈值的时间点作为发音点来检测。另外,通过利用者U的拨弦,弦乐器200发音。因此,弦乐器200的发音点也换言为利用者U对弦乐器200进行拨弦的时间点。
[0040] 声音分析部211以发音点的检测为契机,生成声音信息X。即,按弦乐器200的每个发音点生成声音信息X。例如,声音分析部211通过分析声音信号Qx中的从各发音点经过了给定的时间(例如150毫秒)的时间点的样本,从而生成声音信息X。与各发音点对应的声音信息X是表示在该发音点处发音的乐音的音高的信息。
[0041] 图像分析部212通过图像信号Qy的分析生成手指信息Y。第一实施方式的手指信息Y表示利用者U的左手图像Ga1和弦乐器200的指板图像Gb1。图像分析部212以基于声音分析部211的发音点的检测为契机,生成手指信息Y。即,按弦乐器200的每个发音点生成手指信息Y。例如,图像分析部212通过分析图像信号Qy中的从各发音点经过了给定的时间(例如150毫秒)的时间点的演奏图像G,从而生成手指信息Y。与各发音点对应的手指信息Y表示该发音点处的左手图像Ga1和指板图像Gb1。
[0042] 图4是图像分析部212生成手指信息Y的处理(以下称为“图像分析处理”)Sa3的流程图。以发音点的检测为契机,图像分析处理Sa3开始。若图像分析处理Sa3开始,则图像分析部212执行图像检测处理(Sa31)。图像检测处理是从图像信号Qy所表示的演奏图像G中提取利用者U的左手图像Ga1和该弦乐器200的指板图像Gb1的处理。在图像检测处理中,例如被利用利用了深度神经网络等统计模型的物体检测处理。
[0043] 图像分析部212执行图像变换处理(Sa32)。如图2所例示的那样,图像变换处理是对演奏图像G进行变换,以使指板图像Gb1变换为从给定的方向以及距离观测指板的图像的图像处理。例如,图像分析部212对演奏图像G进行变换,以使指板图像Gb1近似于以给定的方向配置的长方形的基准图像Gref。利用者U的左手图像Ga1也与指板图像Gb1一起变换。在图像变换处理中,利用使根据指板图像Gb1和基准图像Gref生成的变换矩阵作用于演奏图像G的投影变换等公知的图像处理。图像分析部212生成表示图像变换处理后的演奏图像G的手指信息Y。
[0044] 如以上的说明那样,声音信息X以及手指信息Y按每个发音点生成。即,信息取得部21按弦乐器200的每个发音点生成输入信息C。与相互不同的发音点对应的多个输入信息C的时间序列被生成。
[0045] 图3的信息生成部22利用输入信息C来生成运指信息Z。运指信息Z是表示弦乐器200的运指的任意形式的数据。具体而言,运指信息Z指定在弦乐器200的压弦中使用的一个以上的手指的手指编号、和基于该手指的压弦位置。压弦位置例如通过弦乐器200的多个弦中的任一个与设置于指板的多个音品中的任一个的组合来指定。
[0046] 如前述的那样,输入信息C是按每个发音点生成的。因此,信息生成部22按每个发音点生成运指信息Z。即,生成与相互不同的发音点对应的多个运指信息Z的时间序列。与各发音点对应的运指信息Z是表示该发音点处的运指的信息。从以上的说明所理解的那样,在第一实施方式中,按弦乐器200的每个发音点执行输入信息C的取得和运指信息Z的生成。因此,能够抑制在利用者U进行了压弦但未进行拨弦的状态下,无用地生成运指信息。但是,也可以以与发音点无关的给定的周期,反复进行输入信息C的取得和运指信息Z的生成。
[0047] 在由信息生成部22进行的运指信息Z的生成中利用生成模型M。具体而言,信息生成部22通过生成模型M对输入信息C进行处理,由此生成运指信息Z。生成模型M是通过机器学习来学习了输入信息C与运指信息Z的关系的学习完毕模型。即,生成模型M针对输入信息C输出在统计上适当的运指信息Z。
[0048] 生成模型M通过使控制装置11执行根据输入信息C生成运指信息Z的程序、与在该运算中应用的多个变量(例如加权值以及偏差(bias))的组合来实现。实现生成模型M的程序以及多个变量存储在存储装置12。生成模型M的多个变量事先通过机器学习来设定。
[0049] 生成模型M例如由深度神经网络构成。例如,递归型神经网络(RNN:Recurrent Neural Network)、或卷积神经网络(CNN:Convolutional Neural Network)等任意形式的深度神经网络作为生成模型M而被利用。也可以由多种深度神经网络的组合来构成生成模型M。此外,也可以在生成模型M搭载长短期记忆(LSTM:Long Short‑Term Memory)或注意力(Attention)等附加的元素。
[0050] 提示处理部23向利用者U提示运指信息Z。具体而言,提示处理部23在显示装置14显示图5所例示的参照图像R1。参照图像R1包含与由利用者U进行的弦乐器200的演奏对应的乐谱B(B1、B2)。乐谱B1是与运指信息Z所表示的运指对应的五线谱。乐谱B2是与运指信息Z所表示的运指对应的tab谱。即,乐谱B2是包含与弦乐器200的相互不同的弦对应的多个(六根)的横线的图像。在乐谱B2中,与压弦位置对应的音品的编号按每个弦按时间序列显示。提示处理部23利用运指信息Z的时间序列来生成乐谱信息P。乐谱信息P是表示图5的乐谱B的任意形式的数据。提示处理部23在显示装置14显示乐谱信息P所表示的乐谱B。
[0051] 图6是控制装置11执行的处理(以下称为“演奏分析处理”)Sa的流程图。例如以来自利用者U的对操作装置13的指示为契机,演奏分析处理Sa开始。
[0052] 若演奏分析处理Sa开始,则控制装置11(声音分析部211)进行等待直到通过声音信号Qx的分析检测到发音点为止(Sa1:否(NO))。在检测到发音点的情况下(Sa1:是(YES)),控制装置11(声音分析部211)通过声音信号Qx的分析生成声音信息X(Sa2)。此外,控制装置11(图像分析部212)通过图4的图像分析处理Sa3,生成手指信息Y。另外,声音信息X的生成(Sa2)以及手指信息Y的生成(Sa3)的顺序也可以反转。如以上的说明那样,按弦乐器200的每个发音点生成输入信息C。另外,也可以以给定的周期生成输入信息C。
[0053] 控制装置11(信息生成部22)通过生成模型M对输入信息C进行处理,由此生成运指信息Z(Sa4)。此外,控制装置11(提示处理部23)向利用者U提示运指信息Z(Sa5、Sa6)。具体而言,控制装置11根据运指信息Z生成表示乐谱B的乐谱信息P(Sa5),在显示装置14显示该乐谱信息P所表示的乐谱B(Sa6)。
[0054] 控制装置11判定给定的结束条件是否成立(Sa7)。结束条件例如是被指示来自利用者U的对操作装置13的演奏分析处理Sa的结束、或从弦乐器200的最新的发音点经过了给定的时间。在结束条件不成立的情况下(Sa7:否(NO)),控制装置11将处理转移到步骤Sa1。即,输入信息C的取得(Sa2、Sa3)、运指信息Z的生成(Sa4)和运指信息Z的提示(Sa5、Sa6)按弦乐器200的每个发音点反复进行。另一方面,在结束条件成立的情况下(Sa7:是(YES)),演奏分析处理Sa结束。
[0055] 从以上的说明所理解的那样,在第一实施方式中,通过生成模型M来处理包含声音信息X和手指信息Y的输入信息C,由此生成运指信息Z。因此,能够生成与通过由利用者U进行的演奏而弦乐器200发音的乐音(声音信号Qx)、和利用者U演奏弦乐器200的图像(图像信号Qy)对应的运指信息Z。即,能够提供与由利用者U进行的弦乐器200的演奏对应的运指信息Z。在第一实施方式中,特别是利用运指信息Z来生成乐谱信息P。因此,利用者U能够通过乐谱B的显示有效地利用运指信息Z。
[0056] 图7是例示第一实施方式所涉及的机器学习系统400的结构的框图。机器学习系统400是通过机器学习来建立信息处理系统100所使用的生成模型M的计算机系统。机器学习系统400具备控制装置41和存储装置42。
[0057] 控制装置41由控制机器学习系统400的各元素的单个或多个处理器构成。例如,控制装置41由CPU、GPU、SPU、DSP、FPGA、或ASIC等的一种以上的处理器构成。
[0058] 存储装置42是存储控制装置41所执行的程序、和控制装置41所使用的各种数据的单个或多个存储器。存储装置42例如由磁记录介质或半导体记录介质等公知的记录介质构成。也可以由多种记录介质的组合构成存储装置42。另外,针对机器学习系统400而可装卸的可移动型的记录介质、或控制装置41经由通信网而可访问的记录介质(例如云储存器)作为存储装置42而被利用。
[0059] 图8是例示机器学习系统400的功能性的结构的框图。存储装置42存储多个训练数据T。多个训练数据T分别是包含训练用的输入信息Ct和训练用的运指信息Zt的训练数据。
[0060] 训练用的输入信息Ct包含声音信息Xt和手指信息Yt。声音信息Xt是与多个演奏者(以下称为“参照演奏者”)通过弦乐器201来演奏的乐音有关的数据。具体而言,声音信息Xt指定参照演奏者通过弦乐器201来演奏的音高。此外,手指信息Yt是与拍摄了参照演奏者的左手和该弦乐器201的指板的图像有关的数据。具体而言,手指信息Yt表示参照演奏者的左手的图像和弦乐器201的指板的图像。
[0061] 训练数据T的运指信息Zt是表示由参照演奏者进行的弦乐器201的运指的数据。即,各训练数据T的运指信息Zt是针对该训练数据T的输入信息Ct,生成模型M应生成的正确标签。
[0062] 具体而言,运指信息Zt指定参照演奏者在弦乐器201的压弦中使用的左手的手指编号和压弦位置。运指信息Zt的压弦位置是设置于弦乐器201的检测装置250所检测到的位置。检测装置250例如是设置于弦乐器201的指板的光学性或机械性传感器。另外,在运指信息Zt的压弦位置的检测中,例如任意地采用美国专利第9646591号说明书中所记载的技术等公知的技术。从以上的说明所理解的那样,学习用的运指信息Zt是利用设置于弦乐器201的检测装置250检测到由参照演奏者进行的演奏的结果来生成的。因此,能够减轻准备在生成模型M的机器学习中被利用的训练数据T的负荷。
[0063] 机器学习系统400的控制装置41通过执行存储于存储装置42的程序,从而实现用于生成生成模型M的多个功能(训练数据取得部51、学习处理部52)。训练数据取得部51取得多个训练数据T。学习处理部52通过利用了多个训练数据T的机器学习来建立生成模型M。
[0064] 图9是控制装置41通过机器学习来建立生成模型M的处理(以下称为“机器学习处理”)Sb的流程图。例如,以来自机器学习系统400的运营者的指示为契机,机器学习处理Sb开始。
[0065] 若机器学习处理Sb开始,则控制装置41(训练数据取得部51)选择多个训练数据T中的任一个(以下称为“选择训练数据T”)(Sb1)。控制装置41(学习处理部52)利用选择训练数据T来反复更新初始或临时的生成模型M(以下称为“临时模型M0”)的多个系数(Sb2~Sb4)。
[0066] 控制装置41通过临时模型M0对选择训练数据T的输入信息Ct进行处理,由此生成运指信息Z(Sb2)。控制装置41计算表示临时模型M0所生成的运指信息Z与选择训练数据T的运指信息Zt的误差的损失函数(Sb3)。控制装置41对临时模型M0的多个变量进行更新,以使损失函数降低(理想的是最小化)(Sb4)。在与损失函数对应的各变量的更新中例如被利用误差逆传播法。
[0067] 控制装置41判定给定的结束条件是否成立(Sb5)。结束条件是损失函数低于给定的阈值、或损失函数的变化量低于给定的阈值。在结束条件不成立的情况下(Sb5:否(NO)),控制装置41将未选择的训练数据T选择为新的选择训练数据T(Sb1)。即,直到结束条件的成立(Sb5:是(YES))为止,反复进行更新临时模型M0的多个变量的处理(Sb1 Sb4)。在结束条~件成立的情况下(Sb5:是(YES)),控制装置41结束机器学习处理Sb。结束条件成立的时间点处的临时模型M0被确定为训练完毕的生成模型M。
[0068] 从以上的说明所理解的那样,生成模型M对在多个训练数据T中的输入信息Ct与运指信息Zt之间潜在的关系进行学习。因此,训练完毕的生成模型M根据以上的关系,针对未知的输入信息C输出在统计上适当的运指信息Z。
[0069] 控制装置41将通过机器学习处理Sb建立的生成模型M发送到信息处理系统100。具体而言,规定生成模型M的多个变量被发送到信息处理系统100。信息处理系统100的控制装置11接收从机器学习系统400发送的生成模型M,将该生成模型M保存在存储装置12。
[0070] B:第二实施方式
[0071] 对第二实施方式进行说明。另外,在以下所例示的各方式中,对于功能与第一实施方式同样的元素,沿用与第一实施方式的说明同样的附图标记,并适当地省略各自的详细的说明。
[0072] 第二实施方式中的信息处理系统100的结构以及动作与第一实施方式同样。因此,在第二实施方式中也实现与第一实施方式同样的效果。在第二实施方式中,应用于机器学习处理Sb的训练数据T的运指信息Zt与第一实施方式不同。
[0073] 在第一实施方式中,包含与由多个参照演奏者的每一个进行的演奏对应的输入信息Ct(声音信息Xt以及手指信息Yt)、和与由各参照演奏者进行的演奏对应的运指信息Zt的训练数据T被利用于生成模型M的机器学习处理Sb。即,训练数据T中的输入信息Ct和运指信息Zt对应于由共同的参照演奏者进行的演奏。
[0074] 在第二实施方式中,与第一实施方式同样地,各训练数据T的输入信息Ct是与由多个参照演奏者进行的演奏对应的信息(声音信息Xt以及手指信息Yt)。另一方面,第二实施方式中的各训练数据T的运指信息Zt表示由特定的一人的演奏者(以下称为“目标演奏者”)进行的演奏时的运指。目标演奏者例如是通过特征性的运指来演奏弦乐器200的音乐艺术家、或通过模范的运指来演奏弦乐器200的音乐指导者。即,第二实施方式的训练数据T中的输入信息Ct和运指信息Zt对应于由相互不同的演奏者(参照演奏者/目标演奏者)进行的演奏。
[0075] 训练数据T中的目标演奏者的运指信息Zt是通过分析拍摄了该目标演奏者演奏弦乐器的情形的图像而准备的。例如,根据目标演奏者出演的音乐现场(live)或音乐视频的图像生成运指信息Zt。因此,在运指信息Zt中反映目标演奏者特有的运指。例如,在运指信息Zt中反映在弦乐器的指板中的特定的范围内压弦的频度高这样的倾向、或用左手的特定的手指压弦的频度高这样的倾向。
[0076] 从以上的说明所理解的那样,第二实施方式的生成模型M生成与由利用者U进行的演奏(声音信息Xt以及手指信息Yt)对应、且反映了由目标演奏者进行的运指的倾向的运指信息Z。例如,运指信息Z表示在假定目标演奏者演奏了与利用者U同样的乐曲的情况下,该目标演奏者采用的可能性高的运指。因此,利用者U通过确认根据运指信息Z而显示的乐谱B,从而能够确认如果是目标演奏者则通过怎样的运指来演奏该利用者U所演奏的乐曲。
[0077] 根据第二实施方式,例如音乐艺术家或音乐指导者等目标演奏者能够享受对多个利用者U能够简便地提供自身的运指信息Z这样的顾客体验。此外,利用者U能够享受一边参照所希望的目标演奏者的运指信息Z一边练习弦乐器这样的顾客体验。
[0078] C:第三实施方式
[0079] 图10是例示第三实施方式中的信息处理系统100的功能性的结构的框图。在第三实施方式中,选择性地利用与相互不同的目标演奏者对应的多个生成模型M。多个生成模型M分别相当于第二实施方式的一个生成模型M。与各目标演奏者对应的一个生成模型M是学习了学习用的输入信息Ct与表示由该目标演奏者进行的运指的学习用的运指信息Zt的关系的模型。
[0080] 具体而言,在第三实施方式中,按每个目标演奏者准备多个训练数据T。各目标演奏者的生成模型M通过利用了该目标演奏者的多个训练数据T的机器学习处理Sb来建立。因此,与各目标演奏者对应的生成模型M生成与由利用者U进行的演奏(声音信息Xt以及手指信息Yt)对应、且反映了由该目标演奏者进行的运指的倾向的运指信息Z。
[0081] 利用者U通过操作操作装置13,从而能够选择多个目标演奏者中的任一个。信息生成部22接受由利用者U进行的目标演奏者的选择。信息生成部22通过多个生成模型M中的与利用者U选择的目标演奏者对应的生成模型M对输入信息C进行处理,由此生成运指信息Z(Sa4)。因此,生成模型M所生成的运指信息Z表示在假定利用者U所选择的目标演奏者演奏了与利用者U同样的乐曲的情况下,该目标演奏者采用的可能性高的运指。
[0082] 在第三实施方式中,也实现与第二实施方式同样的效果。在第三实施方式中,特别是选择性地利用与相互不同的目标演奏者对应的多个生成模型M中的任一个。因此,能够生成反映了各目标演奏者特有的运指的倾向的运指信息Z。
[0083] D:第四实施方式
[0084] 图11是例示第四实施方式中的信息处理系统100的功能性的结构的框图。第四实施方式的输入信息C除了与第一实施方式同样的声音信息X以及手指信息Y以外,还包含识别信息D。识别信息D是用于识别多个目标演奏者中的任一个的代码串。
[0085] 与第三实施方式同样地,利用者U通过操作操作装置13,从而能够选择多个目标演奏者中的任一个。信息取得部21生成利用者U所选择的目标演奏者的识别信息D。即,信息取得部21生成包含声音信息X、手指信息Y和识别信息D的输入信息C。
[0086] 图12是例示第四实施方式中的机器学习系统400的功能性的结构的框图。在第四实施方式中,与第三实施方式同样地,按每个目标演奏者准备多个训练数据T。与各目标演奏者对应的训练数据T除了与第一实施方式同样的声音信息Xt以及手指信息Yt以外,还包含学习用的识别信息Dt。识别信息Dt是用于识别多个目标演奏者中的任一个的代码串。此外,与各目标演奏者对应的训练数据T的运指信息Zt表示由该目标演奏者进行的弦乐器200的运指。即,在各目标演奏者的运指信息Zt中反映由该目标演奏者进行的弦乐器200的演奏的倾向。
[0087] 在第三实施方式中,通过利用了各目标演奏者的多个训练数据T的机器学习处理Sb,按每个目标演奏者单独地生成生成模型M。在第四实施方式中,通过利用了与相互不同的目标演奏者对应的多个训练数据T的机器学习处理Sb,生成一个生成模型M。即,第四实施方式的生成模型M是针对多个目标演奏者的每一个学习了包含该目标演奏者的识别信息D的学习用的输入信息Ct与表示由该目标演奏者进行的运指的学习用的运指信息Zt的关系的模型。因此,生成模型M生成与由利用者U进行的演奏(声音信息Xt以及手指信息Yt)对应、且反映了由该利用者U选择的目标演奏者进行的运指的倾向的运指信息Z。
[0088] 如以上说明的那样,在第四实施方式中,也实现与第二实施方式同样的效果。在第四实施方式中,特别是输入信息C包含目标演奏者的识别信息D。因此,与第三实施方式同样地,能够生成反映了各目标演奏者特定的运指的倾向的运指信息Z。
[0089] E:第五实施方式
[0090] 第五实施方式的提示处理部23利用运指信息Z来在显示装置14显示图13的参照图像R2。另外,提示处理部23以外的结构以及动作与第一实施方式至第四实施方式同样。因此,在第五实施方式中,也实现与第一实施方式至第四实施方式同样的效果。
[0091] 参照图像R2包含存在于虚拟空间内的虚拟的对象(以下称为“虚拟对象”)O。虚拟对象O是表示虚拟的演奏者Oa演奏虚拟的弦乐器Ob的情形的立体图像。虚拟的演奏者Oa包含对弦乐器Ob进行压弦的左手Oa1、和对弦乐器Ob进行拨弦的右手Oa2。虚拟对象O的状态(特别是左手Oa1的状态)根据信息生成部22依次生成的运指信息Z随时间的经过而变化。如上所述,第五实施方式的提示处理部23在显示装置14显示表示虚拟的演奏者Oa(Oa1、Oa2)和虚拟的弦乐器Ob的参照图像R2。
[0092] 在第五实施方式中,也实现与第一实施方式至第四实施方式同样的效果。在第五实施方式中,特别是与运指信息Z所表示的运指对应的虚拟的演奏者Oa与虚拟的弦乐器Ob一起显示在显示装置14。因此,利用者U能够在视觉上以及直观地确认运指信息Z所表示的运指。
[0093] 另外,显示装置14也可以搭载于佩戴在利用者U的头部的HMD(Head Mounted Display,头戴式显示器)。提示处理部23将通过虚拟空间内的虚拟摄像机拍摄到的虚拟对象O(演奏者Oa以及弦乐器Ob)作为参照图像R2显示在显示装置14。提示处理部23根据利用者U的头部的举动(例如位置以及方向),动态地控制虚拟空间内的虚拟摄像机的位置以及方向。因此,利用者U通过适当地移动自身的头部,能够从虚拟空间内的任意的位置以及方向视觉辨认虚拟对象O。另外,搭载有显示装置14的HMD也可以是利用者U能够视觉辨认现实际空间作为虚拟对象O的背景的透明型以及虚拟对象O与虚拟空间的背景图像一起显示的非透明型的任一个。透明型的HMD例如通过扩展现实(AR:Augmented Reality,增强现实)或复合现实(MR:Mixed Reality,混合现实)来显示虚拟对象O,非透明型的HMD例如通过虚拟现实(VR:Virtual Reality)来显示虚拟对象O。
[0094] 此外,显示装置14例如也可以搭载在能够经由因特网等通信网与信息处理系统100进行通信的终端装置。提示处理部23通过将表示参照图像R2的图像数据发送到终端装置,从而在该终端装置的显示装置14显示参照图像R2。终端装置的显示装置14既可以佩戴在利用者U的头部,也可以不佩戴在头部。
[0095] F:变形例
[0096] 以下例示在以上所例示的各方式中附加的具体的变形的方式。在不相互矛盾的范围内,也可以适当地合并从前述的实施方式以及以下所例示的变形例中任意地选择的多个方式。
[0097] (1)在前述的各方式中,例示了在显示装置14显示与运指信息Z对应的乐谱B的方式,但运指信息Z的用途不限定于以上的例示。例如,如图14所例示的那样,提示处理部23也可以生成与运指信息Z和声音信息X对应的内容N。内容N包含根据运指信息Z的时间序列生成的前述的乐谱B、和每个发音点的声音信息X所指定的音高的时间序列。若通过播放装置播放内容,则与乐谱B的显示并行地,与各声音信息X的音高对应的乐音被播放。因此,内容的观众能够一边视觉辨认乐曲的乐谱B,一边听取该乐曲的演奏音。以上的内容例如作为弦乐器200的演奏的练习或指导中使用的教材而有用。
[0098] (2)在前述的各方式中,例示了声音信息X指定音高的方式,但声音信息X所指定的信息不限定于音高。例如,声音信号Qx的频率特性也可以用作声音信息X。声音信号Qx的频率特性例如是强度谱(振幅谱或功率谱)或MFCC(Mel‑Frequency Cepstrum Coefficients,梅尔频率倒谱系数)等信息。此外,也可以是构成声音信号Qx的样本的时间序列被用作声音信息X。从以上的例示所理解的那样,声音信息X被总括性地表现为与利用者U通过弦乐器200演奏的声音有关的信息。
[0099] (3)在前述的各方式中,例示了通过声音信号Qx的分析生成声音信息X的方式,但生成声音信息X的方法不限定于以上的例示。例如,如图15所例示的那样,声音分析部211也可以根据从电子弦乐器202依次供给的演奏信息E生成声音信息X。电子弦乐器202是输出表示由利用者U进行的演奏的演奏信息E的MIDI(Musical Instrument Digital Interface,乐器数字接口)乐器。演奏信息E是指定利用者U所演奏的音高以及强度的事件数据,按由利用者U进行的每个拨弦从电子弦乐器202输出。声音分析部211例如将演奏信息E中包含的音高生成为声音信息X。声音分析部211也可以根据演奏信息E检测发音点。例如,表示发音的演奏信息E从电子弦乐器202被供给的时间点被检测为发音点。
[0100] (4)在前述的各方式中,通过声音信号Qx的分析来检测到弦乐器200的发音点,但检测发音点的方法不限定于以上的例示。例如,图像分析部212也可以通过图像信号Qy的分析检测弦乐器200的发音源。如前述的那样,图像信号Qy所表示的演奏者图像Ga包含利用者U在拨弦中使用的右手的右手图像Ga2。图像分析部212从演奏图像G提取右手图像Ga2,并分析该右手图像Ga2的变化,由此检测拨弦。由利用者U进行的拨弦的时间点被检测为发音点。
[0101] (5)例如作为演奏吉他等弦乐器200的方法,存在按顺序演奏多个乐音的每一个的琶音演奏法和大致同时演奏构成和弦的多个乐音的扫弦(Stroke)演奏法。在弦乐器200的演奏(特别是发音点)的分析中,也可以区分琶音演奏法和扫弦演奏法。例如,针对以超过给定的阈值的间隔依次演奏的多个乐音,按每个乐音检测发音点(琶音演奏法)。另一方面,针对以低于给定的阈值的间隔演奏的多个乐音,检测针对多个乐音共同的一个发音点(扫弦演奏法)。如上所述,在发音点的检测中也可以反映弦乐器200的演奏法。此外,也可以在时间轴上使发音点离散化。在发音点被离散化的方式中,针对以低于给定的阈值的间隔发音的多个乐音,确定一个发音点。
[0102] (6)在前述的各方式中,例示了手指信息Y包含左手图像Ga1和指板图像Gb1的方式,但也设想手指信息Y除了左手图像Ga1以及指板图像Gb1以外还包含右手图像Ga2的方式。根据以上的结构,在运指信息Z的生成中除了反映由利用者U的左手进行的压弦以外,还反映由右手进行的拨弦。同样地,也设想各训练数据T的输入信息Ct中的手指信息Yt包含参照演奏者在拨弦中使用的右手的图像的方式。
[0103] (7)在前述的各方式中,例示了手指信息Y包含演奏者图像Ga(左手图像Ga1以及右手图像Ga2)和乐器图像Gb(指板图像Gb1)的方式,但手指信息Y的形式是任意的。图像分析部212也可以将从演奏图像G提取的特征点的坐标生成为手指信息Y。手指信息Y例如指定利用者U的左手图像Ga1中的各节点(例如关节或前端)的坐标、或在弦乐器200的指板图像Gb1中各弦与各音品交叉的地点的坐标。在右手图像Ga2反映在手指信息Y的方式中,手指信息Y例如指定利用者U的右手图像Ga2中的各节点(例如关节或前端)的坐标。从以上的例示所理解的那样,手指信息Y被总括性地表现为与演奏者图像Ga和乐器图像Gb有关的信息。
[0104] (8)在第三实施方式中,根据来自利用者U的指示选择了多个生成模型M中的任一个,但选择生成模型M的方法不限定于以上的例示。即,选择多个目标演奏者中的任一个的方法是任意的。例如,信息生成部22也可以根据来自外部装置的指示或给定的运算处理的结果,选择多个生成模型M中的任一个。在第四实施方式中,也同样地,选择多个目标演奏者中的任一个的方法是任意的。例如,信息取得部21也可以根据来自外部装置的指示或给定的运算处理的结果,生成多个目标演奏者的任一个的识别信息D。
[0105] (9)在前述的各方式中,作为用于生成运指信息Z的生成模型M,例示了深度神经网络,但生成模型M的方式不限定于以上的例示。例如,HMM(Hidden Markov Model,隐马尔可夫模型)或SVM(Support Vector Machine,支持向量机)等统计模型也可以被利用为生成模型M。
[0106] (10)在前述的各方式中,利用了学习了输入信息C与运指信息Z的关系的生成模型M,但用于根据输入信息C生成运指信息Z的结构以及方法不限定于以上的例示。例如,也可以在由信息生成部22进行的运指信息Z的生成中利用对相互不同的多个输入信息C的每一个关联有运指信息Z的参照表。参照表是登记有输入信息C与运指信息Z的对应的数据表,例如存储在存储装置12。信息生成部22从参照表检索与信息取得部21取得的输入信息C对应的运指信息Z。
[0107] (11)在前述的各方式中,机器学习系统400建立了生成模型M,但建立生成模型M的功能(训练数据取得部51以及学习处理部52)也可以搭载在信息处理系统100。
[0108] (12)在前述的各方式中,例示了指定手指编号和压弦位置的运指信息Z,但运指信息Z的方式不限定于以上的例示。例如,通过运指信息Z除了指定由手指编号和压弦位置规定的通常的运指以外,还可以指定用于音乐表现的各种演奏法。作为由运指信息Z指定的演奏法,例如,可例示揉弦(Vibrato)、滑弦(Slide)、滑奏(Glissando)、勾弦(Pulling)、击弦(Hammaring)或推弦等。演奏法的推定中可利用公知的表情推定模型。
[0109] (13)弦乐器200的种类是任意的。弦乐器200被总括性地表现为通过弦的振动来发音的乐器,例如包含拨弦乐器和擦弦乐器。拨弦乐器是通过拨弦来发音的弦乐器200。拨弦乐器中例如包含原声吉他、电吉他、原声贝斯、电贝斯、尤克里里、班卓琴、曼陀林、琴或三味线等。擦弦乐器是通过擦弦来发音的弦乐器。擦弦乐器中例如包含小提琴、中提琴、大提琴或低音提琴等。将以上所例示的任意的种类的弦乐器作为对象,为了演奏的分析而应用本公开。
[0110] (14)例如也可以通过在智能手机或平板电脑终端等终端装置之间进行通信的服务器装置来实现信息处理系统100。例如,信息处理系统100的信息取得部21从终端装置接收声音信号Qx(或演奏信息E)和图像信号Qy,生成与声音信号Qx对应的声音信息X和与图像信号Qy对应的手指信息Y。信息生成部22根据包含声音信息X和手指信息Y的输入信息C生成运指信息Z。提示处理部23根据运指信息Z生成乐谱信息P,将该乐谱信息P发送到终端装置。终端装置的显示装置显示乐谱信息P所表示的乐谱B。
[0111] 另外,在终端装置中搭载有声音分析部211以及图像分析部212的结构中,信息取得部21从终端装置接收声音信息X以及手指信息Y。从以上的说明所理解的那样,信息取得部21是生成声音信息X以及手指信息Y的元素、或者从终端装置等其他装置接收声音信息X以及手指信息Y的元素。即,声音信息X以及手指信息Y的“取得”中包含生成以及接收这两者。
[0112] 此外,在终端装置中搭载有提示处理部23的结构中,信息生成部22所生成的运指信息Z从信息处理系统100发送到终端装置。提示处理部23根据运指信息Z生成乐谱信息P并在显示装置显示。从以上的说明所理解的那样,也可以从信息处理系统100中省略提示处理部23。
[0113] (15)如前述的那样,前述的各方式所涉及的信息处理系统100的功能通过构成控制装置11的单个或多个处理器和存储于存储装置12的程序的协作来实现。以上所例示的程序可以以储存于计算机可读取的记录介质的方式被提供并安装在计算机。记录介质例如是非暂时性(non‑transitory)的记录介质,CD‑ROM等光学式记录介质(光盘)为优选例,但也包含半导体记录介质或磁记录介质等公知的任意形式的记录介质。另外,所谓非暂时性的记录介质,包含除了暂时性的传播信号(transitory, propagating signal)以外的任意的记录介质,也不排除易失性的记录介质。此外,在分发装置经由通信网分发程序的结构中,在该分发装置中存储程序的记录介质相当于前述的非暂时性的记录介质。
[0114] G:附录
[0115] 根据以上所例示的方式,例如掌握以下的结构。
[0116] 本公开的一个方式(方式1)所涉及的信息处理方法取得包含与演奏弦乐器的利用者的手指以及该弦乐器的指板的图像有关的手指信息、和与所述利用者通过所述弦乐器演奏的声音有关的声音信息的输入信息,并通过学习了学习用的输入信息与学习用的运指信息的关系的生成模型,对取得的所述输入信息进行处理,由此生成表示运指的运指信息。在以上的方式中,通过机器学习完毕的生成模型来处理包含手指信息和声音信息的输入信息,由此生成运指信息。即,能够提供与利用者演奏弦乐器时的运指有关的运指信息。
[0117] “手指信息”是与利用者的手指的图像和弦乐器的指板的图像有关的任意形式的数据。例如,表示利用者的手指的图像和弦乐器的指板的图像的图像信息、或通过图像信息的分析而生成的分析信息被利用为手指信息。分析信息例如是表示利用者的手指的各节点(关节或前端)的坐标的信息、表示节点间的线段的信息、表示指板的信息、表示指板上的音品的信息。
[0118] “声音信息”是与利用者通过弦乐器演奏的声音有关的任意形式的数据。例如,声音信息表示利用者所演奏的声音的特征量。特征量例如是音高或频率特性,例如通过表示弦乐器的弦的振动的声音信号的分析来确定。此外,例如在输出MIDI形式的演奏信息的弦乐器中,生成指定该演奏信息的音高的声音信息。声音信号的样本的时间序列也可以被利用为声音信息。
[0119] “运指信息”是表示弦乐器的运指的任意形式的数据。例如,表示进行压弦的手指的手指编号和压弦的位置(音品以及弦的组合)被利用为运指信息。
[0120] “生成模型”是通过机器学习学会了输入信息与运指信息的关系的学习完毕模型。在生成模型的机器学习中利用多个训练数据。各训练数据包含学习用的输入信息和学习用的运指信息(正确标签)。例如深度神经网络(DNN:Deep Neural Network)、隐马尔可夫模型(HMM:Hidden Markov Model)、或SVM(Support Vector Machine,支持向量机)等各种统计模型被例示为生成模型。
[0121] 在方式1的具体例(方式2)中,还检测所述弦乐器的发音点,按每个所述发音点执行所述输入信息的取得和所述运指信息的生成。在以上的方式中,按弦乐器的每个发音点执行输入信息的取得和运指信息的生成。因此,能够抑制在利用者进行了压弦但未执行发音操作的状态下无用地生成运指信息。“发音操作”是用于使弦乐器发出与压弦操作对应的声音的利用者的动作。具体而言,发音操作例如是对拨弦乐器的拨弦动作、或对擦弦乐器的擦弦动作。
[0122] 在方式1或方式2的具体例(方式3)中,还利用所述运指信息来生成表示与由所述利用者进行的所述弦乐器的演奏对应的乐谱的乐谱信息。在以上的方式中,利用运指信息来生成乐谱信息。利用者能够通过乐谱的输出(例如显示或印刷)来有效地利用运指信息。“乐谱信息”所表示的“乐谱”例如是针对弦乐器的各弦显示了压弦位置的tab谱。但是,也设想乐谱信息表示指定了在各音高的演奏中使用的手指编号的五线谱的方式。
[0123] 在方式1至方式3中的任一具体例(方式4)中,还在显示装置显示表示与所述运指信息所表示的运指对应的虚拟的演奏者、和通过该手指演奏的虚拟的弦乐器的参照图像。在以上的方式中,与运指信息所表示的运指对应的虚拟的手指与虚拟的弦乐器一起显示在显示装置,因此利用者能够在视觉上以及直观地确认运指信息所表示的运指。
[0124] 在方式4的具体例(方式5)中,所述显示装置佩戴在所述利用者的头部,在所述参照图像的显示中,将通过根据所述利用者的头部的举动来控制虚拟空间内的位置以及方向的虚拟摄像机拍摄所述虚拟空间内的所述虚拟的演奏者和所述虚拟的弦乐器而得的图像作为所述参照图像显示在所述显示装置。根据以上的方式,利用者能够从所希望的位置以及方向视觉辨认虚拟的演奏者和虚拟的弦乐器。
[0125] 在方式4或方式5的具体例(方式6)中,在所述参照图像的显示中,通过将表示所述参照图像的图像数据经由通信网发送到终端装置,从而在该终端装置的所述显示装置显示所述参照图像。根据以上的方式,即使生成运指信息的功能未搭载于终端装置,终端装置的利用者也能够视觉辨认与运指信息对应的虚拟的演奏者以及弦乐器。
[0126] 在方式1至方式6中的任一具体例(方式7)中,还生成与所述声音信息和所述运指信息对应的内容。根据以上的方式,能够生成能够确认声音信息与运指信息的对应的内容。以上的内容对弦乐器的演奏的练习或指导是有用的。
[0127] 在方式1至方式7中的任一具体例(方式8)中,所述输入信息包含多个演奏者的任一识别信息,所述生成模型是针对所述多个演奏者的每一个学习了包含该演奏者的识别信息的所述学习用的输入信息、与表示由该演奏者进行的运指的所述学习用的运指信息的关系的模型。在以上的方式中,输入信息包含演奏者的识别信息。因此,能够生成反映了各演奏者特有的运指的倾向的运指信息。
[0128] 在方式1至方式7中的任一具体例(方式9)中,在所述运指信息的生成中,通过与相互不同的演奏者对应的多个生成模型中的任一个,对取得的所述输入信息进行处理,由此生成所述运指信息,所述多个生成模型分别是学习了所述学习用的输入信息与表示由与该生成模型对应的演奏者进行的运指的所述学习用的运指信息的关系的模型。在以上的方式中,选择性地利用与相互不同的演奏者对应的多个单位模型中的任一个。因此,能够生成反映了各演奏者特有的运指的倾向的运指信息。
[0129] 在方式1至方式9中的任一具体例(方式10)中,所述学习用的运指信息是利用由设置于弦乐器的检测装置检测到由演奏者进行的演奏的结果来生成的。在以上的方式中,利用基于设置于弦乐器的检测装置的检测结果,生成学习用的运指信息。因此,能够减轻准备在生成模型的机器学习中利用的训练数据的负荷。
[0130] 本公开的一个方式(方式11)所涉及的信息处理系统具备:信息取得部,取得包含与演奏弦乐器的利用者的手指以及该弦乐器的指板的图像有关的手指信息、和与所述利用者通过所述弦乐器演奏的声音有关的声音信息的输入信息;以及信息生成部,通过学习了学习用的输入信息与学习用的运指信息的关系的生成模型,对取得的所述输入信息进行处理,由此生成表示运指的运指信息。
[0131] 本公开的一个方式(方式12)所涉及的程序使计算机系统作为信息取得部以及信息生成部发挥功能,其中,所述信息取得部取得包含与演奏弦乐器的利用者的手指以及该弦乐器的指板的图像有关的手指信息、和与所述利用者通过所述弦乐器演奏的声音有关的声音信息的输入信息,所述信息生成部通过学习了学习用的输入信息与学习用的运指信息的关系的生成模型,对取得的所述输入信息进行处理,由此生成表示运指的运指信息。
[0132] 附图标记说明
[0133] 100:信息处理系统,200、201:弦乐器,202:电子弦乐器,250:检测装置,11、41:控制装置,12、42:存储装置,13:操作装置,14:显示装置,15:收音装置,16:摄像装置,21:信息取得部,211:声音分析部,212:图像分析部,22:信息生成部,23:提示处理部,400:机器学习系统,51:训练数据取得部,52:学习处理部。

当前第1页 第1页 第2页 第3页
相关技术
处理方法相关技术
处理系统相关技术
前泽阳发明人的其他相关专利技术