首页 / 响应生成方法、响应生成装置和响应生成程序

响应生成方法、响应生成装置和响应生成程序有效专利 发明

技术领域

[0001] 本发明涉及能够向用户给出响应的响应生成装置、响应生成方法和响应生成程序。

相关背景技术

[0002] 如下响应生成装置是已知的(例如,日本未审专利申请公布No.2010-157081),其包括:声音识别部件,用于识别用户声音;结构分析部件,用于分析声音识别部件识别的声音的结构;以及响应输出部件,用于基于结构分析部件分析的声音结构、响应于用户声音生成响应语句并且输出所生成的响应语句。

具体实施方式

[0018] [第一示例性实施例]
[0019] 以下参照附图说明根据本发明的示例性实施例。图1是示出根据本发明的第一示例性实施例的响应生成装置的示意性系统配置的框图。根据第一示例性实施例的响应生成装置1包括:声音识别单元2,其识别用户声音;结构分析单元3,其分析声音的结构;响应输出单元4,其响应于用户声音生成响应语句并且输出所生成的响应语句;以及重复生成单元5,其生成重复响应语句。
[0020] 注意,响应生成装置1由例如包括作为主要部件的微处理器的硬件组成。微处理器包括例如,执行算术处理等的CPU(中央处理单元)、由存储CPU执行的算术程序、控制程序等的RAM(随机存取存储器)和/或ROM(只读存储器)组成的存储器、以及籍其外部输入/输出信号的接口单元(I/F)。CPU、存储器和接口单元通过数据总线等彼此连接。
[0021] 声音识别单元2是声音识别部件的具体示例,并且基于通过麦克风6获取的用户的声音信息执行声音识别处理,并且通过将用户的声音转换成文本来生成字符串信息。声音识别单元2通过从自麦克风6输出的用户的声音信息中检测语音片段,并且随后通过引用统计语言模型执行例如检测到的语音片段中的声音信息的模式匹配,来执行声音识别。注意,统计语言模型是例如用于计算诸如词的出现分布以及在特定词之后出现的词的分布的语言表述的出现概率的概率模型,并且通过基于词素学习连接概率来获得。统计语言模型被预先存储在前述存储器等中。声音识别单元2将所识别的用户的声音信息输出到结构分析单元3和重复生成单元5。
[0022] 结构分析单元3是结构分析部件的具体示例,并且分析声音识别单元2识别的声音信息。例如,结构分析单元3通过使用普通词素分析器针对指示所识别的用户的声音信息的字符串信息执行词素分析等,并且针对字符串信息执行语义分析。结构分析单元3将字符串信息的分析结果输出到响应输出单元4。
[0023] 响应输出单元4是响应输出部件的具体示例,并且基于结构分析单元3分析的声音信息的结构生成用户的声音信息的响应语句(以下称为“自由响应语句”)并且输出所生成的自由响应语句。例如,响应输出单元4基于从结构分析单元3输出的字符串信息的分析结果生成用户的声音信息的自由响应语句。随后,响应输出单元4通过扬声器7输出所生成的响应语句。
[0024] 更具体地,对于字符串信息“tonkatsu wo taberu(吃猪排)”,结构分析单元3提取谓词论元结构并且指出谓词“taberu(吃)”和格助词“wo”。随后,响应输出单元4从记忆谓词和格助词之间的对应关系的不足格辞典数据库8中提取可以连接到结构分析单元3指出的谓词“taberu(吃)”的格助词的类型。注意,不足格辞典数据库8例如在前述存储器中构造。
[0025] 响应输出单元4生成例如谓词论元结构“nani wo taberu(吃什么)”、“doko de taberu(在哪儿吃)”、“itsu ni taberu(何时吃)”和“dare to taberu(和谁吃)”作为自由响应语句。此外,响应输出单元4从一组谓词论元结构中随机地选择谓词论元结构,该组谓词论元结构是通过从上述所生成的谓词论元结构中排除与用户声音不匹配的表层格(surface case)“wo”而获得的,并且响应输出单元4使用所选择的谓词论元结构作为自由响应语句。如上文所述,响应输出单元4基于结构分析单元3分析的声音信息的结构来执行声音信息的语义分析并且生成多个自由响应语句候选。随后,响应输出单元4从所生成的多个自由响应语句中选择最优候选并且使用所选择的最优候选作为自由响应语句。例如,响应输出单元4选择谓词论元结构“dare to tabeta no?(你和谁吃?)”并且输出所选择的谓词论元结构作为自由响应语句。
[0026] 应当注意,上述声音信息结构分析及其响应语句生成需要时间(例如,约三秒)来执行并且因此其处理成本是高的。由于该时间间隔,出现响应等待,因而引起用户会感觉谈话中存在失常的可能性。
[0027] 与此相反,在根据第一示例性实施例的响应生成装置1中,重复生成单元5生成(即再现)声音识别单元2识别的用户的声音作为重复响应语句。此外,响应输出单元4在基于声音结构输出自由响应语句之前输出重复生成单元5生成的重复响应语句。
[0028] 这样,由于重复响应语句仅是所识别的用户声音的准确重复,因此基本上不需要生成时间(例如,需要约一秒)并且因此其处理成本是低的。因此,可以在输出基于声音结构生成的处理成本高的上述自由响应语句之前在响应等待时间期间输出处理成本低的重复响应语句。结果,可以缓解因响应等待导致的用户由于谈话中的长间隔而引起的存在失常的感觉。
[0029] 重复生成单元5生成(即再现)声音识别单元2识别的声音信息作为用于执行所谓的“鹦鹉学舌”(即,如鹦鹉那样准确重复用户声音)的重复响应语句。重复生成单元5将所生成的重复响应语句输出到响应输出单元4。随后,响应输出单元4在输出基于从结构分析单元3输出的字符串信息的分析结果而生成的自由响应语句之前,通过扬声器7输出从重复生成单元5输出的重复响应语句。如上文所述,处理成本彼此不同的多个响应语句被并行生成。此外,根据它们生成的顺序依序输出所生成的响应语句。这使得可以维持谈话的连续性并且从而实现具有未受削弱的节拍的谈话。
[0030] 图2是示出根据第一示例性实施例的响应生成方法的处理流程的流程图。
[0031] 声音识别单元2执行通过麦克风6获取的用户的声音信息的声音识别(步骤S101)并且将所识别的用户的声音信息输出到结构分析单元3和重复生成单元5。
[0032] 重复生成单元5生成(即再现)声音识别单元2识别的声音信息作为重复响应语句(步骤S102)并且将所生成的重复响应语句输出到响应输出单元4。
[0033] 响应输出单元4通过扬声器7输出从重复生成单元5输出的重复响应语句(步骤S103)。
[0034] 与(步骤S102)和(步骤S103)中的上述处理并行地,结构分析单元3分析声音识别单元2识别的声音信息的结构(步骤S104)并且将其字符串信息的分析结果输出到响应输出单元4。
[0035] 响应输出单元4基于从结构分析单元3输出的字符串信息的分析结果生成自由响应语句(步骤S105)并且通过扬声器7输出所生成的自由响应语句(步骤S106)。
[0036] 如上文所述,在第一示例性实施例中,生成(即再现)所识别的用户声音作为重复响应语句,并且在基于声音结构输出自由响应语句之前输出所生成的重复响应语句。结果,可以在输出基于声音结构生成的处理成本高的自由响应语句之前在响应等待时间期间输出处理成本低的重复响应语句。因此,可以缓解因响应等待导致的用户由于谈话中的长间隔而引起的存在失常的感觉。
[0037] [第二示例性实施例]
[0038] 图3是示出根据本发明的第二示例性实施例响应生成装置的示意性系统配置的框图。除了根据上述第一示例性实施例的响应生成装置1的配置之外,根据第二示例性实施例的响应生成装置20进一步包括分析用户的声音信息的音素的音素分析单元21和生成针对用户的声音信息的响应性响应(即,用于表述理解和/或赞同的响应性声音,诸如“uh-huh”声音)的响应性响应生成单元22。
[0039] 音素分析单元21是音素分析部件的具体示例,并且基于通过麦克风6获取的用户的声音信息分析用户的声音信息的音素。例如,音素分析单元21通过检测声音信息的音量水平和/或频率(诸如基频)的变化来推断用户声音的中断。音素分析单元21将音素分析结果输出到响应性响应生成单元22。
[0040] 响应性响应生成单元22是响应性响应生成部件的具体示例,并且基于从音素分析单元21输出的音素分析结果来生成对用户声音的响应性响应。例如,当声音信息的音量水平低于阈值或在其以下时,响应性响应生成单元22搜索其中存储响应性响应模式的固定形式响应数据库23。随后,响应性响应生成单元22从固定形式响应数据库23中随机地选择响应性响应。在固定形式响应数据库23中,存储用于响应性响应的多个模式,诸如“un,un.(是。)”、“naruhodo.(我懂。)”和“hoon.(嗯。)”。固定形式响应数据库23在前述存储器等中构造。响应性响应生成单元22将所生成的响应性响应输出到响应输出单元4。
[0041] 响应输出单元4在输出重复生成单元5生成的重复响应语句之前通过扬声器7输出响应性响应生成单元22生成的响应性响应。
[0042] 音素分析单元21可以实时地检测音量水平的改变。此外,当音素分析单元21检测频率变化时执行的频率计算量小于模式匹配的计算量。因此处理延迟小于模式匹配的处理延迟。如上文所述,音素分析单元21通过使用处理成本低的特征值来执行音素分析。因此,生成响应性响应所需的时间比上述重复响应语句所需的时间短(例如约300毫秒),并且其处理成本低于重复响应语句的处理成本。
[0043] 因此,可以在输出上述重复响应语句之前输出处理成本低于上述重复响应语句的响应性响应。结果,对话之间的连接变得平滑,因而使得可以进一步缓解用户的存在失常的感觉。此外,处理成本彼此不同的大量的响应和响应语句并行地生成,并且所生成的响应和响应语句根据它们生成的顺序依序输出。这使得可以更平滑地维持谈话的连续性,从而实现具有未受削弱的节拍的更自然的谈话。
[0044] 注意,响应性响应生成单元22以固定形式方式生成响应性响应并且重复生成单元5通过仅执行声音识别结果的表面解释(superficial interpretation)来生成重复响应语句。因此,假定响应输出单元4生成与响应性响应生成单元22生成的响应性响应和重复生成单元5生成的重复响应相似的自由响应候选。
[0045] 对此,响应输出单元4从自由响应候选中排除与响应性响应生成单元22生成的响应性响应或重复生成单元5生成的重复响应相同的响应。随后,响应输出单元4从通过执行上述排除处理而获得的自由响应候选中选择最优候选,并且使用所选择的最优候选作为自由响应语句。这样,可以消除冗余的无用短语,因此使得可以实现更自然的谈话。
[0046] 例如,对于用户语音“kyou ha atsui ne(今天热)”,响应性响应生成单元22生成响应性响应“un(是)”。随后,重复生成单元5生成重复响应语句“atsui ne(天热)”。同时,响应输出单元4生成自由响应候选,诸如“iyada ne(不舒服)”、“itsu made atsui no kana?(这热天要持续多久?)”、“atsui ne(天热)”、和“souda ne(真是的)”。响应输出单元4从所生成的自由响应候选中排除与重复生成单元5生成的重复响应语句相同的短语“atsui ne(天热)”。随后,响应输出单元4从通过执行上述排除处理获得的自由响应候选中选择例如“itsu made atsui no kana?(这热天要持续多久?)”,并且使用所选择的候选作为自由响应语句。
[0047] 以下示出了如上文所述生成的谈话的示例。注意,在以下示出的示例中,M表示响应生成装置20的响应语句或响应,而U表示用户的语音。U:“kyou ha atsui ne.(今天热。)”
[0048] M(响应性响应):“Un.(是。)”
[0049] M(重复响应语句):“Atsui ne.(天热。)”
[0050] M(自由响应语句):“Itsu made atsui no kana?(这热天要持续多久?)”[0051] 如上文所述,可以更平滑地维持谈话的连续性并且消除冗余的无用短语,因此使得可以实现更自然的谈话。
[0052] 在根据第二示例性实施例的响应生成装置20中,与根据上述第一示例性实施例的响应生成装置1中的符号相同的符号被分配给与响应生成装置1中的部件/结构相同的部件/结构,并且它们的详细说明被省略。
[0053] 图4是示出根据第二示例性实施例的响应生成方法的处理流程的流程图。
[0054] 音素分析单元21基于通过麦克风6获取的用户的声音信息来分析用户的声音信息的音素(步骤S201)并且将因素的分析结果输出到响应性响应生成单元22。
[0055] 响应性响应生成单元22基于从音素分析单元21输出的音素分析结果来生成对用户声音的响应性响应(步骤S202)并且将所生成的响应性响应输出到响应输出单元4。
[0056] 响应输出单元4通过扬声器7输出从响应性响应生成单元22输出的响应性响应(步骤S203)。
[0057] 与(步骤S201)至(步骤S203)中的上述处理并行地,声音识别单元2执行通过麦克风6获取的用户的声音信息的声音识别(步骤S204)并且将所识别的用户的声音信息输出到结构分析单元3和重复生成单元5。
[0058] 重复生成单元5生成(即再现)声音识别单元2识别的声音信息作为重复响应语句(步骤S205)并且将所生成的重复响应语句输出到响应输出单元4。
[0059] 响应输出单元4通过扬声器7输出从重复生成单元5输出的重复响应语句(步骤S206)。
[0060] 与(步骤S205)和(步骤S206)中的上述处理并行地,结构分析单元3分析声音识别单元2识别的声音信息的结构(步骤S207)并且将其字符串信息的分析结果输出到响应输出单元4。
[0061] 响应输出单元4基于从结构分析单元3输出的字符串信息的分析结果生成多个自由响应候选(步骤S208)。响应输出单元4从自由响应候选中排除与响应性响应生成单元22生成的响应性响应或重复生成单元5生成的重复响应相同的响应。随后,响应输出单元
4从通过执行上述排除处理而获得的自由响应候选中选择最优候选,并且使用所选择的最优候选作为自由响应语句(步骤S209)。响应输出单元4通过扬声器7输出所生成的自由响应语句(步骤S210)。
[0062] 以下是响应生成装置20和用户之间的谈话的示例。
[0063] M(话题开启):“Ohiru nani wo tabeta no?(午餐你吃什么?)”
[0064] U:“Tonkatsu wo tabeta yo.(我吃猪排。)”
[0065] M(响应响应性):“un,un.(是。)”
[0066] M(重复响应语句):“Tonkatsu wo tabeta.(我(你)吃猪排。)”
[0067] M(自由响应语句):“Dare to tabeta no kana?(你和谁吃?)”
[0068] U:“Tomodachi to tabeta yo.(我和朋友吃。)”
[0069] M(响应性响应):“Sounanda.(啊哈。)”
[0070] M(重复响应语句):“Tomodachi to tabeta.(我和朋友吃。)”
[0071] M(自由响应语句):“Doko de tabeta no kana?(你在哪吃?)”
[0072] U:“Yabaton de tabeta yo.(我在Yabaton吃。)”
[0073] M(响应性响应):“Naruhodo.(我懂。)”
[0074] M(重复响应语句):“Yabaton de tabeta.(我在Yabaton吃。)”
[0075] M(自由响应语句):“Tabeta ne.(你吃。)”
[0076] U:“Oisshikatta yo.(好吃。)”
[0077] M(响应性响应):“Hoon.(嗯。)”
[0078] M(重复响应语句):“Oisshi katta.(好吃。)”
[0079] M(自由响应语句):“Sore wa ii ne,xxx san.(很好,xxx先生/女士)”。
[0080] 如以上谈话示例所示,可以理解,当用户讲话时,响应于用户的讲话,响应生成装置20的响应性响应、重复响应语句和自由响应语句以良好的节拍连续输出,因此使得对话之间的连接更平滑。
[0081] 如上文所述,在第二示例性实施例中,分析用户的声音信息的音素并且基于分析结果生成对用户的声音信息的响应性响应。此外,在输出重复响应语句之前输出所生成的响应性响应。这样,可以在输出重复响应语句之前输出处理成本低于重复响应语句的响应响应性。结果,对话之间的连接变得更平滑,因此使得可以进一步缓解用户的存在失常的感觉。
[0082] [第三示例性实施例]
[0083] 根据第三示例性实施例的重复生成单元5通过从声音识别单元2识别的用户的声音信息中提取关键词并且将特定的附加词尾添加到所提取的关键词来生成重复响应语句。
[0084] 重复生成单元5生成(即再现)声音识别单元2识别的声音信息作为用于执行鹦鹉学舌(即,如鹦鹉那样准确重复用户声音)的重复响应语句。注意,通过利用添加到用户的声音信息的特定词尾来执行鹦鹉学舌,而非在完全不改变用户声音的情况下执行鹦鹉学舌,提高了谈话的自然性。例如,对于用户的语音“Umi ni itta yo(我去了海边)”,通过输出重复响应语句“Umi ka(海边)”而非输出重复响应语句“Umi ni itta yo(我去了海边)”回应用户的语音,提高了谈话的自然性。
[0085] 例如,关于多个关键词、它们各自的词性和附加词尾之间的对应关系的附加信息被存储在存储器中。重复生成单元5从声音识别单元2识别的用户的声音信息中提取关键词及其词性。重复生成单元5基于存储器中存储的附加信息选择与所提取的关键词及其词性对应的附加词尾。重复生成单元5将所选择的附加词尾添加到所提取的关键词,从而生成重复响应语句。
[0086] 更具体地,重复生成单元5从声音识别单元2识别的声音的字符串信息“tonkatsu wo tabeta yo(我吃猪排)”中提取关键词“tonkatsu(猪排)”及其词性“名词”,关键词“wo”及其词性“复合格助词”、关键词“tabeta(ate)”及其词性“动词”以及关键词“yo”及其词性“复合格助词”。此外,重复生成单元5从所提取的关键词及其词性中选择关键词“tonkatsu(猪排)”和词性“名词”,并且基于存储器中存储的附加信息选择与所提取的关键词“tonkatsu(猪排)”及其词性“名词”对应的附加词尾“ka”。注意,如上文所述,重复生成单元5从声音识别单元2识别的声音的字符串信息任意地提取名词关键词或形容词关键词,并且选择与所提取的关键词及其词性对应的附加词尾。
[0087] 当存在与所提取的关键词及其词性对应的多个附加词尾时,重复生成单元5可以根据预先限定的优先顺序来选择它们中的一个。相似地,当重复生成单元5从声音识别单元2识别的声音的字符串信息中选择例如关键词“yatta”及其词性“感叹词”时,重复生成单元5基于附加信息选择与所选择的关键词“yatta”及其词性“感叹词”对应的附加词尾“ne”。注意,通过在关键词之外还提取词性,可以将前述感叹词“yatta”与动词“yatta(做)”区分开来。
[0088] 对于所识别的用户声音的字符串信息“oishikatta”((它)好吃),声音识别单元2可以添加例如其不变化的原时态“oishii((它)好吃)”并且将具有添加的信息的字符串信息输出到重复生成单元5。在该情况下,重复生成单元5提取关键词“oishii((它)好吃)”及其词性“形容词”。重复生成单元5基于附加信息选择与关键词“oishii((它)好吃)”及其词性“形容词”对应的附加词尾“noka”。
[0089] 图5示出了存储器中存储的附加信息的示例。在图5中所示的附加信息中,关键词列中的星号“*”指示可以应用于所有关键词的附加词尾。因此,当重复生成单元5提取关键词“tonkatsu(猪排)”及其词性“名词”时,重复生成单元5通过引用附加信息随机地选择附加词尾“ka”和“nanda”中的一个。
[0090] 如上文所述,重复生成单元5提取关键词“tonkatsu(猪排)”及其词性“名词”。随后,重复生成单元5通过引用附加信息随机地选择与关键词“tonkatsu(猪排)”及其词性“名词”对应的附加词尾“ka”。最终,重复生成单元5将所选择的附加词尾“ka”添加到所提取的关键词“tonkatsu(猪排)”,从而生成重复响应语句“tonkatsu ka((它是)猪排)”。注意,重复生成单元5可以将例如附加词尾“ka”添加到通过重复所提取的关键词两次而获得的表述,即表述“tonkatsu,tonkatsu(猪排、猪排)”,从而生成重复响应语句“tonkatsu,tonkatsu ka(猪排、(它是)猪排)”。这改进了谈话的节拍,从而提高了谈话的自然性。
[0091] 根据第三示例性实施例,重复生成单元5从用户的声音信息提取关键词及其词性,基于附加信息选择与关键词及其词性对应的附加词尾,并且仅通过将附加词尾添加到关键词来生成重复响应语句。因此,可以通过简单的处理生成重复响应语句并且因此可以降低处理成本。此外,由于通过根据用户的声音信息将适当的附加词尾添加到用户的声音可以针对用户声音执行多种鹦鹉学舌处理,而非执行简单的鹦鹉学舌处理,可以进一步提高谈话的自然性。
[0092] 根据所描述的本发明,显然本发明的实施例可以通过许多方式进行变型。这些变型不应被视为偏离本发明的精神和范围,并且对本领域技术人员显见的所有这些修改应涵盖于所附权利要求的范围内。
[0093] 尽管在上述示例性实施例中响应输出单元4通过扬声器7输出响应性响应生成单元22生成的响应性响应,但是本发明不限于这些配置。响应输出单元4可以基于响应性响应生成单元22生成的响应性响应执行具有低处理负荷的任意响应。例如,响应输出单元4可以使振动设备振动,接通/断开发光设备,在显示设备中显示图像等,移动机器人的手、脚、头、躯干等,等等。此外,响应输出单元4可以适当地组合这些动作并且以组合的方式执行它们。
[0094] 尽管在上述示例性实施例中响应输出单元4通过扬声器7输出重复生成单元5生成的重复响应语句,但是本发明不限于这些配置。响应输出单元4可以基于重复生成单元5生成的重复响应语句输出具有低处理负荷的任意重复响应语句。例如,响应输出单元4可以通过在显示设备中显示图像等来输出重复响应语句。此外,响应输出单元4可以通过组合任意输出手段来输出重复响应语句。
[0095] 此外,在本发明中,例如图2和4中所示的处理可以通过使CPU执行计算机程序来实现。
[0096] 程序可以存储在各种类型的非暂态计算机刻度介质中,从而提供给计算机。非暂态计算机可读介质包括各种类型的有形的存储介质。非暂态计算机可读介质包括磁记录介质(诸如柔性盘、磁带和硬盘驱动器)、磁光记录介质(诸如磁光盘)、CD-ROM(只读存储器)、CD-R和CD-R/W以及半导体存储器(诸如掩模ROM、PROM(可编程ROM)、EPROM(可擦除PROM)、闪速ROM和RAM(随机存取存储器))。
[0097] 此外,可以使用各种类型的暂态计算机可读介质将程序提供给计算机。暂态计算机可读介质的示例包括电信号、光信号和电磁波。暂态计算机可读介质可用于通过诸如电导线和光纤的有线通信路径或无线通信路径将程序提供给计算机。

当前第1页 第1页 第2页 第3页