技术领域
[0001] 本发明涉及一种数据生成装置,该数据生成装置根据输入数据生成输出数据。
相关背景技术
[0002] 在日本发明专利公开公报特开2019‑121075号中公开了一种技术,该技术自动生成以口头的方式举行的会议的摘要。该技术将语音数据通过语音识别转换为文本数据,并一边参照辞典一边选择摘要中包含的文本数据。
具体实施方式
[0015] [1第1实施方式][1‑1结构]
图1是第1实施方式所涉及的数据生成装置10的功能框图。数据生成装置10具有输入装置12、运算装置14和输出装置16。
[0016] 输入装置12具有将各种数据输入运算装置14的各种装置。输入装置12具有例如麦克风、存储介质等。麦克风、存储介质等将语音数据输入运算装置14。另外,输入装置12具有将响应于使用者的输入操作的指示信号输入运算装置14的键盘、鼠标、触摸屏等。
[0017] 运算装置14例如是计算机。运算装置14具有处理装置18和存储装置20。
[0018] 处理装置18具有处理电路。处理电路可以是CPU、GPU等处理器。处理电路可以是ASIC、FPGA等集成电路。处理器能够通过执行存储于存储部32的程序来执行各种处理。处理装置18作为获取部22、识别部24、提取部26和生成部28发挥功能。多个处理中的至少一部分可以由包括分立器件的电子电路来执行。
[0019] 获取部22获取输入数据。识别部24进行由获取部22所获取的输入数据的识别。提取部26提取由识别部24所识别的识别数据的一部分。生成部28根据提取部26的提取结果来生成输出数据。
[0020] 在第1实施方式中,获取部22从处理装置18的外部获取语音数据。识别部24通过进行语音数据的语音识别来生成文本数据。作为识别部24,可以使用例如公知的语音识别技术。提取部26将文本数据所包含的多个词中满足规定条件的词提取为提取词。生成部28使用提取词和处于从提取词开始的规定范围内的词,生成对输入数据的内容总结而成的摘要数据。作为生成部28,可以使用例如公知的文章编写技术。
[0021] 存储装置20具有临时存储部30和存储部32。临时存储部30例如是易失性存储器。作为易失性存储器,例如可列举出RAM等。易失性存储器被用作处理器的工作存储器。易失性存储器临时性存储处理或运算所需的数据等。存储部32例如是非易失性存储器。作为非易失性存储器,例如可列举出ROM、闪存等。非易失性存储器被用作保存用的存储器。非易失性存储器存储程序、表格、映射等。例如,非易失性存储器存储使处理装置18作为人工智能发挥功能的程序。存储部32的至少一部分可以设置于如上所述的处理器、集成电路等。
[0022] 在第1实施方式中,存储部32存储设定词34。设定词34是指在讲话者总结讲话内容(讨论内容)的场景中使用的可能性高的词、在讲话者讲话(讨论)的最终场景中使用的可能性高的词等。例如,作为设定词34,可列举出“汇总”、“最后”等词。
[0023] 输出装置16具有输出由生成部28所生成的摘要数据的装置。输出装置16具有例如显示器、扬声器等。
[0024] [1‑2处理内容]图2是第1实施方式所涉及的数据生成处理的流程图。例如,当使用者操作键盘、鼠标等输入装置12时,输入装置12向运算装置14输入处理开始信号。处理装置18通过获取使用者的处理开始信号而开始图2所示的数据生成处理。
[0025] 在步骤S1中,获取部22获取语音数据。获取部22例如可以预先使从输入装置12(麦克风、存储介质)获取到的语音数据存储于存储装置20,并从存储装置20获取语音数据。或者,获取部22也可以直接从输入装置12(存储介质)获取语音数据。步骤S1结束后,处理转移至步骤S2。
[0026] 在步骤S2中,识别部24进行语音数据的语音识别,生成文本数据。步骤S2结束后,处理转移至步骤S3。
[0027] 在步骤S3中,提取部26从存储部32读取设定词34。提取部26从文本数据所包含的所有词中检索设定词34。在存储部32中存储有多个设定词34的情况下,提取部26从文本数据所包含的所有词中分别检索设定词34。步骤S3结束后,处理转移至步骤S4。
[0028] 在步骤S4中,提取部26将文本数据所包含的所有词中的从设定词34开始的第1范围内的各词选择为重要词。此外,提取部26不将设定词34选择为重要词。第1范围被任意地设定。例如,第1范围可以是从包含设定词34的文章的开头至结尾为止的范围。或者,第1范围也可以是从设定词34至包含设定词34的文章的结尾为止的范围。或者,第1范围例如可以按处于设定词34的前后的字数(N个等)来设定。而且,由提取部26选择的词例如可以是特定的词性,例如名词。步骤S4结束后,处理转移至步骤S5。
[0029] 在步骤S5中,提取部26从文本数据所包含的所有词中检索重要词。步骤S5结束后,处理转移至步骤S6。
[0030] 在步骤S6中,提取部26对检索到的重要词加权。权重被任意地设定。另外,权重可以是分数,也可以是倍率。步骤S6结束后,处理转移至步骤S7。
[0031] 在步骤S7中,提取部26对文本数据所包含的所有词中的从重要词开始的第2范围内的各词加权。第2范围与第1范围同样地被任意设定。第2范围可以与第1范围相同,也可以不同。而且,由提取部26加权的词例如可以是特定的词性,例如名词。权重被任意地设定。另外,权重可以是分数,也可以是倍率。提取部26可以使对同一词加权的数值相同,而与对同一词加权的次数无关。或者,提取部26也可以使对同一词加权的数值随着对同一词加权的次数的增加而增大。步骤S7结束后,处理转移至步骤S8。
[0032] 在步骤S8中,提取部26判定加权的处理是否结束。在本实施方式中,能够由使用者设定加权的处理次数。在加权的处理结束的情况下(步骤S8:是),处理转移至步骤S11。另一方面,在加权的处理未结束的情况下(步骤S8:否),处理转移至步骤S9。
[0033] 当处理从步骤S8转移至步骤S9时,提取部26将从重要词开始的第2范围内的各词选择为新的重要词。此外,提取部26不将已经选择的重要词选择为新的重要词。也可以设定第2范围以外的范围。而且,由提取部26选择的词例如可以是特定的词性,例如名词。步骤S9结束后,处理转移至步骤S10。
[0034] 在步骤S10中,提取部26从文本数据所包含的所有词中检索重要词(新的重要词)。步骤S10结束后,处理返回至步骤S7。
[0035] 当处理从步骤S8转移至步骤S11时,提取部26将分数高的词提取为提取词。在权重是分数的情况下,提取部26计算出分数的合计值。在权重是倍率的情况下,确定各词的初始值。提取部26对每个词乘以对初始值加权的倍率而计算出分数。提取部26可以将具有规定的阈值以上的分数的词提取为提取词。或者,提取部26也可以计算出各词的分数的平均值,将具有平均值以上的分数的词提取为提取词。步骤S11结束后,处理转移至步骤S12。
[0036] 在步骤S12中,生成部28选择文本数据所包含的所有词中的从提取词开始的规定范围内的1个以上的词。规定范围被任意地设定。例如,规定范围可以是从包含提取词的文章的开头至结尾为止的范围。或者,规定范围也可以是从提取词至包含提取词的文章的结尾为止的范围。或者,规定范围可以按处于提取词的前后的字数(N个等)来设定。规定范围可以包含提取词,也可以不包含提取词。而且,选择的词例如可以是特定的词性,例如名词。生成部28使用所选择的词生成摘要数据。
[0037] [1‑3具体例]在此,说明提取部26进行的处理的具体例。图3是用于说明第1实施方式的具体例的图。图3表示文本数据所包含的文章(a)~(d)和文章(a)~(d)所包含的词(A)~(F)。在该具体例中,设定词34是词(A)。另外,第1范围是“从相应词(设定词34或重要词)至结尾为止的范围”。另外,第2范围是“相应词的后1个的词”。
[0038] 文章(d)包含作为设定词34的词(A)。提取部26将处于从词(A)开始的第1范围内的词(B)和词(C)选择为重要词。提取部26对作为重要词的词(B)和词(C)加权(倍率1.5)。文章(a)包含一个重要词、即词(B)。另外,文章(c)包含一个重要词、即词(C)。提取部26对处于从词(B)开始的第2范围内的词(D)加权(倍率1.5)。而且,提取部26对处于从词(C)开始的第2范围内的词(D)加权(倍率1.5)。即,对词(D)加权两次。
[0039] 提取部26在文章(a)中,将处于从作为重要词的词(B)开始的第2范围内的词(D)选择为新的重要词。另外,提取部26在文章(c)中,将处于从作为重要词的词(C)开始的第2范围内的词(D)选择为新的重要词。但是,词(D)在文章(a)中已经是新的重要词。提取部26将以上的处理仅执行由使用者设定的次数。这样,对各词加权。
[0040] 此外,在第1实施方式中,也可以设定用于加负的权重的第2设定词。提取部26可以对第2设定词和第2设定词的规定范围内的词加负的权重。或者,提取部26也可以将包含第2设定词的文章从文本数据中删除。
[0041] [2第2实施方式]图4是第2实施方式所涉及的数据生成装置10的功能框图。图5是第2实施方式的数据制作系统46的结构图。在第2实施方式中,对与第1实施方式相同的结构标注相同的附图标记,并省略其说明。
[0042] 在第2实施方式中,数据生成装置10具有输入装置12、运算装置14、输出装置16和通信装置38。通信装置38是调制解调器、路由器、光线路终端装置等。运算装置14经由通信装置38与网络48连接。
[0043] 在第2实施方式中,处理装置18除了获取部22、识别部24、提取部26、生成部28以外,还作为校正部40、通信部42发挥功能。校正部40使用从键盘等(输入装置12)获取的校正数据来校正存储于存储部32的摘要数据。通信部42能够经由通信装置38和网络48向外部的服务器50发送摘要数据。另外,通信部42能够经由通信装置38和网络48从外部的服务器50接收摘要数据。
[0044] 如图5所示,数据制作系统46具有网络48、服务器50和多个数据生成装置10。服务器50与各个数据生成装置10经由网络48相互连接。数据生成装置10能够向服务器50发送摘要数据。另外,数据生成装置10能够从服务器50接收摘要数据。
[0045] 在第2实施方式中,使用者能够删改生成部28所生成的摘要数据。例如,使用者使显示装置(输出装置16)显示摘要数据。使用者使用键盘等(输入装置12)输入校正数据。校正部40根据校正数据来校正摘要数据。校正部40使校正后的摘要数据存储于存储部32。生成部28使用数据校正后的摘要数据进行监督学习。
[0046] 在第2实施方式中,使用者可以委托其他的使用者删改生成部28所生成的摘要数据。例如,数据生成装置10a的通信部42响应于第1使用者的操作,将删改委托与摘要数据一起向服务器50发送。数据生成装置10b的通信部42接收上传到服务器50的摘要数据。数据生成装置10b的第2使用者删改摘要数据。数据生成装置10b的通信部42响应于第2使用者的操作,将校正后的摘要数据向服务器50发送。数据生成装置10a的通信部42响应于第1使用者的操作,接收上传到服务器50的校正后的摘要数据。数据生成装置10a的通信部42使校正后的摘要数据存储于存储部32。数据生成装置10a的生成部28使用数据校正后的摘要数据进行监督学习。另外,数据生成装置10a的生成部28可以获取其他的数据生成装置10(例如数据生成装置10b)的删改结果、学习结果进行机器学习。而且,数据生成装置10a的生成部28也可以分别单独地使用数据生成装置10a的学习结果和其他的数据生成装置10的学习结果。
[0047] [3第1相关技术][3‑1结构]
图6是第1相关技术所涉及的数据生成装置10的功能框图。在第1相关技术中,对与第1实施方式相同的结构标注相同的附图标记,并省略其说明。
[0048] 在第1相关技术中,识别部24按照语音数据的获取顺序进行语音数据的语音识别而生成文本数据(识别数据)。作为识别部24,可以使用例如公知的语音识别技术。提取部26按照时间顺序提取文本数据。生成部28按照时间顺序将由提取部26所提取的文本数据与规定的数据(停止数据52、开始数据54)进行比较。在生成部28判断为文本数据与规定的数据一致的情况下,将从判断时间点开始的规定时间前设定为起点(删除起点、开始起点)。生成部28参照所设定的起点,对临时存储于临时存储部30的语音数据进行加工而生成新的输出数据。生成部28使输出数据存储于存储部32。
[0049] 在第1相关技术中,存储部32存储停止数据52和开始数据54。停止数据52是指,在讲话者进行保密讲话的场景下使用的可能性高的词或短语等。例如,作为停止数据52,可列举出“公司内部机密”等短语。开始数据54是指,在讲话者结束保密讲话的场景下使用的可能性高的词或短语等。例如,作为开始数据54,可列举出“只能讲到这里”等短语。
[0050] [3‑2处理内容]图7是第1相关技术所涉及的数据生成处理的流程图。例如,当使用者操作键盘、鼠标等输入装置12时,输入装置12向运算装置14输入处理开始信号。处理装置18通过获取使用者的处理开始信号而开始图7所示的数据生成处理。在第1相关技术的处理中,在语音数据的获取(步骤S21)之后立即进行语音识别(步骤S22)以后的处理。
[0051] 在步骤S21中,获取部22获取语音数据。获取部22例如从输入装置12(麦克风)获取语音数据,使其临时存储于临时存储部30。此外,获取部22使用系统时钟,对语音数据附加获取时间。步骤S21结束后,处理转移至步骤S22。
[0052] 在步骤S22中,识别部24进行临时存储于临时存储部30的语音数据的语音识别而生成文本数据。步骤S22结束后,处理转移至步骤S23。
[0053] 在步骤S23中,提取部26按照时间顺序从文本数据中提取词。步骤S23结束后,处理转移至步骤S24。
[0054] 在步骤S24中,提取部26将提取到的词与停止数据52进行比较。在提取到的词与停止数据52一致的情况下(步骤S24:是),处理转移至步骤S25。另一方面,在提取到的词与停止数据52不一致的情况下(步骤S24:否),处理转移至步骤S28。
[0055] 当处理从步骤S24转移至步骤S25时,提取部26将从步骤S24的判断时间点开始的第1规定时间前设定为删除起点的时间。第1规定时间预先存储于存储部32。作为第1规定时间,设定识别部24和提取部26进行步骤S22~步骤S24的处理所需的时间。步骤S25结束后,处理转移至步骤S26。
[0056] 在步骤S26中,提取部26将提取到的词与开始数据54进行比较。在提取到的词与开始数据54一致的情况下(步骤S26:是),处理转移至步骤S27。另一方面,在提取到的词与开始数据54不一致的情况下(步骤S26:否),处理转移至步骤S28。
[0057] 当处理从步骤S26转移至步骤S27时,提取部26将从步骤S26的判断时间点开始的第2规定时间前设定为开始起点的时间。第2规定时间预先存储于存储部32。作为第2规定时间,设定识别部24和提取部26进行步骤S22~步骤S26的处理所需的时间。步骤S27结束后,处理转移至步骤S28。
[0058] 当处理从步骤S24和步骤S26中的任一方转移至步骤S28时,获取部22判定语音数据的获取结束。在语音数据的获取结束的情况下(步骤S28:是),处理转移至步骤S29。另一方面,在语音数据的获取未结束的情况下(步骤S28:否),处理返回至步骤S21。
[0059] 当处理从步骤S28转移至步骤S29时,生成部28使临时存储于临时存储部30的语音数据存储于存储部32。在此,生成部28生成除了从删除起点的时间至开始起点的时间为止获取到的数据以外的语音数据,并使生成后的语音数据作为输出数据存储于存储部32。
[0060] 此外,停止数据52可以是语音的音量或声调,而不是词或短语。
[0061] [4第2相关技术]在第1相关技术中,获取部22获取作为输入数据的语音数据。另一方面,如第2相关技术那样,获取部22也可以获取作为输入数据的语音数据和图像数据。
[0062] 在第2相关技术中,输入装置12例如具有将图像数据输入到运算装置14的摄像头、存储介质等。图像显示讲话者。
[0063] 处理装置18的识别部24进行图像识别。识别部24通过进行图像数据的图像识别来识别讲话者的动作。作为识别部24,可以使用例如公知的图像识别技术。
[0064] 处理装置18的提取部26将讲话者的动作与规定的停止数据52及规定的开始数据54进行比较,设定删除起点及开始起点。在此所谓停止数据52是表示在讲话者进行保密讲话的场景下做出的可能性高的动作的数据。例如,作为停止数据52,可列举出耳语的动作等。另一方面,在此所谓的开始数据54是表示在讲话者停止进行保密讲话的场景下做出的可能性高的动作的数据。例如,作为开始数据54,可列举出将手从耳语的动作放下的动作等。
[0065] 处理装置18的生成部28与第1相关技术同样地使语音数据作为输出数据存储于存储部32。而且,生成部28从临时存储于临时存储部30的图像数据中去除从删除起点的时间到开始起点的时间为止获取到的图像数据。而且,生成部28使剩余的图像数据作为输出数据存储于存储部32。而且,生成部28也可以使从删除起点的时间到开始起点的时间为止获取到的图像数据作为重要数据存储于存储部32。
[0066] [5其他]也能够使第1实施方式或第2实施方式与第1相关技术或第2相关技术组合。例如,在第1实施方式与第1相关技术的组合中,可以使由第1相关技术生成的输出数据为第1实施方式的输入数据。
[0067] [6能够根据实施方式获得的发明]以下记载能够根据上述实施方式掌握的发明。
[0068] 本发明的方式所涉及的数据生成装置(10)具有获取部(22)、识别部(24)、提取部(26)和生成部(28),其中,所述获取部获取讲话的语音数据;所述识别部通过进行所述语音数据的语音识别来制作文本数据;所述提取部将所述文本数据所包含的多个词中满足规定条件的所述词提取为提取词;所述生成部使用所述文本数据所包含的所述词中的所述提取词和处于从所述提取词开始的规定范围内的所述词,生成对所述语音数据的内容总结而成的摘要数据。
[0069] 根据上述结构,由于提取满足规定条件的词,并使用提取词的周边的词来生成输出数据,因此能够生成反映了讲话内容的摘要。
[0070] 在上述方式中,可以为,所述提取部(26)将所述文本数据所包含的多个所述词中的处于从规定的设定词(34)开始的第1范围内的1个以上的所述词选择为重要词,对所述文本数据所包含的多个所述词中的所述重要词和处于从所述重要词开始的第2范围内的1个以上的所述词赋予规定的权重,确定分别根据所述词的所述权重提取的所述提取词。
[0071] 根据上述结构,由于对各个词赋予适当的权重,并根据权重确定提取词,因此能够生成更适当地反映了讲话内容的摘要。
[0072] 在上述方式中,可以为,所述提取部(26)将所述文本数据所包含的多个所述词中的处于从所述重要词开始的所述第2范围内的1个以上的所述词选择为新的所述重要词,对所述文本数据所包含的多个所述词中的处于从新的所述重要词开始的所述第2范围内的1个以上的所述词赋予所述权重。
[0073] 根据上述结构,由于对各个词赋予适当的权重,并根据权重确定提取词,因此能够生成更适当地反映了讲话内容的摘要。
[0074] 在上述方式中,可以为,所述提取部(26)使对同一所述词赋予的所述权重的数值随着对同一所述词赋予所述权重的次数增加而增大。
[0075] 根据上述结构,由于使各个词的权重适当地变化,因此能够生成更适当地反映了讲话内容的摘要。
[0076] 在上述方式中,可以为,在所述摘要数据被使用者校正的情况下,所述生成部(28)根据校正后的所述摘要数据进行机器学习。
[0077] 根据上述结构,能够根据特定的使用者的喜好生成摘要。
[0078] 在上述方式所涉及的数据生成装置(10)中,可以为,具有通信部(42),该通信部能够向外部服务器发送所述摘要数据,并且能够从所述外部服务器接收校正后的所述摘要数据,所述生成部(28)根据经由所述通信部(42)获取的校正后的所述摘要数据进行机器学习。
[0079] 根据上述结构,能够生成通常的摘要。
[0080] 此外,在本发明的相关技术所涉及的数据生成装置(10)中,可以为,具有临时存储部(30)和存储部(32),所述临时存储部临时地存储由所述获取部(22)获取到的所述输入数据;所述存储部存储由所述生成部(28)所生成的所述输出数据,所述获取部(22)获取作为所述输入数据的语音数据和图像数据中的至少一方,所述识别部(24)按照所述输入数据的获取顺序进行所述输入数据的识别,所述提取部(26)按照时间顺序提取由所述识别部(24)所识别的所述识别数据,所述生成部(28)按照时间顺序将由所述提取部(26)所提取出的所述识别数据与规定的停止数据(52)进行比较,在判断为两者一致的情况下,将从判断时间点开始的规定时间前设定为删除起点,使在所述删除起点之前临时存储于所述临时存储部(30)的所述输入数据作为所述输出数据存储于所述存储部(32)。
[0081] 根据上述相关技术,能够防止存储不适当的数据。
[0082] 在上述相关技术中,可以为,所述生成部(28)在所述删除起点的设定后,按照时间顺序将由所述提取部(26)所提取出的所述识别数据与规定的开始数据(54)进行比较,在判断为两者一致的情况下,将从判断时间点开始的规定时间前设定为开始起点,使在所述开始起点之后临时存储于所述临时存储部(30)的所述输入数据作为所述输出数据存储于所述存储部(32)。
[0083] 根据上述相关技术,能够防止存储不适当的数据,另一方面,能够存储在不适当的数据之后获取的适当的数据。
[0084] 在上述相关技术中,可以为,所述获取部(22)获取作为所述输入数据的所述语音数据,所述停止数据(52)是词或短语。
[0085] 在上述相关技术中,可以为,所述获取部(22)获取作为所述输入数据的所述图像数据,所述停止数据(52)是使用者的规定动作。
[0086] 在上述相关技术中,可以为,所述获取部(22)获取作为所述输入数据的所述语音数据,所述停止数据(52)是音量或声调。