首页 / 为对话数据生成情景任务的方法、装置、计算设备和介质

为对话数据生成情景任务的方法、装置、计算设备和介质实质审查 发明

技术领域

[0001] 本披露一般涉及自然语言处理技术领域。更具体地,本披露涉及一种为对话数据生成情景任务的方法、装置、计算设备和介质。

相关背景技术

[0002] 随着科技的飞速发展,人工智能(AI)正越来越频繁地出现在我们的生活中。同样地,我们的生活也越来越离不开各种AI系统。
[0003] 在学习领域,特别是口语学习领域,存在着对于这样的智能情景对话系统的需求,在该智能情景对话系统中,在用户选择了某个对话的情景任务(比如讨论食物情景任务,购买衣服情景任务,互相介绍情景任务等等)后,系统支持智能、自动地与用户就其选择的情景任务,针对目标语言,例如英文,进行自由对话。
[0004] 搭建一个这样的情景对话系统需要大量的情景任务对话数据进行训练。现实中,存在的普遍是没有情景任务的对话数据,具有情景任务的对话数据非常稀少。
[0005] 有鉴于此,亟需提供一种为对话数据生成情景任务的方案,以便更快更多的为对话数据生成情景任务,从而可以通过将具有情景任务的对话数据,作为训练数据,训练情景对话系统。

具体实施方式

[0032] 下面将结合本披露实施例中的附图,对本披露实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本披露一部分实施例,而不是全部的实施例。基于本披露中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本披露保护的范围。
[0033] 应当理解,本披露的说明书和权利要求书中使用的术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0034] 还应当理解,在此本披露说明书中所使用的术语仅仅是出于描述特定实施例的目的,而并不意在限定本披露。如在本披露说明书和权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。还应当进一步理解,在本披露说明书和权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0035] 如在本说明书和权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0036] 下面结合附图来详细描述本披露的具体实施例。
[0037] 首先参考图1,图1示意性地示出了根据本披露实施例提供的应用场景图,该应用场景是为对话数据生成情景任务的处理场景。如图1所示,应用场景涉及的设备包括数据处理设备110。其中,数据处理设备110为计算设备,例如为服务器或者终端,图1以数据处理设备110为服务器为例。
[0038] 在为对话数据生成情景任务的处理过程中,数据处理设备110可以将第一数量原始对话数据集输入到其本地部署或者远端部署,并通过网络可访问的上下文学习的大语言模型,以为所述第一数量原始对话数据集,生成情景任务。
[0039] 可选的,如图1所示,本披露实施例适用的应用场景涉及的设备还可以包括数据输入/输出设备120。其中,数据输入/输出设备120例如为终端或者服务器,与数据处理设备110之间例如通过网络进行通信。在为对话数据生成情景任务的处理过程中,用户例如可以通过数据输入/输出设备120将第一数量原始对话数据集和第二数量原始对话数据集的情景任务标注发送至数据处理设备110,由其进行相应的处理。数据处理设备110进行相应的处理后,向数据输入/输出设备120发送处理后的结果,以使其用户输出处理后的结果。
[0040] 其中,终端/服务器可以是个人数字处理(persona ldigita lassistant,简称PDA)设备、手持设备(例如智能手机、平板电脑)、计算设备(例如个人电脑(persona lcomputer,简称PC),小型机,中型机,大型机)等。
[0041] 下面结合图1的应用场景,参考图2-3来描述根据本披露示例性实施例的为对话数据生成情景任务的方法。需要注意的是,上述应用场景仅是为了便于理解本披露的精神和原理而示出,本披露的实施例在此方面不受任何限制。相反,本披露的实施例可以应用于适用的任何场景,例如本披露的实施例也完全可以在单个设备的场景中实施/实现。
[0042] 示例性的,本披露的方法的步骤例如可以由数据处理设备110执行,或者由数据输入/输出设备120执行,或者部分步骤由数据处理设备110执行,部分步骤由数据输入/输出设备120执行。
[0043] 参考图2,图2示出了根据本披露实施例提供的,例如由数据处理设备110执行的,为对话数据生成情景任务的方法的示例图流程图。如图2所示,为对话数据生成情景任务的方法包括:
[0044] 步骤S210,获取第一数量原始对话数据集。
[0045] 例如,用户可以通过数据输入/输出设备120,向数据处理设备110提供提前准备好的没有情景任务的所述第一数量原始对话数据集。所述第一数量原始对话数据集可以来源于专门的开源或者商业对话数据集,例如为所述专门的开源或者商业对话数据集的子集,其中,所述专门的开源或者商业中文对话数据集例如可以包括Ubuntu对话语料库,Crosswoz数据集,腾讯NaturalConv,百度DuRecDial,KdConv,英文对话数据集例如可以包括MMDialog,DailyDialog等。或者,也可以使用自动化技术,从互联网上收集对话数据,然后,通过人工审核和筛选,去除重复和低质量的对话,以快速获得包括大量对话数据的所述第一数量原始对话数据集。
[0046] 步骤S220,将所述第一数量原始对话数据集输入到上下文学习的大语言模型,以为所述第一数量原始对话数据集,生成情景任务,所述上下文学习的大语言模型用于根据输入的对话数据,生成对应的情景任务。
[0047] 例如,数据处理设备110可以将第一数量原始对话数据集输入到其本地部署或者远端部署,并通过网络可访问的上下文学习的大语言模型,以为所述第一数量原始对话数据集,生成情景任务。
[0048] 大语言模型(LLM)是指使用大量数据训练的深度学习模型,可以生成自然语言文本或理解语言的含义。大语言模型可以处理多种自然语言任务,如文本分类、问答、对话等。
[0049] LLM的一些示例包括GPT(Generative Pre‑trained Transformer,生成式预训练变形器)‑3、BERT(Bidirectional Encoder Representations from Transformers,Transformer的双向编码器表示)、XLNet(Generalized Autoregressive Pretraining for Language Understanding,语言理解的广义自回归预训练)和EleutherAI等。
[0050] LLM具有ICL(In‑Context Learning,上下文学习)能力。ICL能力是指,无需微调模型权重或者参数,只需要给预训练模型展示一些输入‑输出示例,模型就能学会做一些全新的事情。
[0051] 例如,如果需要让模型按照主题对文章进行分类,要做的就是先给它一些正确分类的文章的样例,它会进行上下文学习,学习到如何对文章进行分类,上下文学习完之后,再向模型输入文章,那么它就会给出文章相应的主题分类。
[0052] 同样地,如果需要让模型为对话数据生成情景任务,要做的就是先给它一些正确情景任务对话数据的样例,它会进行上下文学习,学习到如何为对话数据生成情景任务,上下文学习完之后,再向模型输入对话数据,那么它就会给出对话数据相应的情景任务。
[0053] 相比于人工对对话数据进行情景任务的标注,根据本披露的通过上下文学习的大语言模型进行对话数据的情景任务的生成的方案可以更快更多的为对话数据生成情景任务。
[0054] 此外,在本披露的一些实施例中,具体地,情景任务可以包括如下中的一个或多个内容项:对话发生的场景;对话对象的情感;对话对象的关系;对话对象的年龄;对话对象的位置等。
[0055] 在实际情况中,相同对话发生的场景下,不同的情感或者不同的对象关系等,都会导致对话双方之间的对话内容不一样。例如,在吃饭这个场景下,对话双方处于争吵的情感下产生的对话内容,会与对话双方处于正常的情感下产生的对话内容不一样。又例如,在吃饭这个场景下,处于中国的对话双方产生的对话内容,会与处于美国的对话双方产生的对话内容不一样。
[0056] 根据该实施例,由于为对话数据生成的情景任务包括多个内容项,通过将具有此情景任务的对话数据,作为训练数据,训练情景对话系统,训练得到的情景对话系统更加智能,能更好地与用户进行与具体场景具体内容项相匹配的对话。
[0057] 在本披露的一些实施例中,所述第一数量原始对话数据集可以为多模态的对话数据集,例如可以包括文本对话数据、语音对话数据、图像对话数据中的至少一种。相应地,根据该实施例,通过将具有情景任务的多模态对话数据,作为训练数据,训练情景对话系统,训练得到的情景对话系统更加智能,能与用户进行与具体情景任务相匹配的多模态的对话。
[0058] 在本披露的一些实施例中,所述第一数量原始对话数据集可以为多语种的对话数据集,包括英语对话数据、中文对话数据、日文对话数据、韩文对话数据、法语对话数据、俄语对话数据中的至少一种。相应地,根据该实施例,通过将具有情景任务的多语种对话数据,作为训练数据,训练情景对话系统,训练得到的情景对话系统更加智能,能与用户进行与具体情景任务相匹配的多语种的对话。
[0059] 接下来,参考图3,图3示出了根据本披露一些实施例的大语言模型进行情景任务对话数据上下文学习的方法的示例性流程图。如图3所示,大语言模型进行情景任务对话数据上下文学习的方法包括步骤:
[0060] S310,采样所述第一数量原始对话数据集,以获得第二数量原始对话数据集。
[0061] S320,获得所述第二数量原始对话数据集的情景任务标注;
[0062] S330,将所述具有情景任务标注的第二数量原始对话数据集,输入所述大语言模型,以用于所述大语言模型进行情景任务对话数据上下文学习。
[0063] 例如,由数据处理设备110对接收的第一数量原始对话数据集进行采样,获得第二数量原始对话数据集,将第二数量原始对话数据集发送到数据输入/输出设备120,以向用户显示,并从用户处获得所述第二数量原始对话数据集的对话数据的情景任务标注后再发送到数据处理设备110,由数据处理设备110将所述具有情景任务标注的第二数量原始对话数据集,输入所述大语言模型,以用于所述大语言模型进行情景任务对话数据上下文学习。
[0064] 可以根据所采用的大语言模型,来确定第二数量的具体数值。例如,对于上下文学习能力特别强的大语言模型,第二数量的具体数值可以较小,而对于上下文学习能力稍弱的大语言模型,第二数量的具体数值可以较大,可以明确地是,第二数量的具体数值远小于第一数量的具体数值。
[0065] 根据该实施例,用于大语言模型进行情景任务对话数据上下文学习的情景任务对话数据的样例,也是源自于第一数量原始对话数据集。这样情景任务对话数据上下文学习的大语言模型,能为第一数量原始对话数据集生成更加正确的情景任务。此外,根据该实施例,由于源自于第一数量原始对话数据集的第二数量原始对话数据集已经具有情景任务标注,并且用于大语言模型进行情景任务对话数据上下文学习,因此,在向大语言模型输入时所述第一数量原始对话数据集用于生成情景任务时,可以不用输入(即排除掉输入)所述第二数量原始对话数据集。
[0066] 当然,本领域的技术人员可以理解,可以采用非第一数量原始对话数据集中的对话数据,产生用于大语言模型进行情景任务对话数据上下文学习的情景任务对话数据的样例。
[0067] 根据本披露的一些实施例,上述方法还可以包括:对第一数量原始对话数据集进行处理,以分离出属于不同对话对象和/或者不同对话上下文的各个对话数据子集。
[0068] 因此,步骤S310可以具体为从所述各个对话数据子集中随机选择特定数量的对话数据子集,作为所述第二数量原始对话数据集。
[0069] 步骤S320可以具体为获得作为所述第二数量原始对话数据集的对话数据子集的情景任务标注;
[0070] 以及步骤S330可以具体为依次完整地将所述具有情景任务标注的作为所述第二数量原始对话数据集的对话数据子集,输入所述大语言模型,以用于所述大语言模型进行情景任务对话数据上下文学习。
[0071] 例如,对于语音对话数据,可以通过声纹识别,即根据待识别语音的声纹特征,识别该段语音对话数据对应的说话人。声纹指说话人的语音生物特征,理论上,同指纹一样,声纹具有专属独特性,可用于特定人分离。对于文本对话数据,可以通过基于规则的方法、基于机器学习的方法、或者基于注意力机制的方法来进行属于不同对话对象和/或者不同对话上下文的各个对话数据子集的分离。本领域的技术人员可以理解,在某些情况下,例如,两个人的语音对话包括不同的对话上下文(对话任务或者对话环境)的情况下,可以同时通过声纹识别和通过基于规则的方法、基于机器学习的方法、或者基于注意力机制的方法来进行属于不同对话对象和不同对话上下文的各个对话数据子集的分离。具体地,可以通过声纹识别,分离得到该两个人的语音对话,然后,通过自动语音识别技术,将该两个人的语音对话,转换成文本对话,再然后,通过基于规则的方法、基于机器学习的方法、或者基于注意力机制的方法,从所述文本对话中,分离得到属于不同对话上下文的对话子集。
[0072] 例如,根据上述实施例,通过步骤S310和S320的处理,可以得到如下的情景任务对话数据子集:<情景任务1>:<对话数据子集1>;<情景任务2>:<对话数据子集2>;<情景任务1>:<对话数据子集3>;等等。在步骤S330,可以依次向所述大语言模型输入<情景任务1>:<对话数据子集1>,<情景任务2>:<对话数据子集2>,<情景任务1>:<对话数据子集3>。
[0073] 根据本披露的该实施例,通过依次完整地将所述具有情景任务标注的作为所述第二数量原始对话数据集的对话数据子集,输入所述大语言模型,使得所述大语言模型能更快的进行情景任务对话数据上下文学习。
[0074] 根据本披露的一些实施例,可以先向大语言模型依次完整地输入第1至第N个具有情景任务标注的作为所述第二数量原始对话数据集的对话数据子集,使得所述大语言模型进行情景任务对话数据上下文学习。然后,再只向大语言模型依次完整地输入第N+1至第2N个作为所述第二数量原始对话数据集的对话数据子集,判断其生成的情景任务,是否与第N+1至第2N个对话数据子集的情景任务标注相匹配。如果相匹配的比率大于某个阈值,比如大于80%,那么表明大语言模型已经完成了情景任务对话数据上下文学习。否则,需要继续向大语言模型依次完整地输入第2N+1至第3N个具有情景任务标注的作为所述第二数量原始对话数据集的对话数据子集,使得所述大语言模型再进行情景任务对话数据上下文学习,然后再只向大语言模型依次完整地输入第3N+1至第4N个作为所述第二数量原始对话数据集的对话数据子集,判断其生成的情景任务与第3N+1至第4N个对话数据子集的情景任务标注的匹配情况。依次类推。
[0075] 同样地,可以根据所采用的大语言模型,来确定上述N的具体数值。例如,对于上下文学习能力特别强的大语言模型,N的具体数值可以较小,而对于上下文学习能力稍弱的大语言模型,N的具体数值可以较大。
[0076] 类似地,根据本披露的一些实施例,在步骤S220,依次完整地将从第一数量原始对话数据集分离出的属于不同对话对象和/或者不同对话上下文的各个对话数据子集,输入到上下文学习的大语言模型,以为所述第一数量原始对话数据集的各个对话数据子集,生成情景任务,使得所述大语言模型能更快更正确的进行情景任务的生成。
[0077] 在介绍了本披露示例性实施例的方法之后,接下来,参考图4对本披露示例性实施例的为对话数据生成情景任务的装置进行说明。如图4所示,为对话数据生成情景任务的装置400包括获取模块410,第一输入模块420。
[0078] 其中,获取模块410,用于获取第一数量原始对话数据集;
[0079] 第一输入模块420,用于将所述第一数量原始对话数据集输入到上下文学习的大语言模型,以为所述第一数量原始对话数据集,生成情景任务,所述上下文学习的大语言模型用于根据输入的对话数据,生成对应的情景任务。
[0080] 接下来,参考图5对本披露示例性实施例的用于大语言模型进行情景任务对话数据上下文学习的装置进行说明。如图5所示,用于大语言模型进行情景任务对话数据上下文学习的装置500包括:采样模块510,获得模块520,第二输入模块530。
[0081] 其中,采样模块510,用于采样所述第一数量原始对话数据集,以获得第二数量原始对话数据集;获得模块520,用于获得所述第二数量原始对话数据集的情景任务标注;第二输入模块530,用于将所述具有情景任务标注的第二数量原始对话数据集,输入所述大语言模型,以用于所述大语言模型进行情景任务对话数据上下文学习。
[0082] 根据本披露的一些实施例,用于大语言模型进行情景任务对话数据上下文学习的装置500可以是为对话数据生成情景任务的装置400的一部分。
[0083] 在一些实施例中,装置400和500还包括:分离模块,用于对第一数量原始对话数据集进行处理,以分离出属于不同对话对象和/或者不同对话上下文的各个对话数据子集,[0084] 以及采样模块510还用于从所述各个对话数据子集中随机选择特定数量的对话数据子集,作为所述第二数量原始对话数据集;
[0085] 获得模块520还用于获得作为所述第二数量原始对话数据集的对话数据子集的情景任务标注;
[0086] 第二输入模块530还用于依次完整地将所述具有情景任务标注的作为所述第二数量原始对话数据集的对话数据子集,输入所述大语言模型,以用于所述大语言模型进行情景任务对话数据上下文学习。
[0087] 以及第一输入模块420还用于依次完整地将所述各个对话数据子集输入到上下文学习的大语言模型,以为所述第一数量原始对话数据集的各个对话数据子集,生成情景任务。
[0088] 在一些实施例中,所述装置400还包括:应用模块,用于应用生成有情景任务的第一数量原始对话数据集,作为训练数据,训练情景对话系统。
[0089] 在一些实施例中,所述第一数量原始对话数据集包括文本对话数据、语音对话数据、图片对话数据中的至少一种。
[0090] 在一些实施例中,所述第一数量原始对话数据集包括英语对话数据、中文对话数据、日文对话数据、韩文对话数据、法语对话数据、俄语对话数据中的至少一种。
[0091] 本披露提供的装置400和500可以执行图2和图3所示的方法,具体内容参照上述方法的说明,在此不再赘述。
[0092] 在介绍了本披露示例性实施例的方法和装置之后,接下来,参考图6对本披露示例性实施例的计算设备进行说明。
[0093] 图6显示的计算设备100仅仅是一个示例,不应对本披露实施例的功能和使用范围带来任何限制。
[0094] 如图6所示,计算设备100以通用计算设备的形式表现。计算设备100的组件可以包括但不限于:至少一个处理单元101、至少一个存储单元102,连接不同系统组件(包括处理单元101和存储单元102)的总线103。存储单元102其上存储有程序代码,当所述程序代码被所述处理单元101执行时,使所述处理单元执行如结合图2‑3所描述的方法的步骤。
[0095] 总线103包括数据总线、控制总线和地址总线。
[0096] 存储单元102可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)1021和/或高速缓存存储器1022,可以进一步包括非易失性存储器形式的可读介质,例如只读存储器(ROM)1023。
[0097] 存储单元102还可以包括具有一组(至少一个)程序模块1024的程序/实用工具1025,这样的程序模块1024包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0098] 计算设备100也可以与一个或多个外部设备104(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(I/O)接口105进行。并且,计算设备100还可以通过网络适配器106与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图6所示,网络适配器106通过总线103与计算设备100的其它模块通信。应当理解,尽管图中未示出,可以结合计算设备100使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
[0099] 在介绍了本披露示例性实施例的方法、装置和计算设备之后,接下来,参考图7对本披露示例性实施例的计算机可读存储介质进行如下说明。
[0100] 参考图7所示,描述了根据本披露的实施例的用于实现上述方法的计算机可读存储介质70,其可以采用便携式紧凑盘只读存储器(CD‑ROM)并包括程序代码。当所述程序代码被计算设备的处理单元执行时,使所述处理单元执行如结合图2‑3所描述的方法的步骤。然而,本披露的可读存储介质不限于此。
[0101] 可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD‑ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0102] 可以以一种或多种程序设计语言的任意组合来编写用于执行本披露公开操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备。
[0103] 虽然本文已经示出和描述了本披露的多个实施例,但对于本领域技术人员显而易见的是,这样的实施例只是以示例的方式来提供。本领域技术人员可以在不偏离本披露思想和精神的情况下想到许多更改、改变和替代的方式。应当理解的是在实践本披露的过程中,可以采用对本文所描述的本披露实施例的各种替代方案。所附权利要求书旨在限定本披露的保护范围,并因此覆盖这些权利要求范围内的等同或替代方案。

当前第1页 第1页 第2页 第3页
相关技术
对话数据相关技术
情景任务相关技术
程桥发明人的其他相关专利技术