首页 / 一种基于大模型技术的水务行业知识问答方法及系统

一种基于大模型技术的水务行业知识问答方法及系统公开 发明

技术领域

[0001] 本发明涉及计算机技术领域,具体而言,涉及一种基于大模型技术的水务行业知识问答方法及系统。

相关背景技术

[0002] 大模型知识问答系统是一种基于人工智能和大数据技术构建的,旨在提供高效、准确的知识问答服务。该系统主要基于成熟的大模型技术构建大规模知识库,并通过NLP(自然语言处理)等技术实现用户问题的自动理解和回答。大模型知识问答系统涉及多个关键技术,包括知识表示与建模、问题理解与解析、知识检索与融合、答案生成与评估等。这些技术共同构成了大模型知识问答系统的核心,使其能够实现对复杂问题的快速、准确响应。
[0003] 尽管现有技术在大模型知识问答系统方面取得了显著的进展,但仍存在一些局限性。例如,对于某些复杂问题的理解和回答可能不够准确,尤其是对于涉及原水、供水、污水、水环境、建设开发、技术与服务等多种类别的问题的水务行业来说,回答难度就会更大。
[0004] 综上,目前的单一来源的问答类大模型难以有效应对一些复杂的水务行业知识,导致不能为客户提供优良的问答体验,亟需改进。

具体实施方式

[0042] 以下由特定的具体实施例说明本申请的实施方式,熟悉此技术的人士可由本说明书所揭露的内容轻易地了解本申请的其他优点及功效,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0043] 此外,下面所描述的本申请不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
[0044] 如图1、图2所示,本发明实施例公开了一种基于大模型技术的水务行业知识问答方法,所述方法包括如下步骤:
[0045] 基础服务层接收用户输入的水务行业问题,并将所述水务行业问题传输给所述模型调用层;
[0046] 所述模型调用层调用第一问答模型对所述水务行业问题的回答难度进行评估;其中,所述第一问答模型嵌入在所述模型调用层;
[0047] 若评估得出的所述回答难度低于难度阈值,则由所述第一问答模型对所述水务行业问题进行回答;
[0048] 若评估得出的所述回答难度高于难度阈值,则调用基础模型层中的若干第二问答模型对所述水务行业问题进行回答。
[0049] 本发明的方案基于三层架构的水务行业知识问答系统,其包括基础模型层、模型调用层和基础服务层。其中,基础模型层用于接收用户输入的水务行业问题,并可嵌入AI服务、PDF解析服务、QA解析服务等,以实现对用户输入的多种类型的水务行业问题的准确解析理解;模型调用层是本发明的核心处理层,其包括处理器和对应的第一问答模型,第一问答模型是嵌入在模型调用层中的本地模型;基础模型层中则设置了与多个第二问答模型进行连通的接口组件,第二问答模型是商业大模型,例如通义千问系列模型、文心一言系列模型、智谱清言系列模型等。
[0050] 基于上述三层架构,本发明方案的具体实施方式为:用户在基础服务层输入具体的问题信息和/或对应的附件内容,基础服务层对其输入内容进行语义分析,以确定得出该用户的水务行业知识问题即水务行业问题,并将水务行业问题传输给模型调用层。模型调用层接收到该水务行业问题之后,即调用嵌入在本地的第一问答模型对该水务行业问题的回答难度进行评估。如果评估得出的回答难度低于难度阈值时,表明本地的第一问答模型就可以应对该水务行业问题,此时控制第一问答模型对该水务行业问题进行回答即可。而若评估得出的回答难度高于难度阈值,则表明本地的第一问答模型难以应对该水务行业问题,此时需要调用基础模型层中的若干第二问答模型即商业大模型对水务行业问题进行回答。
[0051] 于是,本发明在接收到用户输入的水务行业问题之后,并未直接对其进行回答处理,而是先控制本地的第一问答模型对其回答难度进行评估,在回答难度较低时优选通过本地的第一问答模型进行回答,这样可以提升回答效率;而在回答难度较高时则切换使用其它商业大模型对该水务行业问题进行回答,从而基于多源的问答模型确保了对水务行业问题的回答内容的准确性。
[0052] 可选地,所述模型调用层调用第一问答模型对所述水务行业问题的回答难度进行评估,包括:
[0053] 所述模型调用层将所述水务行业问题进行语义精简处理,获得精简水务行业问题,根据所述精简水务行业问题对所述第一问答模型进行提问;
[0054] 所述第一问答模型基于所述精简水务行业问题查询水务行业知识数据库,输出试回答内容;
[0055] 对所述试回答内容进行语义解析,以获得内容长度和内容类别数,根据所述内容长度和所述内容类别数计算得出所述回答难度。
[0056] 在本些实施例中,在模型调用层接收到基础服务层转发的水务行业问题之后,先对该水务行业问题进行精简处理,精简处理指的是对详细的水务行业问题进行概括、离散关键词提取等处理,进而获得精简水务行业问题。使用该精简水务行业问题向第一问答模型进行提问,第一问答模型通过内置的决策机制对水务行业知识数据库进行查询,并决策及输出对应的试回答内容。需要说明的是,由于精简水务行业问题相比于处理前的水务行业问题仅包含一些宽泛的内容,所以其输出的试回答内容会包括更多低关联性的内容。然后,对试回答内容进行语义解析,即可获得该试回答内容的内容长度和内容类别数,内容长度指的是该试回答所涉及的信息的总长度,例如字符数,内容类别数则指的是该试回答中所包含的具有低关联性的内容的类别数目。最后,根据分析得出的内容长度和内容类别数计算得出回答难度。
[0057] 需要说明的是,一般来说,在试回答内容包含的内容长度越长和内容类别数越多时,表明该水务行业问题涉及的基础信息越多,第一问答模型的处理难度越大,也越容易出错,即越容易出现答非所问的情况。同时,受限于用户对水务行业问题的描述方式的差别,可能会导致第一问答模型试回答内容中包含的内容长度和内容类别数偏离水务行业问题对应的真实意图,导致回答难度判断错误。所以,本发明通过对原水务行业问题进行精简处理,可以适当放大第一问答模型输出的试回答内容的内容长度和内容类别数,这有利于对其回答难度进行更容易的分析确定。
[0058] 可选地,所述根据所述内容长度和所述内容类别数计算得出所述回答难度,包括:
[0059] 基于所述内容长度、所述内容类别数和下述公式计算得出所述回答难度:
[0060]
[0061] 式中,d为对所述水务行业问题的所述回答难度,s为所述试回答内容对应的所述内容长度,为记录的各条试回答内容对应的内容长度的平均值;u为所述试回答内容对应的所述内容类别数, 为记录的各条试回答内容对应的内容类别数的平均值;a1、a2、b1、b2均为常数,且a1a1、 u>b1、 α1、α2为加权系数,且α1<α2。
[0062] 在本些实施例中,将前述确定得出的内容长度和所述内容类别数代入上述计算公式中,即得出第一问答模型针对该水务行业问题的回答难度。
[0063] 上述公式中包含两部分,即分别分析内容长度和内容类别数所对应的回答难度,然后再通过加权的方式进行融合计算。由于更多的内容类别数相比于更多的内容长度与回答难度的关联性更高,即试回答内容中包含的不相关内容越多,则说明该水务行业问题的回答难度越高;而回答内容的长短受多种因素影响,所以设置其权重略低。其中,α1+α2=1。
[0064] 其中, 为对记录的对应历史数据进行统计分析得出的试回答内容对应的内容长度、内容类别数的平均值。
[0065] 可选地,所述调用基础模型层中的若干第二问答模型对所述水务行业问题进行回答,包括:
[0066] 根据所述回答难度确定得出若干第二问答模型,所述第二问答模型的调用数量与所述回答难度正相关;
[0067] 接收各所述第二问答模型对所述水务行业问题的第一回答内容,对各所述第一回答内容进行语义分析,获得各条语义内容,对各条所述语义内容进行语义融合,得出第二回答内容;
[0068] 将所述第二回答内容反馈给所述基础服务层,由所述基础服务层输出给用户。
[0069] 在本些实施例中,在本地的第一问答模型难以对该水务行业问题进行准确回答时,选择调度基础模型层中的若干第二问答模型对该水务行业问题进行回答。在接收到各第二问答模型对水务行业问题的第一回答内容之后,先对各第一回答内容进行语义分析,获得各条语义内容,再对各条语义内容进行语义融合,从而得出第二回答内容。经过如此处理,便实现将多条第一回答内容融合处理为一条第二回答内容,而该第二回答内容即用于代表各条第一回答内容。
[0070] 其中,被调度的第二问答模型的数量是与前述得出的回答难度正相关的,即在回答难度越高时,选择调度更多的第二问答模型参与回答,如此设置,有利于提升对该水务行业问题的回答准确性;反之,则选择调度更少的第二问答模型参与回答,如此设置,有利于提升对该水务行业问题的回答效率,也能降低融合处理的难度。
[0071] 可选地,所述方法还包括:
[0072] 所述模型调用层还基于所述回答难度高于难度阈值的所述水务行业问题生成若干类似的水务行业问题,并将类似的水务行业问题输出给各所述第二问答模型;
[0073] 接收各所述第二问答模型的第三回答内容,并将所述类似的水务行业问题与各所述第三回答内容一一关联,构成一条训练数据,各条所述训练数据构成训练数据集;
[0074] 使用所述训练数据集对所述第一问答模型进行训练。
[0075] 在本些实施例中,本发明还设置了第一问答模型的更新训练机制,即在存在第一问答模型难以准确回答某水务行业问题的情况时,模型调用层生成与该水务行业问题类似的若干水务行业问题,并将这些类似的水务行业问题逐一输出给各第二问答模型,将得到的第三回答内容与类似的水务行业问题进行一一关联,进而构成一组训练数据集。再使用该训练数据集对第一问答模型进行训练,从而可提升第一问答模型针对该类型水务行业问题的回答能力。
[0076] 另外,通过上述方式,也无需人为收集训练数据,可有效降低第一问答模型的维护难度。而对于第二问答模型来说,由于其是商业大模型,通过大批量的用户的使用可以实现更快速的更新,本发明借助这些商业大模型来实现本地的第一问答模型的更新。
[0077] 可选地,所述方法还包括:
[0078] 所述模型调用层在识别到所述回答难度高于难度阈值的所述水务行业问题的存在比例高于比例阈值时,基于所述回答难度高于难度阈值的所述水务行业问题生成若干类似的水务行业问题,并将类似的水务行业问题输出给各所述第二问答模型。
[0079] 在本些实施例中,对第一问答大模型的更新训练应当是有节制的,而非一出现回答难度高于难度阈值的水务行业问题就立即开展更新训练。对此,本发明设置在识别到回答难度高于难度阈值的水务行业问题的存在比例高于比例阈值时,再触发对第一问答模型的更新训练,即执行基于回答难度高于难度阈值的水务行业问题生成若干类似的水务行业问题,并将类似的水务行业问题输出给各第二问答模型。另外,该存在比例的统计计算还应当在设定的统计周期内,例如一周。
[0080] 如图3所示,本发明实施例还公开了一种基于大模型技术的水务行业知识问答系统,所述系统包括处理模块、存储模块,所述处理模块通过执行所述存储模块中的计算机代码,以实现如下方法步骤:
[0081] 基础服务层接收用户输入的水务行业问题,并将所述水务行业问题传输给所述模型调用层;
[0082] 所述模型调用层调用第一问答模型对所述水务行业问题的回答难度进行评估;其中,所述第一问答模型嵌入在所述模型调用层;
[0083] 若评估得出的所述回答难度低于难度阈值,则由所述第一问答模型对所述水务行业问题进行回答;
[0084] 若评估得出的所述回答难度高于难度阈值,则调用基础模型层中的若干第二问答模型对所述水务行业问题进行回答。
[0085] 本发明实施例还公开了一种电子设备,包括:至少一个处理器、存储器以及存储在所述存储器中并可在所述至少一个处理器上运行的计算机程序,所述处理器执行所述计算机程序以实现如前述实施例所述的方法。
[0086] 本发明实施例还公开了一种计算机存储介质,所述计算机存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如前述实施例所述的方法。
[0087] 本发明实施例还公开了一种计算机程序产品,当计算机程序产品被处理器运行时以实现如前述实施例所述的方法。
[0088] 本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0089] 所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0090] 在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
[0091] 作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
[0092] 另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0093] 集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read‑On ly Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0094] 以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页 第1页 第2页 第3页
相关技术
方法系统相关技术
模型技术相关技术
陈振飞发明人的其他相关专利技术