一种大型语言模型微调的方法、装置及电子设备

一种大型语言模型微调的方法、装置及电子设备实质审查发明

技术领域

[0001] 本文件属于数据处理的技术领域，具体涉及一种大型语言模型微调的方法、装置及电子设备。

具体实施方式

[0017] 下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本文件保护的范围。

[0018] 本文件的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本说明书的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

[0019] 下面结合附图，通过具体的实施例及其应用场景对本说明书实施例提供的大型语言模型微调的方法、装置及电子设备进行详细地说明。

[0020] 图1示出本发明的一个实施例提供的一种大型语言模型微调的方法，该方法可以由电子设备执行，该电子设备可以包括：服务器和/或终端设备，其中终端设备可以例如车载终端或手机终端等。换言之，该方法可以由安装在前述电子设备的软件或硬件来执行，该方法包括如下步骤：

[0021] 步骤S102：接收针对大型语言模型的微调的任务指令，并基于任务指令，获取对大型语言模型进行微调所需的训练数据集。

[0022] 其中，任务指令中的大型语言模型(Large Language Model,LLM)为使用大规模数据预先训练的模型，由于大型语言模型的泛化能力较强，其可以被迁移到多种特定应用场景的数据环境下进行增量训练，并对大型语言模型的参数权重进行微调，得到微调后的个性化的大型语言模型。本说明书对大型语言模型的类型不做具体限定，可根据实际情况进行确定。在一示例中，大型语言模型可以是开源的大语言模型，如ChatGPT、LLaMA，Baichuan、Qwen等。

[0023] 为了更好的说明本说明书，凸显本说明书的主旨，本说明书中的具体实施例以反馈情况信息的自动文摘生成这一应用场景为描述对象，本领域技术人员应当理解，对于知识检索等其它应用场景，本说明书也同样可以以相同或近似的手段实施。

[0024] 本说明书中对训练数据集中的训练文本种类不做具体限定，可以根据实际情况进行确定。大型语言模型的应用场景不同，对大型语言模型进行个性化微调所需的训练数据也不同。因此，任务指令中可以包含用于指示应用场景的微调目标，进而可以根据大型语言模型的个性化需求(即任务指令中的微调目标)，确定训练数据集中的训练文本的具体种类，获取与微调目标对应的训练数据集。例如，在微调目标是论文检索的情况下，训练数据集可以是学术论文；图2示出了一种对大型语言模型微调的方案的框架，用于反馈情况新闻的摘要生成，该框架可以为DeepSpeed等，如图2所示，在微调目标是反馈情况监测的情况下，训练数据集中的训练文本可以是来自各个互联网网站等的反馈情况新闻。

[0025] 步骤S104：使用大型语言模型对训练数据集中的训练文本进行信息提取处理，得到训练文本对应的第一摘要。

[0026] 文本摘要是指从一个较长的文本中自动生成一个较短的摘要，用于捕捉文本的主要内容和关键信息。步骤S104中的文本摘要(即第一摘要)，可以是指从训练文本中提取和生成与训练文本中的特定主题相关的信息。在反馈情况监测的应用场景下，反馈情况信息如反馈情况新闻等往往缺乏人工撰写的高质量摘要作为参考标签，这使得传统的文本摘要获取方法难以满足企业对高质量风险情报摘要的需求。

[0027] 在执行文本摘要生成和关键信息抽取等自然语言生成任务时，大型语言模型表现良好，大型语言模型可以自动生成准确、简洁、相关的摘要和抽取结果，大大提高人们对文本数据的处理效率。在一示例中，可以在获取包含训练文本的训练数据集后，将训练数据集输入大型语言模型，使用大型语言模型对训练数据集中的各个训练文本进行自动文本摘要生成，得到较为准确且信息密集的第一摘要。

[0028] 如图2所示，为了提升后续处理的准确性和效率，可以设置一个对原始的训练文本进行预处理和清洗的预处理模块。在获取训练数据集后，预处理模块可以从原始数据(例如反馈情况新闻)中去除无用信息，该无用信息可以是广告、重复内容、无关链接等，该预处理模块可以避免混杂信息对大型语言模型提取训练文本的第一摘要过程的干扰。

[0029] 本说明书中对使用大型语言模型得到第一摘要的过程不做具体限定，可以根据实际情况进行确定。具体的，本说明书中大型语言模型获取第一摘要的过程，可以是将注意力专注于通常包含了新闻的核心信息的新闻标题及首尾段落的内容，对这些关键段落进行分析和总结，进而生成新闻主题的第一摘要。在风险情报领域，通过大型语言模型获取摘要，能够有效捕捉复杂的风险情报，包括那些隐含在细节中的信息点，从而克服了传统方法无法处理语义关联和上下文信息的问题。

[0030] 零样本学习(zero‑shot Learning)是一种用于在没有相关样本数据的情况下实现分类、识别或信息提取的机器学习技术。步骤S102中就是采用了零样本(zero‑shot)生成技术，即运用大型语言模型(zero‑shot模型)的强大自然语言理解能力，这样可以不依赖于领域特定的训练数据，直接对训练文本进行快速和准确摘要，得到质量较高的第一摘要。

[0031] 步骤S106：使用评估模型对第一摘要进行质量评估，得到第一摘要对应的评估结果。

[0032] 其中，评估模型为独立于S102中的大型语言模型、用于对第一摘要的质量进行评估的模型。本说明书中对评估模型的结构不做具体限定，可以根据实际情况进行确定。具体的，评估模型可以为神经网络模型等。

[0033] 在一示例中，评估模型可以至少从第一摘要的准确性、完整性、相关性和可读性等多个维度，对第一摘要的质量进行综合评定。具体的，评估模型对第一摘要的评分方式，可以是从多个维度对第一摘要分别进行打分，进而将各个维度对应的分值进行整合得到最终的打分结果，并将该打分结果作为评估结果进行输出。一般的，作为评估结果的打分结果越高，第一摘要的质量越好，而作为评估结果的打分结果越低，第一摘要的质量就会越差。

[0034] 在步骤S106中，通过评估模型对第一摘要进行自动评估，能够保证微调后的大型语言模型生成的摘要内容的高质量和一致性。

[0035] 步骤S108：基于至少包含评估结果的微调数据对大型语言模型进行微调，得到微调后的大型语言模型。

[0036] 其中，微调数据除包含评估结果外，还可以包含评估结果对应的训练文本和第一摘要的具体内容。在得到第一摘要对应的评估结果后，可以构建对训练数据集中各个训练文本对应的微调数据，并使用微调数据对大型语言模型进行微调，得到微调后的大型语言模型。

[0037] 为提高微调效果，可以从上述微调数据中，仅选取能够对大型语言模型的自动文摘生成效果产生较大影响的微调数据，再使用该选取的微调数据对大型语言模型进行微调。具体的，可以选取评估结果较差的微调数据，对大型语言模型进行针对性的微调，以提高大型语言模型在该评估结果较差的微调数据对应的训练文本上的自动文摘生成效果。

[0038] 如图2所示，在微调过程中，可以对zero‑shot模型(即大型语言模型)的监督微调训练(Supervised Finetune Training，SFT)，具体的，评估模型可以对zero‑shot模型的产出进行多轮交互得到高质量的批量总结，得到SFT‑生成模型(即微调后的大型语言模型)。具体的，可以使用评估模型对大型语言模型输出的摘要进行实时评估，即在损失函数中引入评估模型对大型语言模型输出的摘要的评估结果，以指导大型语言模型的微调方向，使得大型语言模型能够通过梯度下降等优化算法调整其权重，更好地预测出与人工评价一致的文本摘要(评估模型训练过程中可以使用人工评价的摘要进行训练)。

[0039] 应当注意的是，步骤S108和步骤S104中的大型语言模型可以相同，也可以不同。为更好的确定大型语言模型的微调效果，可以使步骤S108和步骤S104中的大型语言模型保持一致，即在步骤S104中使用未微调的大型语言模型进行信息提取处理生成第一摘要，在步骤S108中使用第一摘要对应的微调数据对该大型语言模型进行微调处理。

[0040] 在大型语言模型微调结束后，可以对大型语言模型进行评估测试，以验证大型语言模型的性能是否得到提升。具体的，测试内容包括但不限于使用新的、未曾见过的文本(如新的反馈情况新闻数据)来测试模型的泛化能力。如果测试结果显示大型语言模型的表现仍有改进的空间，那么将继续收集新的人工评估数据，并重复微调和评估流程，直至大型语言模型的性能达到预期的水平。使用本说明书中的大型语言模型微调的方法进行微调后，经测试，大型语言模型输出的摘要文本的总结可用率显著提升，可以达到95％以上。其中，该总结可用率的评价标准可以包括主题准确度、流畅度、精炼度等。

[0041] 在风险情报领域，新的事件和风险点可能会迅速出现。在一示例中，可以设置在线学习机制，使大型语言模型在首次微调后还能够持续微调，实时适应新的数据和趋势。具体的，可以通过在大型语言模型中引入增量学习算法来实现，使大型语言模型可以适应新的数据样本，即大型语言模型可以根据实时数据和人工评估标准不断学习和优化，不断地提升大型语言模型生成的摘要的质量。

[0042] 在一示例中，还可以设计一个交互式的摘要生成机制，允许用户根据自己的需求对摘要的重点内容进行指导。例如，用户可以指定某些关键词或主题，系统将基于这些输入更精确地提取相关信息，生成个性化的风险情报摘要等。这种交互可以通过用户界面实现，允许用户在生成摘要的过程中进行实时调整和反馈。

[0043] 在步骤S106中，通过包括第一摘要的评估结果的微调数据对大型语言模型进行有监督的微调，该过程使得大型语言模型的微调过程不再局限于固定的规则和模板，使得大型语言模型生成摘要更加准确和个性化。

[0044] 在本说明书实施例中，运用大型语言模型的强大自然语言理解能力得到第一摘要，通过评估模型对第一摘要进行质量评估，进而基于质量评估结果针对性的对大型语言模型进行微调。该过程通过大型语言模型提供的第一摘要对大型语言模型进行微调，实现了大型语言模型在文本摘要生成领域的个性化，并基于质量评估处理，提高了微调后的大型语言模型生成的文本摘要的准确性、可靠性和实用性，进而可以实现对反馈情况的实时监管。

[0045] 图3提供了一个大型语言模型微调的方法的应用场景示意图，如图3所示，摘要生成服务器301向微调服务器302发出微调命令，微调服务器302在收到微调命令后，从第一数据库303中选择训练数据集，使用本说明书中的大型语言模型微调的方法对大型语言模型进行微调，训练完成后向摘要生成服务器301返回微调结果，并将微调后的大型语言模型存放到第二数据库304中，进而摘要生成服务器301可以从第二数据库304中读取微调好的大型语言模型，对客户端305发送的目标文本进行摘要的生成，并向客户端305返回生成结果。

[0046] 其中，摘要生成服务器301和微调服务器302可以为同一服务器，第一数据库303和第二数据库304可以为同一数据库。

[0047] 在一种实现方式中，在任务指令中的微调目标是反馈情况监测的情况下，在使用评估模型对第一摘要进行质量评估前，大型语言模型微调的方法还包括如下步骤A1‑A3：

[0048] 步骤A1，使用大型语言模型对第一摘要进行主体提取，得到目标主体；

[0049] 步骤A2，获取与目标主体相关的风险文本；

[0050] 步骤A3，使用风险文本对第一摘要中的目标主体进行信息补充处理，得到调整后的第一摘要。

[0051] 通常情况下，对文本进行摘要生成只需要生成一个描述事件发生的主题摘要即可。但在反馈情况监管领域，除了关注主题摘要中的主体(包括公司、个人或其他实体等)，往往还需要关注主题摘要描述的事件可能会这些主体产生何种影响，以实现对反馈情况的全方位监测。

[0052] 检索增强生成(Retrieval Augumented Generation，RAG)是一种人工智能框架，用于通过将模型建立在外部知识源的基础上来补充大型语言模型的内部信息表示，从而提高大型语言模型生成的响应的质量。在一示例中，可以在微调大型语言模型的过程中采用检索增强生成技术。具体的，可以在确定第一摘要后，可以对第一摘要中的主体进行提取，并获取前述提取的目标主体，进而使用该目标主体相关的风险文本对第一摘要中的目标主体进行信息补充处理，得到调整后的第一摘要。该风险文本为第一摘要以外的、与目标主体相关的信息，风险文本的具体内容可以参考后续的第一风险文本和/或第二风险文本的内容。引入主体检索增强的大型语言模型可以达到较好的冷启动效果，具体的，即使不进行后续的质量评估，使用第一摘要微调的大型语言模型输出的摘要文本也可以实现80％以上的总结可用率。

[0053] 其中，与目标主体相关的风险文本的获取方式可以包括：从训练文本中，识别包含目标主体的第一风险文本；从训练文本以外的信息来源中，获取包含目标主体的第二风险文本。具体的，由于训练文本的篇幅通常较长，目标主体的相关内容往往会被淹没，为了使大型语言模型更好的注意到目标主体相关的内容，可以从训练文本中识别与目标主体相关的内容，作为第一风险文本。如图2所示，除了训练文本外，还可以使用tf‑idf和向量检索等方法，从互联网和内部知识库等处识别和汇总与目标主体相关的关键句段，作为第二风险文本。具体的，第二风险文本可以包含历史事件、行业评价或其他重要的背景信息。

[0054] 在得到风险文本(包括第一风险文本和/或第二风险文本)后，可以使用风险文本对第一摘要中的目标主体进行信息补充处理，提高第一摘要的准确度，进而可以使用调整后的第一摘要对大型语言模型进行微调，提高微调后的大型语言模型的生成的摘要的效果。在一种实现方式中，步骤A3，可以执行为如下步骤B1‑B2：

[0055] 步骤B1，基于风险文本，通过大型语言模型确定风险文本对应的第二摘要；

[0056] 步骤B2，使用大型语言模型对第一摘要和第二摘要进行整合处理，得到调整后的第一摘要。

[0057] 其中，风险文本的处理方式可以与训练文本相同，即可以用待微调的大型语言模型对风险文本进行信息提取处理，得到第二摘要。在得到第二摘要后，可以将第一摘要与第二摘要进行整合，得到调整后的第二摘要。在一示例中，第一摘要与第二摘要整合的方法可以是将第一摘要和第二摘要一同输入大型语言模型中，通过大型语言模型的信息抽取处理，即可得到调整后的第一摘要。如图2所示，在大型语言模型输出第一摘要的过程中，可以通过提示工程(如使用提示词等)和输出控制(如防止虚假、有害甚至危险信息的输出等)，得到调整后的第一摘要。

[0058] 在检索到的风险文本数量较多的情况下，可以对检索到的风险文本进行挑选，进而仅进行挑选出的风险文本的第二摘要的生成，以提高第二摘要的生成效率，进而提高大型语言模型微调的效率。在一种实现方式中，步骤B1，可以执行为如下步骤C1‑C2：

[0059] 步骤C1，将风险文本与目标主体的相关性进行排序，并基于排序结果，从风险文本中确定目标风险文本；

[0060] 步骤C2，使用大型语言模型对目标风险文本进行信息提取处理，得到风险文本对应的第二摘要。

[0061] 其中，目标风险文本为对风险文本进行筛选得到的用于生成第二摘要的风险文本。具体的，可以在计算检索到的风险文本与目标主体的相关性后，将相关性进行排序，并基于排序结果确定所需的目标风险文本。具体的，可以通过皮尔逊相关系数(Pearson)、斯皮尔曼相关系数(Spearman's rank correlation coefficient)等进行上述相关性的计算。

[0062] 除了相关性以外，还可以将风险文本中可能发生的风险事件对目标主体的重要性进行计算。具体的，可以请目标主体所属的领域的专家(例如有经验的审核人员等)对前述重要性进行评分，进而可以根据专家评分结果，确定每个风险文本中可能发生的风险事件对目标主体的重要性。具体的，专家评分结果越高，该风险文本中可能发生的风险事件对应的重要性越大；专家评分结果越低，该风险文本中可能发生的风险事件对应的重要性越小。

[0063] 在得到重要性和相关性后，可以对重要性和相关性设置对应的权重，进而可以同时使用重要性和相关性对风险文本进行排序，确定目标风险文本。

[0064] 在本说明书实施例中，在反馈情况监测的应用场景下，进行第一摘要中的目标主体的提取，并通过与目标主体相关的风险文本对第一摘要中的目标主体进行信息补充处理。该过程通过第二摘要对第一摘要进行了检索增强(即整合处理)，提高了第一摘要的准确性和相关性，从而使微调后的大型语言模型生成的反馈情况监测领域的摘要更为精确和信息丰富。

[0065] 在一种实现方式中，评估模型的训练过程，可以执行为如下步骤D1‑D3：

[0066] 步骤D1，使用多个预设的评估维度对样本文本对应的样本摘要的质量进行评估，得到在各个评估维度下样本摘要的评分；

[0067] 步骤D2，基于在各个评估维度下样本摘要的评分和各个评估维度的权重，得到样本评估结果；

[0068] 步骤D3，使用至少包含样本评估结果的评估训练数据对评估模型进行训练，得到训练后的评估模型。

[0069] 其中，样本文本是对评估模型进行训练所使用的数据集中的文本。评估训练数据除包含样本评估结果外，还可以包含样本评估结果对应的样本文本和样本摘要的具体内容。

[0070] 具体的，样本文本可以是专门对评估模型进行训练所使用的文本，样本文本对应的样本摘要可以与第一摘要的获取方式相同。此外，样本文本还可以是根据训练文本得到的文本，即样本文本可以是训练数据集中的部分训练文本，样本摘要可以是该部分训练文本对应的第一摘要。

[0071] 在得到样本文本和样本摘要后，可以使用预设的评估维度对样本摘要的质量进行评估。具体的，为提高评估结果的准确度，可以请样本文本所属的领域的专家先对评估维度和各个评估维度对应的权重进行确定，以实现人工对样本摘要的质量评估。其中，评估维度可以是摘要的准确性、完整性、相关性和可读性等。

[0072] 人工评估过程中可能包括以下步骤：对样本摘要进行初步阅读，将样本摘要与样本文本对比，评估样本摘要中信息的准确性和完整性；分析样本摘要中的语言表达，包括措辞、语法和风格，以及其对目标受众的适应性；检查样本摘要是否遗漏了样本文本中的关键风险点或者是否对某些信息过于强调，以保证信息的中立性和平衡性；评价样本摘要的结构和逻辑流程，确保样本摘要中信息的组织方式对用户是否清晰易懂。

[0073] 此外，除了打分外，如图2所示，领域专家还可以提供具体的反馈和修正建议，进而可以使用该反馈和修正建议对评估模型进行调整。这样可以通过专家的人工评分和修正建议的结合指导评估模型的训练，提高评估模型的评估效果，使得评估模型输出的评估结果更贴近专业人员的评估标准。

[0074] 进一步的，可以在确定的评估维度下对样本摘要的质量进行评估，得到样本评估结果。具体的，可以将各个评估维度对应的评分和权重相乘后的结果进行加和，得到样本评估结果。在确定样本评估结果后，可以根据样本评估结果构建评估训练数据，进而可以使用评估训练数据对评估模型进行训练，得到训练后的评估模型(即图2中的SFT‑评估模型)。

[0075] 在本说明书实施例中，使用评估训练数据对评估模型进行训练，得到能够自动且准确评价摘要质量的评估模型，提高微调数据的质量，进而在使用评估模型输出的评估结果对大型语言模型进行微调后，可以保证微调后的大型语言模型输出的摘要内容的高质量和与专业标准的一致性。

[0076] 在一种实现方式中，步骤S108，可以执行为如下步骤E1‑E2：

[0077] 步骤E1，基于评估结果，从第一摘要中筛选出与微调效果相关的目标第一摘要；

[0078] 步骤E2，使用目标第一摘要对应的微调数据对大型语言模型进行微调，得到微调后的大型语言模型。

[0079] 其中，目标第一摘要是对大型语言模型的微调效果起正向促进或反向抑制作用的第一摘要。具体的，在大型语言模型输出的第一摘要的质量较高的情况下，第一摘要对应的微调数据可能会对大型语言模型的微调效果起正向促进作用，即在微调过程中，大型语言模型可以对该质量较高的第一摘要进行学习，提高微调效果。而在大型语言模型输出的第一摘要的质量较低的情况下，第一摘要对应的微调数据可能会对大型语言模型的微调效果起反向抑制作用，即在微调过程中，大型语言模型可以对该质量较低的第一摘要进行学习，避免再次产生质量较低的摘要内容。

[0080] 因此，可以基于评估结果，对上述起正向促进和反向抑制作用的第一摘要对应的目标第一摘要进行筛选，进而使用该目标第一摘要对大型语言模型进行微调。在一种实现方式中，步骤E1，可以执行为如下步骤F1‑F3：

[0081] 步骤F1，将评估结果进行排序处理，并基于排序处理得到的排序结果，确定第一预设评分和第二预设评分；

[0082] 步骤F2，在评估结果大于第一预设评分的情况下，将评估结果对应的第一摘要作为目标第一摘要；

[0083] 步骤F3，在评估结果小于第二预设评分的情况下，将评估结果对应的第一摘要作为目标第一摘要。

[0084] 其中，第一预设评分大于第二预设评分。具体的，可以对评估结果进行排序，根据排序结果确定对微调效果起正向促进作用的第一摘要对应的第一预设评分、起反向抑制作用的第一摘要对应的第二预设评分。本说明书中对第一预设评分和第二预设评分的大小不做具体限定，可以根据实际情况进行确定。

[0085] 在一示例中，可以根据所需的目标第一摘要的数量确定第一预设评分和第二预设评分。具体的，在确定所需的目标第一摘要的数量后，可以确定起正向促进作用的第一摘要在第一摘要中的比例、起反向抑制作用的第一摘要在第一摘要中的比例，进而可以在排序结果的基础上，根据计算得到的比例得到第一预设评分和第二预设评分。

[0086] 进一步的，可以根据第一预设评分，从第一摘要中筛选出起正向促进作用的目标第一摘要；可以根据第二预设评分，从第一摘要中筛选出起反向抑制作用的目标第一摘要。

[0087] 在本说明书实施例中，对第一摘要进行筛选，进而使用筛选到的目标第一摘要对大型语言模型进行微调。该过程在不降低微调后的大型语言模型生成的摘要的质量的基础上，减少了微调过程所需的第一摘要的数量，进而提高了大型语言模型的微调效率。

[0088] 为了提升大型语言模型生成的摘要的准确性和鲁棒性，可以采用多模型集成的方法得到第一摘要。在一种实现方式中，在对训练文本进行信息提取处理前，大型语言模型微调的方法还包括如下步骤G1‑G2：

[0089] 步骤G1，获取使用大型语言模型以外的至少一个其它大型语言模型针对训练文本输出的第二摘要；

[0090] 步骤G2，将第一摘要和第二摘要进行集成处理，得到集成后的第一摘要。

[0091] 具体的，可以将微调过程所使用的训练文本输入至少两个不同架构的大型语言模型(包括步骤S102中的大型语言模型和步骤中的大型语言模型)，由于不同的大型语言模型可能会捕捉到同一训练文本的重点可能不同，从而生成的第一摘要不同，因此，可以将同一训练文本对应的不同大型语言模型输出的第一摘要进行集成，得到更为全面和准确的第一摘要。

[0092] 在本说明书实施例中，对不同大型语言模型输出的第一摘要进行集成，可以提高第一摘要的全面性和准确度，进而可以提高微调后的大型语言模型对于不同文体和语种的适应性，提高大型语言模型输出的摘要文本的质量。

[0093] 需要说明的是，本说明书实施例提供的大型语言模型微调方法，执行主体可以为大型语言模型微调的装置，或者该大型语言模型微调的装置中的用于执行大型语言模型微调的方法的控制模块。本说明书实施例中以大型语言模型微调的装置执行大型语言模型微调的方法为例，说明本说明书实施例提供的大型语言模型微调的装置。

[0094] 图4是根据本发明实施例的大型语言模型微调的装置的结构示意图。如图4所示，大型语言模型微调的装置400包括：

[0095] 获取模块410，用于接收针对大型语言模型的微调的任务指令，并基于任务指令，获取对大型语言模型进行微调所需的训练数据集；

[0096] 摘要模块420，用于使用大型语言模型对训练数据集中的训练文本进行信息提取处理，得到训练文本对应的第一摘要；

[0097] 评估模块430，用于使用评估模型对第一摘要进行质量评估，得到第一摘要对应的评估结果；

[0098] 微调模块440，用于基于至少包含评估结果的微调数据对大型语言模型进行微调，得到微调后的大型语言模型。

[0099] 在一个实施例中，大型语言模型微调的装置400还包括：

[0100] 提取模块，用于在任务指令中的微调目标是反馈情况监测的情况下，在使用评估模型对第一摘要进行质量评估前，使用大型语言模型对第一摘要进行主体提取，得到目标主体；

[0101] 风险模块，用于获取与目标主体相关的风险文本；

[0102] 调整模块，用于使用风险文本对第一摘要中的目标主体进行信息补充处理，得到调整后的第一摘要。

[0103] 在一个实施例中，调整模块，包括：

[0104] 第一摘要单元，用于基于风险文本，通过大型语言模型确定风险文本对应的第二摘要；

[0105] 第二摘要单元，用于使用大型语言模型对第一摘要和第二摘要进行整合处理，得到调整后的第一摘要。

[0106] 在一个实施例中，第一摘要单元，用于：

[0107] 将风险文本与目标主体的相关性进行排序，并基于排序结果，从风险文本中确定目标风险文本；

[0108] 使用大型语言模型对目标风险文本进行信息提取处理，得到风险文本对应的第二摘要。

[0109] 在一个实施例中，评估模型的训练过程，包括：

[0110] 使用多个预设的评估维度对样本文本对应的样本摘要的质量进行评估，得到在各个评估维度下样本摘要的评分；

[0111] 基于在各个评估维度下样本摘要的评分和各个评估维度的权重，得到样本评估结果；

[0112] 使用至少包含样本评估结果的评估训练数据对评估模型进行训练，得到训练后的评估模型。

[0113] 在一个实施例中，微调模块440，包括：

[0114] 筛选单元，用于基于评估结果，从第一摘要中筛选出与微调效果相关的目标第一摘要；

[0115] 微调单元，用于使用目标第一摘要对应的微调数据对大型语言模型进行微调，得到微调后的大型语言模型。

[0116] 在一个实施例中，筛选单元，用于：

[0117] 将评估结果进行排序处理，并基于排序处理得到的排序结果，确定第一预设评分和第二预设评分，第一预设评分大于第二预设评分；

[0118] 在评估结果大于第一预设评分的情况下，将评估结果对应的第一摘要作为目标第一摘要；

[0119] 在评估结果小于第二预设评分的情况下，将评估结果对应的第一摘要作为目标第一摘要。

[0120] 在一个实施例中，大型语言模型微调的装置400还包括：

[0121] 第二模型模块，用于在对训练文本进行信息提取处理前，获取使用大型语言模型以外的至少一个其它大型语言模型针对训练文本输出的第二摘要；

[0122] 基础模块，用于将第一摘要和第二摘要进行集成处理，得到集成后的第一摘要。

[0123] 需要说明的是，本申请中关于大型语言模型微调的装置的实施例与本申请中关于大型语言模型微调的方法的实施例基于同一发明构思，因此该实施例的具体实施可以参见前述对应的大型语言模型微调的方法的实施，重复之处不再赘述。

[0124] 上述大型语言模型微调的装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于终端设备中的处理器或服务端的处理器中，也可以以软件形式存储于终端设备中的存储器或服务端的存储器中，以便于处理器调用执行以上各个模块对应的操作。

[0125] 进一步地，对应上述描述的大型语言模型微调的方法，基于相同的技术构思，本申请一个或多个实施例还提供一种电子设备，该电子设备用于执行上述的大型语言模型微调的方法，图5为本申请一个或多个实施例提供的一种电子设备的结构示意图。

[0126] 基于同样的思路，本说明书一个或多个实施例还提供一种电子设备，如图5所示。电子设备可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上的处理器
501和存储器502，存储器502中可以存储有一个或一个以上存储应用程序或数据。其中，存储器502可以是短暂存储或持久存储。存储在存储器502的应用程序可以包括一个或一个以上模块(图示未示出)，每个模块可以包括对电子设备中的一系列计算机可执行指令。更进一步地，处理器501可以设置为与存储器502通信，在电子设备上执行存储器502中的一系列计算机可执行指令。电子设备还可以包括一个或一个以上电源503，一个或一个以上有线或无线网络接口504，一个或一个以上输入输出接口505，一个或一个以上键盘506。

[0127] 在一个具体的实施例中，电子设备包括有存储器，以及一个或一个以上的程序，其中一个或者一个以上程序存储于存储器中，且一个或者一个以上程序可以包括一个或一个以上模块，且每个模块可以包括对电子设备中的一系列计算机可执行指令，且经配置以由一个或者一个以上处理器执行该一个或者一个以上程序包含用于进行以下计算机可执行指令：

[0128] 接收针对大型语言模型的微调的任务指令，并基于任务指令，获取对大型语言模型进行微调所需的训练数据集；

[0129] 使用大型语言模型对训练数据集中的训练文本进行信息提取处理，得到训练文本对应的第一摘要；

[0130] 使用评估模型对第一摘要进行质量评估，得到第一摘要对应的评估结果；

[0131] 基于至少包含评估结果的微调数据对大型语言模型进行微调，得到微调后的大型语言模型。

[0132] 需要说明的是，本申请中关于电子设备的实施例与本申请中关于大型语言模型微调的方法的实施例基于同一发明构思，因此该实施例的具体实施可以参见前述对应的大型语言模型微调的方法的实施，重复之处不再赘述。

[0133] 进一步地，对应上述描述的大型语言模型微调的方法，基于相同的技术构思，本申请一个或多个实施例还提供了一种存储介质，用于存储计算机可执行指令，一个具体的实施例中，该存储介质可以为U盘、光盘、硬盘等，该存储介质存储的计算机可执行指令在被处理器执行时，能实现以下流程：

[0134] 接收针对大型语言模型的微调的任务指令，并基于任务指令，获取对大型语言模型进行微调所需的训练数据集；

[0135] 使用大型语言模型对训练数据集中的训练文本进行信息提取处理，得到训练文本对应的第一摘要；

[0136] 使用评估模型对第一摘要进行质量评估，得到第一摘要对应的评估结果；

[0137] 基于至少包含评估结果的微调数据对大型语言模型进行微调，得到微调后的大型语言模型。

[0138] 需要说明的是，本申请中关于存储介质的实施例与本申请中关于大型语言模型微调的方法基于同一发明构思，因此该实施例的具体实施可以参见前述对应的大型语言模型微调的方法的实施，重复之处不再赘述。

[0139] 进一步地，对应上述描述的大型语言模型微调的方法，基于相同的技术构思，本申请一个或多个实施例还提供了一种计算机程序产品，该计算机程序产品包括计算机程序，该计算机程序被处理器执行时实现时，能实现以下流程：

[0140] 接收针对大型语言模型的微调的任务指令，并基于任务指令，获取对大型语言模型进行微调所需的训练数据集；

[0141] 使用大型语言模型对训练数据集中的训练文本进行大型语言模型微调处理，得到训练文本对应的第一摘要；

[0142] 使用评估模型对第一摘要进行质量评估，得到第一摘要对应的评估结果；

[0143] 基于至少包含评估结果的微调数据对大型语言模型进行微调，得到微调后的大型语言模型。

[0144] 需要说明的是，本申请中关于计算机程序产品的实施例与本申请中关于大型语言模型微调的方法的实施例基于同一发明构思，因此该实施例的具体实施可以参见前述对应的大型语言模型微调的方法的实施，重复之处不再赘述。

[0145] 上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

[0146] 在20世纪90年代，对于一个技术的改进可以很明显地区分是硬件上的改进(例如，对二极管、晶体管、开关等电路结构的改进)还是软件上的改进(对于方法流程的改进)。然而，随着技术的发展，当今的很多方法流程的改进已经可以视为硬件电路结构的直接改进。设计人员几乎都通过将改进的方法流程编程到硬件电路中来得到相应的硬件电路结构。因此，不能说一个方法流程的改进就不能用硬件实体模块来实现。例如，可编程逻辑器件(Programmable Logic Device，PLD)(例如现场可编程门阵列(Field Programmable Gate Array，FPGA))就是这样一种集成电路，其逻辑功能由用户对器件编程来确定。由设计人员自行编程来把一个数字系统“集成”在一片PLD上，而不需要请芯片制造厂商来设计和制作专用的集成电路芯片。而且，如今，取代手工地制作集成电路芯片，这种编程也多半改用“逻辑编译器(logic compiler)”软件来实现，它与程序开发撰写时所用的软件编译器相类似，而要编译之前的原始代码也得用特定的编程语言来撰写，此称之为硬件描述语言(Hardware Description Language，HDL)，而HDL也并非仅有一种，而是有许多种，如ABEL(Advanced Boolean Expression Language)、AHDL(Altera Hardware Description Language)、Confluence、CUPL(Cornell University Programming Language)、HDCal、JHDL(Java Hardware Description Language)、Lava、Lola、MyHDL、PALASM、RHDL(Ruby Hardware Description Language)等，目前最普遍使用的是VHDL(Very‑High‑Speed Integrated Circuit Hardware Description Language)与Verilog。本领域技术人员也应该清楚，只需要将方法流程用上述几种硬件描述语言稍作逻辑编程并编程到集成电路中，就可以很容易得到实现该逻辑方法流程的硬件电路。

[0147] 控制器可以按任何适当的方式实现，例如，控制器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(Application Specific Integrated Circuit，ASIC)、可编程逻辑控制器和嵌入微控制器的形式，控制器的例子包括但不限于以下微控制器：ARC 625D、Atmel AT91SAM、Microchip PIC18F26K20以及Silicone Labs C8051F320，存储器控制器还可以被实现为存储器的控制逻辑的一部分。本领域技术人员也知道，除了以纯计算机可读程序代码方式实现控制器以外，完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件，而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至，可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。

[0148] 上述实施例阐明的系统、装置、模块或单元，具体可以由计算机芯片或实体实现，或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的，计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。

[0149] 为了描述的方便，描述以上装置时以功能分为各种单元分别描述。当然，在实施本申请实施例时可以把各单元的功能在同一个或多个软件和/或硬件中实现。

[0150] 本领域内的技术人员应明白，本申请一个或多个实施例可提供为方法、系统或计算机程序产品。因此，本申请一个或多个实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD‑ROM、光学存储器等)上实施的计算机程序产品的形式。

[0151] 本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

[0152] 这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

[0153] 这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

[0154] 在一个典型的配置中，计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。

[0155] 内存可能包括计算机可读介质中的非永久性存储器，随机存取存储器(RAM)和/或非易失性内存等形式，如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。

[0156] 计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD‑ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

[0157] 还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。

[0158] 本申请一个或多个实施例可以在由计算机执行的计算机可执行指令的一般上下文中描述，例如程序模块。一般地，程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本申请的一个或多个实施例，在这些分布式计算环境中，由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中，程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。

[0159] 本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

[0160] 以上所述仅为本文件的实施例而已，并不用于限制本文件。对于本领域技术人员来说，本文件可以有各种更改和变化。凡在本文件的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本文件的权利要求范围之内。

查看完整全部详细技术资料

当前第1页第1页第2页第3页