技术领域
[0001] 本申请涉及自然语言处理技术领域,具体涉及一种基于大模型的业务建议生成方法及系统。
相关背景技术
[0002] 在当今的数字化时代,电商平台和各种在线渠道积累了大量的用户评论数据。这些评论包含了用户对产品的使用体验、意见和期望等丰富信息。然而,目前企业和开发者在获取和利用这些信息方面存在诸多困难,缺乏有效的方法对海量的用户评论进行系统分析。传统的人工分析方法效率低下且难以全面准确地把握用户反馈,而现有的一些自动化分析工具在信息提取的深度和准确性、情感分析的精度以及提供有价值的改良建议方面存在不足,无法接入大模型或生成针对性的报告。
具体实施方式
[0015] 以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
[0016] 应当理解,当在本申请中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。还应当理解,在本申请中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0017] 如在本申请中所使用的那样,术语“如果”可以依据上下文被解释为“当…时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0018] 另外,在本申请的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
[0019] 在当今的数字化时代,电商平台和各种在线渠道积累了大量的用户评论数据。这些评论包含了用户对产品的使用体验、意见和期望等丰富信息。然而,目前企业和开发者在获取和利用这些信息方面存在诸多困难,缺乏有效的方法对海量的用户评论进行系统分析。传统的人工分析方法效率低下且难以全面准确地把握用户反馈,而现有的一些自动化分析工具在信息提取的深度和准确性、情感分析的精度以及提供有价值的改良建议方面存在不足,无法接入大模型或生成针对性的报告。
[0020] 为了解决上述技术问题,本申请实施例提供一种基于大模型的业务建议生成方法,通过收集用户评论数据,从而深入了解产品在市场中的表现、用户的需求和痛点,以及行业的整体状态,并且接入大语言模型来对海量用户评论信息做出总结和业务建议。
[0021] 如图1所示,所述基于大模型的业务建议生成方法包括如下步骤:步骤S1,获取用户评论数据和业务资料数据,然后对用户评论数据进行预处理,得到训练数据;步骤S2,搭建大模型,然后使用训练数据和业务资料数据训练该大模型,得到用户痛点分析模型和业务建议生成模型,其中,大模型包括用户痛点分析模型和业务建议生成模型;步骤S3,将待分析的用户评论数据输入用户痛点分析模型,得到用户痛点信息;步骤S4,业务建议生成模型实时获取市场趋势信息,然后与用户痛点信息进行整合以生成业务建议。
[0022] 需要说明的是,大模型指的是人工智能大模型,是拥有超大规模参数(通常在十亿个以上)、复杂计算结构的机器学习模型,能够处理海量数据,完成各种复杂任务,如自然语言处理、图像识别等。本申请所述的用户痛点分析模型和业务建议生成模型是按功能划分的,并非两个独立的模型。本申请所述的大模型兼具用户痛点分析与业务建议生成能力,是一个有机整体实现这两种功能,用户痛点分析模型和业务建议生成模型共享知识与参数,相互配合以连贯、有效地生成业务建议。
[0023] 作为其中一种实施方式,所述步骤S1中,对用户评论数据进行预处理,得到训练数据的方法包括:步骤S11,使用OCR文字识别技术结合API接口技术从电商平台、社交媒体和/或产品论坛获取用户评论数据;步骤S12,使用正则表达式和字符串处理函数对用户评论数据进行清洗,去除 HTML 标签和特殊字符等,然后使用jieba中文分词库和/或nltk英文分词库进行分词处理,并将所有英文文本转换为小写,去除停用词;步骤S13,基于预先制定的标注指南对分词处理后的数据进行标注,明确用户痛点信息类型的定义和区分标准,以及业务建议相关信息的标注方法。例如,对于产品质量痛点,需明确是外观质量、材质质量还是其他方面的问题。然后将标注好的数据按照8:1:1的预设比例划分为训练集、验证集和测试集,从而得到训练数据。其中,数据标注采用人工标注的方法。
[0024] 作为其中一种实施方式,所述步骤S2中,搭建大模型,然后使用训练数据和业务资料数据训练该大模型,得到用户痛点分析模型和业务建议生成模型的方法包括:步骤S21,选择Transformer架构,基于PyTorch框架搭建大模型;步骤S22,定义输入层,使用预训练的词向量模型(比如Word2Vec或GloVe)将用户评论数据转化为固定维度的词向量;步骤S23,构建多层的Transformer编码器层,设置多头注意力机制的头数和前馈神经网络的参数;步骤S24,设计输出层,对于用户痛点分析任务,输出层设计为多分类器,用于输出不同类型的用户痛点信息,对于业务建议生成任务,输出层设计为文本生成结构,用于生成相关的业务建议文本;步骤S25,初始化超参数,设置学习率为0.001、批次大小为32、训练轮数为100以及隐藏层维度为512;步骤S26,将训练集和业务资料数据输入大模型,使用Adam优化器进行训练,得到用户痛点分析模型和业务建议生成模型。在训练用户痛点分析模型的过程中,每训练一定轮次(初始规划 10 轮),计算交叉熵损失函数(交叉熵损失函数用于分类任务,均方误差用于文本生成任务)和准确率等指标,根据指标变化调整学习率(采用学习率衰减策略)。训练完成后,在验证集上评估模型性能,当验证集上的准确率不再提高或开始下降时,停止训练,采用早停法防止过拟合,最后使用测试集检验模型的性能。在训练业务建议生成模型的过程中,为确保业务建议生成模型输出表达准确且专业,选取大量网络报告、行业白皮书以及上市企业的财报年报作为重要训练数据输入到大模型中。这些资料来源广泛且权威性高,涵盖了丰富的行业知识与专业表述。通过让大模型深入学习其中的内容、语言风格以及逻辑架构,不断优化其自身的表达能力,使其在后续输出业务建议时能够以精准、专业的方式呈现,符合行业规范与标准。同时,可以将公司现有的大量业务报告作为关键输入提供给大模型。公司业务报告详细记录了自身业务开展的各项情况,有着特定的输出格式与表达习惯。大模型通过对这些业务报告的学习,能够熟悉并掌握适合本公司业务场景的输出格式设置,同时让其表达更加条理清晰、结构分明。这有助于在生成业务建议时,以一种本公司内部易于理解和接受的结构化方式进行输出。另外,也可以将过往的历史数据,即以往的业务决策文档以及决策流程等资料输入到大模型进行训练。这些历史数据承载着公司过去在业务决策方面的实践经验与实际情况。大模型借助对这些资料的学习,能够深入了解本公司在不同业务情境下的实际需求、决策考量因素等关键信息。如此一来,在生成业务建议时,便能更好地结合公司的实际业务状况,使输出结果更加贴合公司的真实需求。经过上述三种不同类型业务资料数据的充分训练后,得到本申请所述的业务建议生成模型,当业务建议生成模型接收到用户痛点分析模型输出的用户痛点分析结果时,它便能综合之前所学到的准确专业的表达能力、结构化的输出方式以及对本公司实际业务的深入理解,从而精准地输出贴合本公司实际业务场景且具有针对性的业务建议。
[0025] 作为其中一种实施方式,所述步骤S3中,将待分析的用户评论数据输入用户痛点分析模型,得到用户痛点信息的方法包括:步骤S31,将待分析的用户评论数据进行清洗和分词处理并转化为固定维度的词向量,然后输入用户痛点分析模型中;步骤S32,用户痛点分析模型通过多头注意力机制对待分析的用户评论数据的单词和短语进行语义关联分析以理解用户的意图,通过情感分析判断待分析的用户评论数据的情感倾向,通过模式识别发现待分析的用户评论数据中的常见模式和主题,得到用户痛点信息。
[0026] 作为其中一种实施方式,所述步骤S32还包括:通过计算不同用户痛点信息之间的余弦相似度,将相似度超过阈值的用户痛点信息归为一类,实现对用户痛点信息的分类和归纳。
[0027] 作为其中一种实施方式,所述步骤S4中,业务建议生成模型实时获取市场趋势信息,然后与用户痛点信息进行整合以生成业务建议的方法包括:步骤S41,业务建议生成模型运用时间序列分析方法以及通过主题模型分析方法,观察市场趋势信息随时间的变化情况,找出新兴的市场趋势和发展方向,获取并确定市场趋势信息中的主要主题和热点话题。其中,业务建议生成模型具有联网功能,可以实时获取网络信息,通过设置网络信息获取接口,连接到互联网上的相关信息源,如行业报告网站、市场研究机构数据库、新闻媒体平台、社交媒体平台等。运用应用程序编程接口(API)调用技术,实时获取最新的市场趋势信息,并对获取到的信息进行筛选和整理,去除无关信息和噪声数据,保留与所在业务相关的关键信息。步骤S42,统计不同类型的用户痛点信息的出现频率以确定用户痛点信息的优先级;步骤S43,按照用户痛点信息的优先级与市场趋势信息一一进行信息对比并输出对比结果,然后将对比结果进行整合以生成业务建议。
[0028] 作为其中一种实施方式,步骤S43中,按照用户痛点信息的优先级与市场趋势信息一一进行信息对比并输出对比结果的方法包括:步骤S431,对比市场趋势信息中的主要主题和热点话题与用户痛点信息之间的潜在联系,分析是否有可以利用市场趋势信息解决用户痛点的机会并输出相关结果;步骤S432,分析市场趋势信息与用户痛点信息之间是否存在冲突的地方并输出相关结果。
[0029] 作为其中一种实施方式,步骤S43中,将对比结果进行整合以生成业务建议的方法包括:分析市场趋势信息与用户痛点信息之间的关联性,然后将相互关联的市场趋势信息与用户痛点信息之间的对比结果进行整合并综合分析与阐述业务建议。
[0030] 作为其中一种实施方式,将相互关联的市场趋势信息与用户痛点信息之间的对比结果进行整合的方法包括:对于文本信息,使用文本融合算法,将相互关联的市场趋势信息与用户痛点信息进行合并描述,生成连贯的文本段落;对于数据信息,使用数据融合算法,将相互关联的市场趋势信息与用户痛点信息进行融合,生成新的数据集。
[0031] 基于上述实施方式,在输出业务建议后,使用前端开发框架(如Vue.js或React.js)构建用户界面,将用户痛点分析结果和业务建议以图表和文字报告的形式展示给用户。用柱状图和饼图展示不同类型用户痛点的占比,用文字报告详细描述每个用户痛点的具体内容和相关业务建议。将大模型部署到服务器上,通过API接口与其他业务系统进行交互,接收新的用户评论数据进行分析。持续收集用户反馈,根据反馈对模型进行调整和优化,如重新训练模型、调整超参数等。通过以上具体实施方案,可以实现从用户评论中准确分析用户痛点并生成有针对性的业务建议,为企业的产品改进和业务决策提供有力支持。其中,业务建议报告设计标题、目录、章节划分等结构,确保报告的逻辑性和易读性,分为引言、市场趋势分析、用户痛点分析、整合结果与业务建议章节,在引言部分介绍报告的目的和背景,在市场趋势分析章节详细阐述市场趋势信息的分析结果,在用户痛点分析章节展示用户痛点的统计和分析情况,在整合结果与业务建议章节呈现信息整合后的结论和针对这些结论的业务建议措施。除此之外,对报告进行语法检查和排版优化,确保报告的质量和专业性,还可以邀请相关领域的专家或用户对报告进行评审,根据反馈意见进行修改和完善。
[0032] 本申请实施例还提供一种基于大模型的业务建议生成系统,所述基于大模型的业务建议生成系统用于所述基于大模型的业务建议生成方法。所述基于大模型的业务建议生成系统实时获取的网络信息能够补充业务决策人员缺失的部分信息,使业务决策人员对市场趋势、行业标准和竞争对手情况等有更全面的了解。
[0033] 本领域的普通技术人员可以理解,实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成的,该计算机程序可存储于一非易失性计算机可读存储介质中,该计算机程序在执行时,可包括如上述个方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其他介质的引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器ROM、可编程存储器PROM、电可编程存储器DPROM、电可擦除可编程存储器DDPROM或闪存。易失性存储器可包括随机存取存储器RAM或者外部高速缓冲存储器。
[0034] 以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0035] 以上各实施例仅表达了本申请的几种实施例,其描述较为具体和详细,但并不能因此而理解为申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。