技术领域
[0001] 本发明涉及医疗服务技术领域,特别涉及一种基于中医药配方的平台构建方法、装置、设备及介质。
相关背景技术
[0002] 目前,中药饮片的处方多为人工进行审查,由于中医药在进行配置时所需的复杂性和专业性较高,人工进行审查时容易出现错审或漏审的情况发生,导致最终处方的制药效率和配方精准度。
具体实施方式
[0050] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。
[0051] 在本发明的描述中,需要理解的是,涉及到方位描述,例如上、下、前、后、左、右等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
[0052] 在本发明的描述中,若干的含义是一个或者多个,多个的含义是两个以上,大于、小于、超过等理解为不包括本数,以上、以下、以内等理解为包括本数。如果有描述到第一、第二只是用于区分技术特征为目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量或者隐含指明所指示的技术特征的先后关系。
[0053] 本发明的描述中,除非另有明确的限定,设置、安装、连接等词语应做广义理解,所属技术领域技术人员可以结合技术方案的具体内容合理确定上述词语在本发明中的具体含义。
[0054] 本发明实施例提供了一种中医药配方优化系统的构建方法,包括选择基座模型,构建基座模型的交互界面,输入信息通过交互界面输入至基座模型;获取中医药资料,根据中医药资料构建语料库,得到第一数据集;获取用户表、问答记录表和中药数据表,根据用户表、问答记录表和重要数据表构建基座模型的数据库,得到第二数据集;基座模型根据第一数据集和第二数据集进行微调,得到微调参数值;获取基座模型中待更新层的权重信息,基座模型根据权重信息通过微调参数值对待更新层进行赋值;设置基座模型的加载策略,以使中医药配方优化系统启动时根据数据信息自动加载微调后的基座模型,输出中医药配方。根据本实施例的技术方案,实现中医药垂直场景下的大模型语音交互和快速响应需求,集成Starlette框架和Flashattention‑2注意力机制,显著提升模型的推理时间和响应速度,构建高效、可扩展的API和Web服务,实现语音和文本的即时交互功能;通过利用模型分析药物成分之间的相互作用,优化配方组合,避免不良的药物相互作用,确保用药安全,通过专业数据集训练,预测不同配方的药效,根据患者输入的具体病症、体质和治疗历史,基于药材原理辅助以使生成个性化的中药配方颗粒,从而提高治疗效果并减少副作用。
[0055] 下面基于附图,对本发明实施例的控制方法作进一步阐述。
[0056] 参照图1,图1为本发明实施例提供的一种中医药配方优化系统的构建方法的流程图,该中医药配方优化系统的构建方法包括但不限于有以下步骤:
[0057] 步骤S11,选择基座模型,构建基座模型的交互界面,输入信息通过交互界面输入至基座模型;
[0058] 需要说明的是,交互界面提供了响应式设计,同时整合了丰富的多媒体交互功能,包括嵌入式视频播放、动态文字轮播和图片轮播等,提升同弧的使用体验,本实施例中的交互界面采用富含中医药文化特色的视觉元素,搭配Bootstrap和Vue.js等技术框架搭建符合中医药主题的交互界面;
[0059] 步骤S12,获取中医药资料,根据中医药资料构建语料库,得到第一数据集;
[0060] 需要说明的是,采用TF‑IWF(词频‑逆文档频率)方法,用于评估一个词对于一个文档集合中某一个文档的重要程度,通过IF‑IWF将用户输入与语料库相匹配,根据用户输入的症状结合基于中医药构建的语料库匹配病症的相似度,再将相似度最高的药材通过大模型对中医药配方进行初步优化,确保基座模型的回答准确真实。当语料库构建完毕时,得到第一数据集,其中,第一数据集包含所有语料库中的各个文档。
[0061] 步骤S13,获取用户表、问答记录表和中药数据表,根据用户表、问答记录表和重要数据表构建基座模型的数据库,得到第二数据集;
[0062] 需要说明的是,用户表、问答记录表和重要数据表构成数据库,数据库用于管理用户信息、用户与系统之间的交互记录以及中药数据的相关信息。
[0063] 具体地,用户表在数据库构成中用于存储和管理用户信息,完成用户身份信息识别、个人信息存储、安全认证和数据库的管理和统计分析;问答记录表为数据存储单元,问答记录表详尽记录了用户与基座模型之间的交互历史,为中医药配方平台的运维、优化及用户体验提供了数据支持,并实现用户与模型之间进行交互过程时的记录追踪、用户行为分析、问题与答案存档、时间戳记录和性能评估;中医药数据表中存储大量的药材信息,用户能够通过语料库调用中医药数据表中的信息,保证用户与基座模型之间的问答质量,以使基座模型输出的内容真实有效,具体地,中医药数据表用于展示中药的详细信息,通过中药名字段作为中药的标准化名称,以使用户识别和检索特定的中药,中医药数据表中包括但不限于中药名称、别名、类别、药用部位、产地分布、性味归经、功效、主治、使用禁忌和用法用量等。其中,第二数据集中包括数据库中的用户表、问答记录表、中药数据表和相关问答数据集。
[0064] 步骤S14,基座模型根据第一数据集和第二数据集进行微调,得到微调参数值;
[0065] 需要说明的是,针对中医药领域,采用第一数据集和第二数据集对基座模型进行微调。基座模型为已经在大规模无标准文本数据上预训练过的模型,在本实施例中,采用Qwen‑7B‑Chat‑int4模型,该模型已经通过自我监督学习等方式习得了丰富的语言模型知识,且具备一定的语言理解和生成能力。在本实施例中,基座模型仅通过修改权重矩阵的低秩部分来进行微调,而不是对整个基座模型的参数进行全面更新,在保持基座模型权重参数冻结不变的基础上,应用秩分解矩阵技术,对基座模型中选定的全连接层进行精细化训练,最终得到微调参数值,确保基座模型在后续任务中维持高性能的同时,减少训练参数量,从而提高基座模型的训练效率与资源利用率。
[0066] 步骤S15,获取基座模型中待更新层的权重信息,基座模型根据权重信息通过微调参数值对待更新层进行赋值;
[0067] 需要说明的是,在基座模型中的多个权重矩阵进行合并时,需要确保原有的基座模型的剩余部分不受影响,需要找到基座模型中需要更新的全连接层或注意力层的权重,即待更新层,通过微调参数值对待更新层进行赋值。
[0068] 步骤S16,设置基座模型的加载策略,以使中医药配方优化系统启动时根据数据信息自动加载微调后的基座模型,输出中医药配方。
[0069] 需要说明的是,将微调后的基座模型与中医药配方优化系统的后端服务进行集成,将基座模型实例化,并通过API接口提供服务,根据设置的加载策略确保在系统启动时自动加载微调后的基座模型,并在接受到用户输入的信息后,调用优化后的基座模型进行推理,从而输出用户所需的中医药配方。
[0070] 需要说明的是,中药数据表存储了大量的药材信息,用户能够通过语料库调用数据表的信息,来保证问答质量,使得输出内容真实有效。该表用于展示中药的详细信息,通过中药名字段作为中药的标准化名称,便于用户识别和检索特定的中药。
[0071] 需要说明的是,通过整合现代信息技术和传统中医药知识,根据患者的病状结合语料库、数据库完成病状的匹配,再将相似度最高的药材通过基座模型进行分析优化,从而输出中医药配方,提高制药效率和配方精准度,辅助医疗人员生成安全有效的治疗方案。
[0072] 另外,在一实施例中,参照图2,在图1所示实施例的步骤S12中,还包括但不限于有以下步骤:
[0073] 步骤S21,获取用户表的第一标识符、用户名信息和第一字段,以使用户根据第一标识符通过交互界面进行登录,并确认用户的身份信息;
[0074] 步骤S22,获取用户表的第二字段,所述第二字段响应于身份信息对用户进行验证,用户通过验证后,对中医药配方优化系统进行访问,以使用户与基座模型进行问答操作。
[0075] 需要说明的是,通过第一标识符,配方优化系统能够唯一且明确的识别每个用户的身份,第一字段中包含了用户名信息和邮箱信息等字段,用于存储用户的信息和账户安全,第二字段(password_hash)中存储了用户加密后的密码,用于用户登录时的身份验证,确保只有通过验证的用户才能对配方优化系统进行访问;进一步地,用户表中还包括有日期字段,日期字段记录了用户注册的时间,用于跟踪用户增长趋势、分析用户活跃度和用户周期管理等。
[0076] 另外,在一实施例中,参照图3,在图2所示实施例的步骤S22后,还包括但不限于有以下步骤:
[0077] 步骤S31,获取问答记录表的记录第二标识符,问答记录表获取用户与基座模型之间的问答信息,记录第二标识符根据问答信息记录用户与基座模型之间交互过程;
[0078] 步骤S32,获取问答记录表的第二标识符,将第二标识符关联至所述用户表,获取用户表记录的第一文本,其中,第一文本为所述用户提出的原始问题文本;
[0079] 步骤S33,基座模型根据第一文本输出第二文本,其中,第二文本为基座模型根据原始问题文本答复的回答文本。
[0080] 需要说明的是,问答记录表记录每一次用户与基座模型之间的问答交互过程,通过第二标识符(log_id)作为每一条问答记录的唯一标识符,以便于管理优化系统和追溯每一次的问答活动;当第二标识符记录后,获取第一文本,第二标识符根据用户名信息(即用户唯一标识符),将用户名信息关联至用户表,从而将每次问答与具体的用户进行关联,并完成用户与基座模型的问答操作。用户输入信息至配方优化系统中,系统将输入信息保存为第一文本,第一文本为用户提出的原始问题文本,基座模型根据用户的原始问题文本进行回答,得到答案文本,配方优化系统根据基座模型将用户问题生成的答案文本保存为第二文本,以使用户进行回顾查询,也为系统优化和模型迭代提供数据资源。进一步地,问答记录表还包括时间戳字段,时间戳字段记录了用户提问的具体时间点,用于配方优化系统分析用户活跃字段、系统负载情况以及评估基座模型的响应速度。
[0081] 另外,在一实施例中,参照图4,在图1所示实施例的步骤S13中,还包括但不限于有以下步骤:
[0082] 步骤S41,获取基座模型的模型参数,冻结模型参数,其中,基座模型设置有多个语言处理层;
[0083] 步骤S42,在多个语言处理层的每一层中加入第一矩阵,以使基座模型根据第一矩阵得到矩阵输出结果;
[0084] 步骤S43,获取基座模型的初始路径输出结果,将矩阵输出结果与初始路径输出结果相加,得到旁路矩阵参数;
[0085] 步骤S44,对旁路矩阵参数进行训练,得到旁路矩阵参数的升维矩阵、降维矩阵和中间层;
[0086] 步骤S45,根据升维矩阵、降维矩阵和中间层模拟本征秩。
[0087] 需要说明的是,对基座模型的模型参数进行冻结,然后再语言处理层的每一层中加入一个可训练的第一矩阵,其中,第一矩阵为低秩可分离矩阵,将第一矩阵旁路输出与预设的初始路径的输出相加输入至网络中,并只训练新增的旁路矩阵参数。具体地,第一矩阵由升维矩阵和降维矩阵组成,中间层的维度为r,从而模拟本征秩,通过升维矩阵和降维矩阵大幅度减少参数量。
[0088] 具体地,给定一个线性层h=Wx,LoRA将线性层转化为h=(W+W′)x,其中W表示冻结d1*r r*d2参数,W′=B×A表示可训练参数,B∈R ,A∈R ,秩r<<min(d1,d2)。在预训练过程中,使用因果语言模型(CLM)损失函数来预测后续的token,通过如下公式表达:
[0089]
[0090] 其中,w1,…,wi‑1表示句子中前i‑1个token,wi表示下一个token。
[0091] 在指令监督微调(SFT)过程中,对于给定的输入提示I=w×1:m和响应R=wm+1:m+n,损失函数为:
[0092]
[0093]
[0094] 另外,在一实施例中,参照图5,在图1所示实施例的步骤S12后,还包括但不限于有以下步骤:
[0095] 步骤S51,将第一数据集划分为训练集、验证集和测试集;
[0096] 步骤S52,将训练集输入至基座模型内,基座模型根据训练集更新模型参数;
[0097] 步骤S53,验证集根据更新后的模型参数进行监控,得到监控结果,基座模型根据监控结果调整超参数和监控策略。
[0098] 需要说明的是,在实际微调过程中,将数据集划分为训练集、验证集和测试集,将训练集通过LoRA方法更新模型参数,验证集用于监控模型在微调过程中的性能表现,及时调整超参数和训练策略,确保模型在中医药问题上的回答质量和准确性达到理想状态。
[0099] 另外,在一实施例中,参照图6,在图1所示实施例的步骤S15后,还包括但不限于有以下步骤:
[0100] 步骤S61,获取语料库的语义相似信息,根据语义相似信息构建词语关系网络;
[0101] 步骤S62,根据第一算法提取中药数据表中的关键字,将关键字输入至词语关系网络中,得到多个关键词;
[0102] 步骤S63,第一算法对关键词进行迭代计算,赋予关键词权重;
[0103] 步骤S64,根据关键词权重对多个关键词进行优先级排序,得到排序结果;
[0104] 步骤S65,获取所有样本文本的词汇集合,词汇集合根据排序结果获取至少五个目标关键词。
[0105] 需要说明的是,通过构建词语关系网络,采用结构化文本等方式来完善提示词,在不更新基座模型权重的情况下,将提示词融入至训练数据中,引导基座模型在接收到特定领域的问题时生成专业、准确的回答。在本实施例中,第一算法为TextRank算法,通过采用第一算法提取中药数据表中的关键字,并且提取用户输入至基座模型中与中医药相关的关R R键字,记为T=K1……Kn,其中,ki∈T,为一个关键字,n表示关键字的个数。第一算法用于依托图形结构进行文本关键字自动抽取,通过横梁词汇间的的语义相似性构建词语关系网络,在词语关系网络中,通过第一算法对关键词进行迭代计算,从而赋予各个关键词相应的权重,进而形成关键词的优先级排序,将第一算法应用在从所有样本文本中抽取出的词汇集合,从而获取每个样本的前五个最具代表性的关键词。
[0106] 另外,在一实施例中,参照图7,在图,6所示实施例的步骤S65后,还包括但不限于有以下步骤:
[0107] 步骤S71,将词汇集合与预设的专业词汇库进行融合,得到关键词集合;
[0108] 步骤S72,获取关键词集合的关键词数量信息,根据关键词数量信息得到关键词出现次数;
[0109] 步骤S73,以关键词出现次数为权重进行关键词提取。
[0110] 需要说明的是,为了增强关键词集合的的多样性,并扩大中医药领域的覆盖范围,引入一个开源的中医药专业词汇库(标记为WD),将初始通过第一算法提取出的关键词(TR)与专业词汇库一进行融合,从而构建出一个更为综合关键词集(TW),综合关键词集为后续构建查询语料库的基础,能够有效提高搜索和分析的针对性与准确定。
[0111] 进一步地,在检索时采用关键词出现的次数作为权重,权重计算可以通过如下公式表达:
[0112] wi=1+log(ni);
[0113] 其中,ni表示关键词ki的个数。
[0114] 如图8所示,图8是本发明一个实施例提供的中医药配方优化系统的构建装置的结构图。本发明还提供了一种中医药配方优化系统的构建装置,包括:
[0115] 处理器801,可以采用通用的中央处理器(Central Processing Unit,CPU)、微处理器、应用专用集成电路(Application Specific Integrated Circuit,ASIC)、或者一个或多个集成电路等方式实现,用于执行相关程序,以实现本申请实施例所提供的技术方案;
[0116] 存储器802,可以采用只读存储器(Read Only Memory,ROM)、静态存储设备、动态存储设备或者随机存取存储器(Random Access Memory,RAM)等形式实现。存储器802可以存储操作系统和其他应用程序,在通过软件或者固件来实现本说明书实施例所提供的技术方案时,相关的程序代码保存在存储器802中,并由处理器801来调用执行本申请实施例的中医药配方优化系统的构建方法;
[0117] 输入/输出接口803,用于实现信息输入及输出;
[0118] 通信接口804,用于实现本装置与其他设备的通信交互,可以通过有线方式(例如USB、网线等)实现通信,也可以通过无线方式(例如移动网络、WIFI、蓝牙等)实现通信;
[0119] 总线805,在设备的各个组件(例如处理器801、存储器802、输入/输出接口803和通信接口804)之间传输信息;
[0120] 其中处理器801、存储器802、输入/输出接口803和通信接口804通过总线805实现彼此之间在设备内部的通信连接。
[0121] 本申请实施例还提供了一种电子设备,包括如上所述的中医药配方优化系统的构建装置。
[0122] 本申请实施例还提供了一种存储介质,存储介质为计算机可读存储介质,该存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述中医药配方优化系统的构建方法。
[0123] 存储器作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序以及非暂态性计算机可执行程序。此外,存储器可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施方式中,存储器可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至该处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,实现了以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
[0124] 本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,或者被实施为硬件,或者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD‑ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包括计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。
[0125] 以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的共享条件下还可作出种种等同的变形或替换,这些等同的变形或替换均包括在本发明权利要求所限定的范围内。