技术领域
[0001] 本发明涉及电路原理课程的定制化辅助教学,具体涉及一种基于深度强化学习和大模型的电路原理课程习题推荐策略。
相关背景技术
[0002] 电路原理是工程学科中的核心课程之一,但由于其内容复杂、数学推导繁琐,学生常常在学习过程中面临挑战。故通过课程的习题练习进而掌握电路原理对于学生掌握复杂概念和解决实际问题至关重要。现有的习题推荐模型使用预定义的规则或简单的逻辑判断来推荐习题。例如,根据学生的历史答题情况(如正确率)选择合适难度的题目。这类方法简单直接,但灵活性差,难以适应学生个体的学习进展和知识结构。或基于推荐系统中广泛使用的协同过滤技术,利用类似学生之间的答题数据进行习题推荐。但它依赖于大量数据,当数据稀疏或学生群体多样性较大时,推荐效果会明显下降。一些系统使用浅层机器学习算法,如决策树、随机森林或支持向量机,根据学生的答题表现预测最适合的习题类型。虽然这些算法在一定程度上提升了推荐的精准度,但它们往往依赖手工特征工程,难以捕捉学生复杂的学习行为和习惯。
[0003] 由于电路原理课程的独特性以及原理掌握能力评价的复杂性,现有推荐模型不能较好地完成习题推荐任务,主要问题包括:现有的习题推荐系统通常依赖于预设的规则或简单的算法,无法有效适应学生个体差异和动态学习需求;对于涉及习题中的电路原理知识的难度划分合理性较差;对于电路原理中涉及的高级概念和知识点覆盖情况,现有系统在分析并量化此部分的能力有限;对于电路原理中涉及的高级概念和多步骤推导,现有系统在习题生成和解析方面的性能有限,辅助教学效果不明显。
具体实施方式
[0052] 为了使本发明的特征和优点更加明显易懂,下面结合附图和具体的实施方式对本发明做详细阐述。
[0053] 图1是本发明实施例基于深度强化学习和大模型的电路原理课程定制化习题推荐及辅助指导方法流程图。如图1所示,基于深度强化学习和大模型的电路原理课程定制化习题推荐及辅助指导方法,所述方法包括:
[0054] 步骤S101:建立Transformer模型预测电路课程学习者对电路课程知识点的掌握情况;
[0055] 步骤S102:建立Mamba模型预测下一步学习者应当学习的知识点;
[0056] 步骤S103:建立可信的习题难度评价模型计算每道习题的难度系数;
[0057] 步骤S104:建立电路原理习题推荐的马尔可夫决策过程模型;
[0058] 步骤S105:使用深度强化学习算法求解推荐最优电路习题集合;
[0059] 步骤S106:定制化提示词并利用大模型接口给出个性化的解题指导;
[0060] 步骤S101,具体包括:
[0061] Transformer模型如图2所示,输入为学习者id、已做电路原理习题序列,以及题目t t的作答情况的二值向量b ∈[0,1],b的取值为0或1(0和1分别表示对此电路习题作答错误t
和正确)x={id,ej(k),b ,Pt},其中电路原理课程包含的所有k个知识点表示为K={k1,k2,...,kk},习题表示为ej(k)=[ej(k1),ej(k2),ej(k3),…,ej(kk)],j表示习题库中的第j道习题,ej(ki)取值为0或1(0表示该题没有包含第i个知识点概念,1表示该题包含),同时在Transformer模型的输入中嵌入位置编码Pt,模型的输出是包含电路原理课程中每个知识点掌握程度的k维向量Ot,对于单个学习者的优化损失函数表示为
[0062]
[0063] 其中,t表示序列中的第t个位置,·表示点乘。
[0064] 步骤S102,具体包括:
[0065] 使用Mamba模型预测学习者下一步应当学习的知识点,Mamba模型单元如图3所示,输入为某个学生在一定时间段内所做习题集序列E,已掌握知识点Kt,输出为表示下一道习题中所有知识点出现的k维概率向量,使用二元交叉熵损失函数训练模型;训练损失函数为
[0066]
[0067] 其中,t表示序列中的第t个位置,·表示点乘;
[0068] 教师给出电路原理知识的权重向量ω(k)=[ω(k1),ω(k2),…,ω(kk)],使用预测得到的k维概率向量和权重向量点乘得到最终知识点覆盖预测P(k),计算如下:
[0069] P(ki)=p(ki)ω(ki)(19)
[0070] 其中,P(ki)∈P(k);
[0071] 步骤S103,具体包括:
[0072] 步骤(3.1):首先使用五点归因法对不同类型的电路原理习题进行赋值并分类,如图4所示,得到每种类型题目的难度和数量:在题目类型方面,测试基本电路知识的理解分为单一、复合和综合多个概念整合,分别赋值为0、0.5和1;知识含量方面,一个知识点赋值0,两个知识点赋值0.5,两个以上知识点赋值1;知识类型方面分为公式类和电路图,分别赋值赋0.5和1;推理能力方面,根据个人认知一步推理得到答案赋值0,中等推理即两步推理得到答案,赋值0.5,复杂推理多步推理赋值1;认知水平方面,识记电路知识定理赋值0,理解电路定律、理解电路图赋值0.5,进行应用并融会贯通赋值1;
[0073] 步骤(3.2):根据题目组的情况用加权平均的方法计算得到各个影响因素的量化值,各个因素的加权平均公式如下:
[0074]
[0075] 其中pi(i=1,2,3,4,5)为五个难度因素中第i个难度因素的难度值。nij表示一组题目里第i个难度因素中第j(j=1,2,3)水平的题目数量,lij表示第i个难度因素中第j水平的赋值,n即为该组题目的总数量,计算得到上述5个难度因素值后得到[0,1]范围内的难度值P;
[0076] 步骤(3.3):同时先将一个年级的自然班中每道题目的初始难度系数设定为0.5,然后在该班级中计算每道题目的错误率,根据每道题目的错误率调整题目的初始难度系数;
[0077] 步骤(3.4):计算P与题目的初始难度系数相乘计算平均值得到最终的难度系数d。
[0078] 步骤S104,具体包括:
[0079] 建立电路原理习题推荐的马尔可夫决策过程模型,状态包括当前所练习习题et、目标T、当前学习者对电路课程包含的所有k个知识点的掌握情况ht、下一道题知识点覆盖情况以及该习题的难度系数d,其中目标T由教师或学生给出需要掌握和学习的知识点向量表示;动作空间为选取候选习题集A,候选习题通过预测的下一步需要学习的知识点来从习题集匹配获得,每个时刻的回报值为知识点平均掌握情况pt与难度差异|θ‑d|的加权平均值,θ为期望难度系数,权值由学生或老师给出,其中pt为ht中各个元素的平均值,每个时刻计算如下;
[0080] Rt=αpt+β|θ‑d| (21)
[0081] 其中,α和β是自定义的权重,pt为ht中各个元素的平均值。
[0082] 步骤S105,具体包括:
[0083] 步骤(5.1):使用一个策略网络πθ和一个价值网络Vφ,使用策略网络πθ选择动作a,通过回报值计算获得回报值,并使用价值网络来估计采取该动作后的长期价值,从而得到目标值yt
[0084] yt=Rt+γVφ(St+1) (22)
[0085] 其中γ表示折扣因子;
[0086] 步骤(5.2):策略网络通过最大化目标函数优化策略,目标函数为
[0087]
[0088] 其中rt(θ)表示新旧策略之间的比率, 表示优势函数,衡量动作之间的好坏,ε为超参数,控制策略之间的更新范围。
[0089] 步骤(5.3)优势函数为:
[0090]
[0091] 其中Q(St,at)定义为学习者在当前知识状态St下,选择习题at之后的长期累计回报,通过权利要求2中模型预测t时刻后学习者的知识点掌握程度并加权平均得到;V(St)由价值网络估计计算得到每个知识掌握程度,并加权平均得到未完成动作at时的知识点掌握情况。
[0092] 步骤S106,具体包括:
[0093] 定制化提示词并利用大模型接口给出个性化的解题指导提纲,流程如图5所示,提示词包含学习者对电路课程知识点的掌握情况、学习者答题历史记录,并拼接所有电路知识点,在提示词中说明生成解题指导的原则为“在解题指导中重点突出学习者掌握薄弱的知识点和覆盖较少的知识点”,综上给出推荐习题的解题指导提示词,以zero shot方式调用大模型接口生成推荐习题的解题指导提纲。