技术领域
[0001] 本发明涉及教育技术领域和强化学习领域,具体涉及一种基于强化学习的自适应移动学习路径生成方法。
相关背景技术
[0002] 随着移动学习领域的拓展和移动学习资源、需求的增加,学习者希望在移动学习中高效地利用学习资源,快速高质量的完成学习。但海量无序的学习资源,让更多的学习者在选择时不知所措,所以有必要提出一种个性化自适应移动学习路径生成方法,能够根据移动学习环境、学习者特征和学习效果素自动推荐学习资源序列,并获得最大的学习收益。
具体实施方式
[0029] 具体实施方式一、结合图1说明本实施方式,一种基于强化学习的自适应移动学习路径生成方法,具体包括以下步骤:
[0030] 步骤1、以调查问卷的方式获取学习环境和学习者的契合度LeLF,学习环境和学习者的契合度有三个维度可以量化:教育和学习者契合度LeLFE、社会和学习者契合度LeLFS以及技术学习者契合度LelFT。学习环境和学习者契合度的计算方法为:
[0031] LeLF=EW*LeLFE+SW*LeLFS+TW*LeLFT
[0032] 其中EW表示教育权重,SW表示社会权重,TW表示技术权重。以专家知识或者测试方法给出学习者选择并学习资源后的学习效果LE。学习者选择学习资源并学习资源后得到的学习收益值R,它的计算方法为:
[0033] R=FW*LeLF+LW*LE
[0034] 其中FW表示契合度权重,LW表示效果权重。
[0035] 步骤2、根据学习资源之间的基础支撑关系,分析并学习资源的先后顺序,生成学习资源有向图。资源有向图的节点为学习资源,节点之间的有向线段表示学习者从当前学习资源选择下一个学习资源学习。
[0036] 步骤3、根据学习资源有向图和学习收益,初始化学习选择收益表LSRT,学习选择收益表LSRT是一个n*n的邻接矩阵,其中n为学习资源的数量,矩阵中的值用Rij表示,当Rij为-1时,表示第i个学习资源和第j个学习资源部联通,当Rij大于-1时,表示当前学习者在学习完第i个资源后,选择第j个资源进行学习的学习收益值。
[0037] 步骤4、初始化迭代次数N、初始化学习目标值D、学习速率SS、贪婪系数Gr、折扣因子Dc、学习路径推荐队列LPRQ。
[0038] 步骤5、初始化当前学习收益值CR、结束状态位Fsb。
[0039] 步骤6、结束状态位为假值时,执行步骤7,否则,迭代次数N加1,执行步骤5。
[0040] 步骤7、生成随机数Rd,判断随机数是否大于贪婪系数Gr,如果是,则从LSRT随机选择能联通的学习资源,并获得学习收益值;如果否,则LSRT中选择学习收益值最大的学习资源,并获得学习收益值;并将学习收益值记为该学习选择动作的预测值Pre;执行步骤8。
[0041] 步骤8、根据学习资源收益值中最大值,计算累加收益值RinM,计算方法为:
[0042] RinM=Dc*max(LSRT(Rij))
[0043] 步骤9、计算结果值Rt,结果值等于当前学习资源收益值CR和累加收益值RinM的和。如果结果值达到学习目标值D,结束状态位Fsb为真。
[0044] 步骤10、更新学习选择收益表LSRT,表中新值LSRT(Rij)的计算方法为:
[0045] LSRT(Rij)=LSRT(Rij)+SS*(Rt-Pre)
[0046] 步骤11、更新当前学习收益值CR,计算方法为:
[0047] CR=CR+Pre
[0048] 步骤12、如果迭代次数N超过预设值,则执行步骤13;否则,返回执行步骤6。
[0049] 步骤13、从表的第一行开始,依次读取学习选择收益表LSRT,选择一行中最大的学习收益值,压入到学习路径推荐队列LPRQ,直至表的最后一行为止,生成LPRQ。