面向用户多行为基于强化学习的学习路径推荐模型

doi:10.11772/j.issn.1001-9081.2025070864

《计算机应用》唯一官方网站

• • 下一篇

面向用户多行为基于强化学习的学习路径推荐模型

陈鹏宇¹,田保军²,赵利畅¹,房建东¹

1. 内蒙古工业大学
2. 内蒙古工业大学金川校区信息工程学院

收稿日期:2025-07-31 修回日期:2025-10-11 发布日期:2025-11-05 出版日期:2025-11-05
通讯作者: 陈鹏宇

User-oriented multi-behavior reinforcement learning model for learning path recommendation

Received:2025-07-31 Revised:2025-10-11 Online:2025-11-05 Published:2025-11-05

摘要/Abstract

摘要： 针对学习路径推荐任务中存在的交互数据稀疏和学习资源规划不合理问题，提出一种面向用户多行为基于强化学习(RL)的学习路径推荐模型(MBRL4LP)。首先，将用户行为数据分类，视为实体节点融入课程知识图谱，使用带有注意力机制的图卷积网络(GCN)捕捉多源异构特征；然后，从行为与学习资源维度设计三种数据增强策略，采用对比学习方法对增强数据进行表征学习，作为补充信息纳入强化学习；最后，充分考虑用户个体差异，通过深度Q网络构建个性化学习路径推荐模型，设计知识点与路径双重奖励函数机制引导模型收敛。在真实数据集MOOPer和MOOCCubeX四门课程上，将MBRL4LP与LPG、KTKDM、LSTMPR等学习路径推荐模型进行对比。实验结果表明，MBRL4LP相较于对比模型在MOOPer上精确率、召回率和F1分数至少提升7.42%、5.97%和6.15%；在MOOCCubeX上至少提升4.75%、6.62%和6.42%。此外，还通过参数敏感性分析实验与消融实验，验证了所提模型的有效性。

Abstract: To address issues of sparse interaction data and suboptimal learning resource planning in learning path recommendation, a reinforcement learning (RL)-based model named MBRL4LP was proposed, incorporating multi-behavior user data. First, user behavior data was categorized and embedded as entity nodes into a course knowledge graph. An attention-based Graph Convolutional Network (GCN) was used to capture multi-source heterogeneous features. Second, three data augmentation strategies were designed from both behavioral and learning resource perspectives. Contrastive learning was applied to learn representations from augmented data, which were integrated into RL as supplementary information. Finally, individual differences were fully considered. A personalized learning path recommendation framework was built using a deep Q-network, and a dual reward function—considering both knowledge concepts and path structure—was designed to guide model convergence. Experiments compared MBRL4LP with existing models (e.g., LPG, KTKDM, LSTMPR) on four real-world courses from MOOPer and MOOCCubeX datasets. Results show that MBRL4LP achieves at least 7.42%, 5.97% and 6.15% improvements in precision, recall, and F1-score on MOOPer, and at least 4.75%, 6.62% and 6.42% on MOOCCubeX, respectively. Parameter sensitivity analysis and ablation studies validate model effectiveness of MBRL4LP.

Key words: Graph Convolutional Network (, GCN)

中图分类号:

TP391.3

陈鹏宇田保军赵利畅房建东. 面向用户多行为基于强化学习的学习路径推荐模型[J]. 计算机应用, DOI: 10.11772/j.issn.1001-9081.2025070864.

[1]	习怡萌, 邓箴, 刘倩, 刘立波. 跨模态信息融合的视频-文本检索[J]. 《计算机应用》唯一官方网站, 2025, 45(8): 2448-2456.
[2]	王义, 马应龙. 基于项图动态适应性生成的多任务社交项推荐方法[J]. 《计算机应用》唯一官方网站, 2025, 45(8): 2592-2599.
[3]	郭盼盼, 周刚, 卢记仓, 李珠峰, 祝涛杰. 混合信息增强的论文推荐方法[J]. 《计算机应用》唯一官方网站, 2025, 45(6): 1879-1887.
[4]	吴宗航, 张东, 李冠宇. 基于联合自监督学习的多模态融合推荐算法[J]. 《计算机应用》唯一官方网站, 2025, 45(6): 1858-1868.
[5]	牛四杰, 刘昱良. 基于知识蒸馏双分支结构的视网膜病变辅助诊断方法[J]. 《计算机应用》唯一官方网站, 2025, 45(5): 1410-1414.
[6]	谢欣冉崔喆陈睿彭泰来林德坤. 基于层次过滤与标签语义扩展的大模型零样本重排序方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0.
[7]	甘轲朱小飞程佳玮. 多视角关系增强的知识图谱推荐方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0.
[8]	田仁杰, 景明利, 焦龙, 王飞. 基于混合负采样的图对比学习推荐算法[J]. 《计算机应用》唯一官方网站, 2025, 45(4): 1053-1060.
[9]	王聪, 史艳翠. 基于多视角学习的图神经网络群组推荐模型[J]. 《计算机应用》唯一官方网站, 2025, 45(4): 1205-1212.
[10]	史艳翠秦浩哲. 融合用户行为和改进长尾算法的推荐方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0.
[11]	余肖生, 王智鑫. 基于多层次图对比学习的序列推荐模型[J]. 《计算机应用》唯一官方网站, 2025, 45(1): 106-114.
[12]	刘超余岩化. 融合降噪策略与多视图对比学习的知识感知推荐算法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0.
[13]	杨兴耀, 沈洪涛, 张祖莲, 于炯, 陈嘉颖, 王东晓. 基于层级过滤器和时间卷积增强自注意力网络的序列推荐[J]. 《计算机应用》唯一官方网站, 2024, 44(10): 3090-3096.
[14]	项能强, 朱小飞, 高肇泽. 原型感知双通道图卷积神经网络的信息传播预测模型[J]. 《计算机应用》唯一官方网站, 2024, 44(10): 3260-3266.
[15]	武杰, 张安思, 吴茂东, 张仪宗, 王从宝. 知识图谱在装备故障诊断领域的研究与应用综述[J]. 《计算机应用》唯一官方网站, 2024, 44(9): 2651-2659.

面向用户多行为基于强化学习的学习路径推荐模型

User-oriented multi-behavior reinforcement learning model for learning path recommendation

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics