《计算机应用》唯一官方网站 ›› 2024, Vol. 44 ›› Issue (8): 2421-2429.DOI: 10.11772/j.issn.1001-9081.2023081065
• 人工智能 • 上一篇
收稿日期:
2023-08-08
修回日期:
2023-11-06
接受日期:
2023-11-15
发布日期:
2023-12-18
出版日期:
2024-08-10
通讯作者:
张丽萍
作者简介:
赵宇博(1999—),男,内蒙古赤峰人,硕士研究生,CCF会员,主要研究方向:知识图谱、教育数据挖掘基金资助:
Yubo ZHAO, Liping ZHANG(), Sheng YAN, Min HOU, Mao GAO
Received:
2023-08-08
Revised:
2023-11-06
Accepted:
2023-11-15
Online:
2023-12-18
Published:
2024-08-10
Contact:
Liping ZHANG
About author:
ZHAO Yubo, born in 1999, M. S. candidate. His researchinterests include knowledge graph, educational data mining.Supported by:
摘要:
关系抽取是梳理学科知识的重要手段以及构建教育知识图谱的重要步骤。在当前研究中,如BERT(Bidirectional Encoder Representations from Transformers)等以Transformer架构为基础的预训练语言模型多数存在参数量大、复杂度过高的问题,难以部署于终端设备,限制了在真实教育场景中的应用。此外,大多数传统的轻量级关系抽取模型并不是通过文本结构对数据进行建模,容易忽略实体间的结构信息;且生成的词嵌入向量难以捕捉文本的上下文特征、对一词多义问题解决能力差,难以契合学科知识文本非结构化以及专有名词占比大的特点,不利于高质量的关系抽取。针对上述问题,提出一种基于改进分段卷积神经网络(PCNN)和知识蒸馏(KD)的学科知识实体间关系抽取方法。首先,利用BERT生成高质量的领域文本词向量,改进PCNN模型的输入层,从而有效捕捉文本上下文特征并在一定程度上解决一词多义问题;其次,利用卷积和分段最大池化操作深入挖掘实体间结构信息,构建BERT-PCNN模型,实现高质量的关系抽取;最后,考虑到教育场景对高效且轻量化模型的需求,蒸馏BERT-PCNN模型输出层和中间层知识,用于指导PCNN模型,完成KD-PCNN模型的构建。实验结果表明,BERT-PCNN模型的加权平均F1值达到94%,相较于R-BERT和EC_BERT模型分别提升了1和2个百分点;KD-PCNN模型的加权平均F1值达到92%,与EC_BERT模型持平;参数量相较于BERT-PCNN、KD-RB-l模型下降了3个数量级。可见,所提方法能在性能评价指标和网络参数量之间更好地权衡,有利于教育知识图谱自动化构建水平的提高和新型教育应用的研发与部署。
中图分类号:
赵宇博, 张丽萍, 闫盛, 侯敏, 高茂. 基于改进分段卷积神经网络和知识蒸馏的学科知识实体间关系抽取[J]. 计算机应用, 2024, 44(8): 2421-2429.
Yubo ZHAO, Liping ZHANG, Sheng YAN, Min HOU, Mao GAO. Relation extraction between discipline knowledge entities based on improved piecewise convolutional neural network and knowledge distillation[J]. Journal of Computer Applications, 2024, 44(8): 2421-2429.
实体类型 | 关系类型 | 关系值域 | 示例 |
---|---|---|---|
课程 | 包含 | 章,节, 知识点 | 1)《C语言程序设计》包含第一章C语言概述 2)《C语言程序设计》包含第一章C语言概述的第一节——C语言的特点 3)《C语言程序设计》包含输出函数这个知识点 |
章 | 包含,顺序 | 章,节,知识点 | 1)第一章C语言概述包含C语言的特点这一节 2)第一章C语言概述包含输出函数这个知识点 3)第一章C语言概述和第二章程序的灵魂—算法属于顺序关系 |
节 | 包含,顺序 | 节,知识点 | 1)第一章第三节输入和输出函数包含输出函数这个知识点 2)第一章第三节输入和输出函数和第一章第四节C源程序结构特点是顺序关系 |
知识点 | 顺序,相关 | 知识点 | 1)常量和直接常量是顺序关系 2)输入函数和输出函数是相关关系 |
编程问题 | step i | 知识点 | 将华氏温度转换为摄氏温度这道编程题目依次包含预处理命令,主函数,整型变量,变量赋初值,输出函数这几个知识点(step 1为编辑预处理命令;step 2为定义主函数main;step 3为定义两个整型变量分别代表华氏温度和摄氏温度;step 4为对代表华氏温度的变量赋初值;step 5为依据温度转换计算公式调用输出函数输出结果) |
表1 实体间关系示例
Tab. 1 Examples of relations between entities
实体类型 | 关系类型 | 关系值域 | 示例 |
---|---|---|---|
课程 | 包含 | 章,节, 知识点 | 1)《C语言程序设计》包含第一章C语言概述 2)《C语言程序设计》包含第一章C语言概述的第一节——C语言的特点 3)《C语言程序设计》包含输出函数这个知识点 |
章 | 包含,顺序 | 章,节,知识点 | 1)第一章C语言概述包含C语言的特点这一节 2)第一章C语言概述包含输出函数这个知识点 3)第一章C语言概述和第二章程序的灵魂—算法属于顺序关系 |
节 | 包含,顺序 | 节,知识点 | 1)第一章第三节输入和输出函数包含输出函数这个知识点 2)第一章第三节输入和输出函数和第一章第四节C源程序结构特点是顺序关系 |
知识点 | 顺序,相关 | 知识点 | 1)常量和直接常量是顺序关系 2)输入函数和输出函数是相关关系 |
编程问题 | step i | 知识点 | 将华氏温度转换为摄氏温度这道编程题目依次包含预处理命令,主函数,整型变量,变量赋初值,输出函数这几个知识点(step 1为编辑预处理命令;step 2为定义主函数main;step 3为定义两个整型变量分别代表华氏温度和摄氏温度;step 4为对代表华氏温度的变量赋初值;step 5为依据温度转换计算公式调用输出函数输出结果) |
数据集 | 数据规模 |
---|---|
训练集 | 1 541 |
验证集 | 193 |
测试集 | 192 |
表2 数据分布
Tab. 2 Data distribution
数据集 | 数据规模 |
---|---|
训练集 | 1 541 |
验证集 | 193 |
测试集 | 192 |
参数 | 值 | 参数 | 值 |
---|---|---|---|
学习率 | 1E-5 | 卷积层数 | 1 |
Epoch | 50 | 卷积核个数 | 230 |
Batch size | 64 | 卷积核尺寸 | 1×3 |
Dropout | 0.15 | 卷积核滑动步长 | 1 |
词嵌入向量维度 | 128 | 温度T | 4 |
位置嵌入向量维度 | 50 |
表3 参数设置
Tab. 3 Parameter settings
参数 | 值 | 参数 | 值 |
---|---|---|---|
学习率 | 1E-5 | 卷积层数 | 1 |
Epoch | 50 | 卷积核个数 | 230 |
Batch size | 64 | 卷积核尺寸 | 1×3 |
Dropout | 0.15 | 卷积核滑动步长 | 1 |
词嵌入向量维度 | 128 | 温度T | 4 |
位置嵌入向量维度 | 50 |
模型 | Weighted-average precision/% | Weighted-average recall/% | Weighted-average F1/% | total params |
---|---|---|---|---|
PCNN[ | 84 | 85 | 84 | 233 864 |
BiLSTM-CNN-Attention[ | 88 | 87 | 87 | 430 817 |
BiGRU-Att-PCNN[ | 89 | 87 | 88 | 466 772 |
R-BERT[ | 95 | 94 | 93 | 114 204 672 |
EC_BERT[ | 93 | 92 | 92 | 113 531 136 |
KD-RB-l[ | 96 | 95 | 95 | 351 357 596 |
BERT-PCNN | 95 | 94 | 94 | 102542675 |
KD-PCNN | 93 | 91 | 92 | 846434 |
表4 各模型关系预测性能比较
Tab. 4 Performance comparison of relation prediction by various models
模型 | Weighted-average precision/% | Weighted-average recall/% | Weighted-average F1/% | total params |
---|---|---|---|---|
PCNN[ | 84 | 85 | 84 | 233 864 |
BiLSTM-CNN-Attention[ | 88 | 87 | 87 | 430 817 |
BiGRU-Att-PCNN[ | 89 | 87 | 88 | 466 772 |
R-BERT[ | 95 | 94 | 93 | 114 204 672 |
EC_BERT[ | 93 | 92 | 92 | 113 531 136 |
KD-RB-l[ | 96 | 95 | 95 | 351 357 596 |
BERT-PCNN | 95 | 94 | 94 | 102542675 |
KD-PCNN | 93 | 91 | 92 | 846434 |
T值 | Weighted-average precision/% | Weighted-average recall/% | Weighted-average F1/% |
---|---|---|---|
1 | 91 | 87 | 88 |
3 | 93 | 90 | 91 |
4 | 93 | 91 | 92 |
5 | 91 | 88 | 88 |
8 | 92 | 90 | 90 |
10 | 91 | 89 | 89 |
表5 温度参数对知识蒸馏操作有效性的影响
Tab. 5 Influence of temperature parameter on effectiveness of knowledge distillation operation
T值 | Weighted-average precision/% | Weighted-average recall/% | Weighted-average F1/% |
---|---|---|---|
1 | 91 | 87 | 88 |
3 | 93 | 90 | 91 |
4 | 93 | 91 | 92 |
5 | 91 | 88 | 88 |
8 | 92 | 90 | 90 |
10 | 91 | 89 | 89 |
蒸馏方式 | Weighted-average precision | Weighted-average recall | Weighted-average F1 |
---|---|---|---|
只蒸馏标签知识 | 91 | 88 | 88 |
只蒸馏中间层知识 | 91 | 90 | 90 |
蒸馏标签和中间层知识 | 93 | 91 | 92 |
表6 消融实验结果 (%)
Tab. 6 Results of ablation experiments
蒸馏方式 | Weighted-average precision | Weighted-average recall | Weighted-average F1 |
---|---|---|---|
只蒸馏标签知识 | 91 | 88 | 88 |
只蒸馏中间层知识 | 91 | 90 | 90 |
蒸馏标签和中间层知识 | 93 | 91 | 92 |
文本 | 实体1 | 实体2 | 模型 | 真实标签 | 预测标签 |
---|---|---|---|---|---|
表达式语句是一种由表达式组成的语句,它通常会产生一个结果,并且可以被用于赋值或者用于其他表达式的计算中;函数调用语句是一种调用函数的语句,它通过函数名称和参数列表来调用一个函数,并且可以使用函数返回值来执行其他操作。两者都是计算机程序中的语句类型。 | 表达式 语句 | 函数 调用语句 | PCNN | 相关 | 顺序 |
BERT-PCNN | 相关 | 相关 | |||
KD-PCNN | 相关 | 相关 |
表7 各模型案例实体间关系抽取结果
Tab. 7 Case relation extraction results between entities by various models
文本 | 实体1 | 实体2 | 模型 | 真实标签 | 预测标签 |
---|---|---|---|---|---|
表达式语句是一种由表达式组成的语句,它通常会产生一个结果,并且可以被用于赋值或者用于其他表达式的计算中;函数调用语句是一种调用函数的语句,它通过函数名称和参数列表来调用一个函数,并且可以使用函数返回值来执行其他操作。两者都是计算机程序中的语句类型。 | 表达式 语句 | 函数 调用语句 | PCNN | 相关 | 顺序 |
BERT-PCNN | 相关 | 相关 | |||
KD-PCNN | 相关 | 相关 |
1 | BAIG M I, SHUIB L, YADEGARIDEHKORDI E. Big data in education: a state of the art, limitations, and future research directions[J]. International Journal of Educational Technology in Higher Education, 2020, 17: 44. |
2 | LAURI L, VIRKUS S, HEIDMETS M. Information cultures and strategies for coping with information overload: case of Estonian higher education institutions[J]. Journal of Documentation, 2020, 77(2): 518-541. |
3 | JI S, PAN S, CAMBRIA E, et al. A survey on knowledge graphs: representation, acquisition, and applications[J]. IEEE Transactions on Neural Networks and Learning Systems, 2022, 33(2): 494-514. |
4 | LIN J, ZHAO Y, HUANG W, et al. Domain knowledge graph-based research progress of knowledge representation[J]. Neural Computing and Applications, 2021, 33: 681-690. |
5 | 鄂海红,张文静,肖思琪,等.深度学习实体关系抽取研究综述[J].软件学报, 2019, 30(6): 1793-1818. |
E H H, ZHANG W J, XIAO S Q,et al.Survey of entity relationship extraction based on deep learning[J]. Journal of Software, 2019, 30(6): 1793-1818. | |
6 | 高茂,张丽萍.融合多模态资源的教育知识图谱的内涵、技术与应用研究[J].计算机应用研究, 2022, 39(8): 2257-2267. |
GAO M, ZHANG L P. Research on connotation, technology and application of educational knowledge graph based on multimodal resources[J]. Application Research of Computers, 2022, 39(8): 2257-2267. | |
7 | 赵宇博,张丽萍,闫盛,等. 个性化学习中学科知识图谱构建与应用综述[J].计算机工程与应用,2023, 59(10): 1-21. |
ZHAO Y B, ZHANG L P, YAN S, et al. Construction and application of discipline knowledge graph in personalized learning[J]. Computer Engineering and Applications,2023, 59(10): 1-21. | |
8 | 赵哲焕, 杨志豪, 孙聪, 等. 生物医学文献中的蛋白质关系抽取研究[J]. 中文信息学报, 2018, 32(7): 82-90. |
ZHAO Z H, YANG Z H, SUN C, et al. Protein-protein interaction extraction from biomedical literature[J]. Journal of Chinese Information Processing, 2018, 32(7): 82-90. | |
9 | PAN L, LI C, LI J, et al. Prerequisite relation learning for concepts in MOOCs[C]// Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). Stroudsburg: ACL, 2017: 1447-1456. |
10 | 韩萌,李蔚清.基于特征增强的中文STEM课程知识的关系抽取[J].计算机应用研究, 2020, 37(S1): 40-42. |
HAN M, LI W Q. Relationship extraction of Chinese STEM course knowledge based on feature enhancement[J]. Application Research of Computers, 2020, 37(S1): 40-42. | |
11 | SONG M, ZHAO J, GAO X. Research on entity relation extraction in education field based on multi-feature deep learning[C]// Proceedings of the 3rd International Conference on Big Data Technologies. New York: ACM, 2020: 102-106. |
12 | WANG H, QIN K, ZAKARI R Y, et al. Deep neural network-based relation extraction: an overview[J]. Neural Computing and Applications, 2022: 34: 4781-4801. |
13 | SONG D, XU J, PANG J, et al. Classifier-adaptation knowledge distillation framework for relation extraction and event detection with imbalanced data[J]. Information Sciences, 2021, 573: 222-238. |
14 | DEVLIN J, CHANG M-W, LEE K, et al. BERT: pre-training of deep bidirectional transformers for language understanding[C]// Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers). Stroudsburg: ACL, 2019: 4171-4186. |
15 | ZENG D, LIU K, CHEN Y, et al. Distant supervision for relation extraction via piecewise convolutional neural networks[C]// Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing. Stroudsburg: ACL, 2015: 1753-1762. |
16 | HINTON G, VINYALS O, DEAN J. Distilling the knowledge in a neural network[EB/OL]. (2015-03-09) [2023-11-06]. . |
17 | 国务院. 国务院关于印发新一代人工智能发展规划的通知[J]. 中华人民共和国国务院公报, 2017(22): 7-21. |
Council State. Notice of the state council on issuing the development plan on the new generation of artificial intelligence [J]. The Gazette of the State Council of the People’s Republic of China, 2017(22): 7-21. | |
18 | LUO L, YANG Z, CAO M, et al. A neural network-based joint learning approach for biomedical entity and relation extraction from biomedical literature[J]. Journal of Biomedical Informatics, 2020, 103: 103384. |
19 | 排日旦·阿布都热依木,吐尔地·托合提,艾斯卡尔·艾木都拉.基于深度学习的实体关系抽取方法研究[J].计算机工程与科学, 2023, 45(5): 895-902. |
PERIDE A, TURDI T, ASKAR H.An entity relation extraction method based on deep learning[J]. Computer Engineering & Science,2023, 45(5): 895-902. | |
20 | 葛艳,杜坤钰,杜军威,等.基于混合神经网络的实体关系抽取方法研究[J].中文信息学报,2021,35(10):81-89. |
GE Y, DU K Y, DU J W, et al. Entity relation extraction based on hybrid neural network[J]. Journal of Chinese Information Processing,2021, 35(10): 81-89. | |
21 | BUCKMAN J, ROY A, RAFFEL C, et al. Thermometer encoding: one hot way to resist adversarial examples[C/OL]// Proceedings of the 2015 International Conference on Learning Representations [2023-08-01]. . |
22 | 魏敏,张丽萍,闫盛.基于程序向量树和聚类的学生程序算法识别方法[J].计算机工程与设计, 2022, 43(10): 2790-2798. |
WEI M, ZHANG L P, YAN S. Student program algorithm recognition based on program vector tree and clustering[J]. Computer Engineering and Design,2022,43(10):2790-2798. | |
23 | 陈德光,马金林,马自萍,等.自然语言处理预训练技术综述[J].计算机科学与探索, 2021, 15(8): 1359-1389. |
CHEN D G, MA J L, MA Z P, et al. Review of pre-training techniques for natural language processing[J]. Journal of Frontiers of Computer Science & Technology, 2021, 15(8): 1359-1389. | |
24 | WU S, HE Y. Enriching pre-trained language model with entity information for relation classification[C]// Proceedings of the 28th ACM International Conference on Information and Knowledge Management. New York: ACM, 2019: 2361-2364. |
25 | 万莹,孙连英,赵平,等.基于信息增强BERT的关系分类[J].中文信息学报, 2021, 35(3): 69-77. |
WAN Y, SUN L P, ZHAO P,et al.Relation classification based on information enhanced BERT[J].Journal of Chinese Information Processing, 2021, 35(3): 69-77. | |
26 | GOU J, YU B, MAYBANK S J, et al. Knowledge distillation: a survey[J]. International Journal of Computer Vision, 2021, 129: 1789-1819. |
27 | ZHANG L, SU J, MIN Z, et al. Exploring self-distillation based relational reasoning training for document-level relation extraction[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2023, 37(11): 13967-13975. |
28 | TAN Q, HE R, BING L, et al. Document-level relation extraction with adaptive focal loss and knowledge distillation[C]// Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics. Stroudsburg: ACL, 2022: 1672-1681. |
29 | HAO S, TAN B, TANG K, et al. BertNet: harvesting knowledge graphs with arbitrary relations from pretrained language models[C]// Proceedings of the 61st Annual Meeting of the Association for Computational Linguistics. Stroudsburg: ACL, 2023: 5000-5015. |
30 | SCHUSTER M, NAKAJIMA K. Japanese and Korean voice search[C]// Proceedings of the 2012 IEEE International Conference on Acoustics, Speech And Signal Processing. Piscataway: IEEE, 2012: 5149-5152. |
31 | 窦慧,张凌茗,韩峰,等.卷积神经网络的可解释性研究综述[J]. 软件学报,2024,35(1):159-184. |
DOU H, ZHANG L M, HAN F, et al. Survey on convolutional neural network interpretability[J]. Journal of Software, 2024,35(1):159-184. | |
32 | 邵仁荣,刘宇昂,张伟,等.深度学习中知识蒸馏研究综述[J].计算机学报,2022,45(8):1638-1673. |
SHAO R R, LIU Y A, ZHANG W, et al. A survey of knowledge distillation in deep learning[J]. Chinese Journal of Computers,2022,45(8):1638-1673. |
[1] | 张春雪, 仇丽青, 孙承爱, 荆彩霞. 基于两阶段动态兴趣识别的购买行为预测模型[J]. 《计算机应用》唯一官方网站, 2024, 44(8): 2365-2371. |
[2] | 陈彤, 杨丰玉, 熊宇, 严荭, 邱福星. 基于多尺度频率通道注意力融合的声纹库构建方法[J]. 《计算机应用》唯一官方网站, 2024, 44(8): 2407-2413. |
[3] | 沈哲远, 杨珂珂, 李京. 基于双流神经网络的个性化联邦学习方法[J]. 《计算机应用》唯一官方网站, 2024, 44(8): 2319-2325. |
[4] | 赵亦群, 张志禹, 董雪. 基于密集残差物理信息神经网络的各向异性旅行时计算方法[J]. 《计算机应用》唯一官方网站, 2024, 44(7): 2310-2318. |
[5] | 高阳峄, 雷涛, 杜晓刚, 李岁永, 王营博, 闵重丹. 基于像素距离图和四维动态卷积网络的密集人群计数与定位方法[J]. 《计算机应用》唯一官方网站, 2024, 44(7): 2233-2242. |
[6] | 田润泽, 周宇龙, 朱洪, 薛岗. 基于局部信息的服务迁移路径选择算法[J]. 《计算机应用》唯一官方网站, 2024, 44(7): 2168-2174. |
[7] | 晁浩, 封舒琪, 刘永利. 脑电情感识别中多上下文向量优化的卷积递归神经网络[J]. 《计算机应用》唯一官方网站, 2024, 44(7): 2041-2046. |
[8] | 唐媛, 陈艳平, 扈应, 黄瑞章, 秦永彬. 基于多尺度混合注意力卷积神经网络的关系抽取模型[J]. 《计算机应用》唯一官方网站, 2024, 44(7): 2011-2017. |
[9] | 王东炜, 刘柏辰, 韩志, 王艳美, 唐延东. 基于低秩分解和向量量化的深度网络压缩方法[J]. 《计算机应用》唯一官方网站, 2024, 44(7): 1987-1994. |
[10] | 毛典辉, 李学博, 刘峻岭, 张登辉, 颜文婧. 基于并行异构图和序列注意力机制的中文实体关系抽取模型[J]. 《计算机应用》唯一官方网站, 2024, 44(7): 2018-2025. |
[11] | 林欣蕊, 王晓菲, 朱焱. 基于局部扩展社区发现的学术异常引用群体检测[J]. 《计算机应用》唯一官方网站, 2024, 44(6): 1855-1861. |
[12] | 魏超, 陈艳平, 王凯, 秦永彬, 黄瑞章. 基于掩码提示与门控记忆网络校准的关系抽取方法[J]. 《计算机应用》唯一官方网站, 2024, 44(6): 1713-1719. |
[13] | 黄梦源, 常侃, 凌铭阳, 韦新杰, 覃团发. 基于层间引导的低光照图像渐进增强算法[J]. 《计算机应用》唯一官方网站, 2024, 44(6): 1911-1919. |
[14] | 李健京, 李贯峰, 秦飞舟, 李卫军. 基于不确定知识图谱嵌入的多关系近似推理模型[J]. 《计算机应用》唯一官方网站, 2024, 44(6): 1751-1759. |
[15] | 姚迅, 秦忠正, 杨捷. 生成式标签对抗的文本分类模型[J]. 《计算机应用》唯一官方网站, 2024, 44(6): 1781-1785. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||