《计算机应用》唯一官方网站 ›› 2022, Vol. 42 ›› Issue (8): 2386-2393.DOI: 10.11772/j.issn.1001-9081.2021060924
• 人工智能 • 上一篇
收稿日期:
2021-06-02
修回日期:
2021-07-27
接受日期:
2021-08-06
发布日期:
2022-08-09
出版日期:
2022-08-10
通讯作者:
王伟
作者简介:
陈肖宇(1982—),男,辽宁沈阳人,讲师,博士,CCF会员,主要研究方向:知识表示、机器学习;Xiaoyu CHEN1,2,3, Wei WANG1,2()
Received:
2021-06-02
Revised:
2021-07-27
Accepted:
2021-08-06
Online:
2022-08-09
Published:
2022-08-10
Contact:
Wei WANG
About author:
CHEN Xiaoyu, born in 1982, Ph. D., lecturer. His research interests include knowledge representation, machine learning.摘要:
针对科技领域文档语义信息获取不充分的问题,提出一套基于规则的数学领域相关文本的语义抽取方法。首先从文本中提取领域概念并实现数学实体与领域概念之间的语义映射;然后对数学符号的上下文进行分析,获取数学符号的实体指代或文字描述,进而抽取其语义;最后基于已抽取的数学符号语义实现表达式的语义分析。以线性代数文本为研究实例,构建了一个语义标注数据集并进行实验,实验结果表明所提方法对标识符、线性代数实体以及表达式的语义抽取具有93%以上的精确率和91%以上的召回率。
中图分类号:
陈肖宇, 王伟. 领域相关的数学文本语义抽取[J]. 计算机应用, 2022, 42(8): 2386-2393.
Xiaoyu CHEN, Wei WANG. Semantic extraction of domain-dependent mathematical text[J]. Journal of Computer Applications, 2022, 42(8): 2386-2393.
编号 | 语句模板 |
---|---|
1 | TextDesc <ID> |
2 | TextDesc a (与|和) <ID> |
3 | <ID> a (是|为) TextDesc |
4 | <ID> (是|为) TextDesc |
5 | 用 <ID> 表示TextDesc |
表1 语句模板列表
Tab. 1 List of sentence templates
编号 | 语句模板 |
---|---|
1 | TextDesc <ID> |
2 | TextDesc a (与|和) <ID> |
3 | <ID> a (是|为) TextDesc |
4 | <ID> (是|为) TextDesc |
5 | 用 <ID> 表示TextDesc |
实体指代或文字描述 | 领域概念 | 段落序数 | 语句序数 | 表达式序数 | 起始索引 | 结束索引 |
---|---|---|---|---|---|---|
3 | 8 | 7 | 2 | 4 | ||
对称矩阵 | 对称矩阵 | 5 | 9 | 10 | 3 | 5 |
三阶对角行列式 | 6 | 2 | 4 | 1 | 3 | |
上三角行列式 | 上三角行列式 | 8 | 1 | 6 | 7 | 9 |
表2 语义表(部分)
Tab. 2 List of semantics (Part )
实体指代或文字描述 | 领域概念 | 段落序数 | 语句序数 | 表达式序数 | 起始索引 | 结束索引 |
---|---|---|---|---|---|---|
3 | 8 | 7 | 2 | 4 | ||
对称矩阵 | 对称矩阵 | 5 | 9 | 10 | 3 | 5 |
三阶对角行列式 | 6 | 2 | 4 | 1 | 3 | |
上三角行列式 | 上三角行列式 | 8 | 1 | 6 | 7 | 9 |
章节标题 | 实体数 | 标识符数 | 表达式数 |
---|---|---|---|
合计 | 223 | 1 806 | 820 |
行列式 | 26 | 130 | 76 |
矩阵 | 105 | 646 | 309 |
向量组 | 34 | 157 | 94 |
线性方程组 | 11 | 139 | 46 |
相似变换 | 38 | 486 | 220 |
二次型 | 9 | 248 | 75 |
表3 实验数据统计
Tab. 3 Experimental data statistics
章节标题 | 实体数 | 标识符数 | 表达式数 |
---|---|---|---|
合计 | 223 | 1 806 | 820 |
行列式 | 26 | 130 | 76 |
矩阵 | 105 | 646 | 309 |
向量组 | 34 | 157 | 94 |
线性方程组 | 11 | 139 | 46 |
相似变换 | 38 | 486 | 220 |
二次型 | 9 | 248 | 75 |
类型 | 样本数 |
---|---|
实体 | 223 |
标识符 | 1 204 |
表达式 | 68 |
表4 评价数据集
Tab. 4 Evaluation dataset
类型 | 样本数 |
---|---|
实体 | 223 |
标识符 | 1 204 |
表达式 | 68 |
抽取对象 | strict matching | soft matching | ||||
---|---|---|---|---|---|---|
P | R | F1 | P | R | F1 | |
标识符 | 0.983 | 0.920 | 0.950 | 1.000 | 0.936 | 0.967 |
实体 | 0.978 | 0.978 | 0.978 | 0.996 | 0.996 | 0.996 |
表达式 | 0.939 | 0.912 | 0.925 | 1.000 | 0.971 | 0.985 |
表5 语义抽取结果评价
Tab. 5 Evaluation of semantic extraction results
抽取对象 | strict matching | soft matching | ||||
---|---|---|---|---|---|---|
P | R | F1 | P | R | F1 | |
标识符 | 0.983 | 0.920 | 0.950 | 1.000 | 0.936 | 0.967 |
实体 | 0.978 | 0.978 | 0.978 | 0.996 | 0.996 | 0.996 |
表达式 | 0.939 | 0.912 | 0.925 | 1.000 | 0.971 | 0.985 |
1 | CHIEN P Y, CHENG P J. Semantic tagging of mathematical expressions [C]// Proceedings of the 24th International Conference on World Wide Web. Republic and Canton of Geneva: International World Wide Web Conferences Steering Committee, 2015: 195-204. 10.1145/2736277.2741108 |
2 | SCHUBOTZ M, GREINER-PETTER A, SCHARPF P, et al. Improving the representation and conversion of mathematical formulae by considering their textual context [C]// Proceedings of the 18th ACM/IEEE-CS Joint Conference on Digital Libraries. New York: ACM, 2018: 233-242. 10.1145/3197026.3197058 |
3 | GANESALINGAM M. The Language of Mathematics: A Linguistic and Philosophical Investigation[M]. Berlin: Springer, 2013: 21-23. 10.1007/978-3-642-37012-0_2 |
4 | GREINER-PETTER A, SCHUBOTZ M, MÜLLER F, et al. Discovering mathematical objects of interest — a study of mathematical notations [C]// Proceedings of the Web Conference 2020. New York: ACM, 2020: 1445-1456. 10.1145/3366423.3380218 |
5 | YOUSSEF A, MILLER B R. Deep learning for math knowledge processing [C]// Proceedings of the 2018 International Conference on Intelligent Computer Mathematics, LNCS 11006. Cham: Springer, 2018: 271-286. |
6 | YOUSSEF A. Part-of-math tagging and applications [C]// Proceedings of the 2017 International Conference on Intelligent Computer Mathematics, LNCS 10383. Cham: Springer, 2017: 356-374. |
7 | QUOC M N, YOKOI K, MATSUBAYASHI Y, et al. Mining coreference relations between formulas and text using Wikipedia [C]// Proceedings of the 2nd Workshop on NLP Challenges in the Information Explosion Era. [S.l.]: Coling 2010 Organizing Committee, 2010: 69-74. |
8 | KRISTIANTO G Y, TOPIĆ G, AIZAWA A. Extracting textual descriptions of mathematical expressions in scientific papers[J]. D-Lib Magazine, 2014, 20(11/12). 10.1109/icdim.2014.6991403 |
9 | PAGEL R, SCHUBOTZ M. Mathematical language processing project [C]// Joint Proceedings of the 2014 MathUI, OpenMath and ThEdu Workshops and Work in Progress track at CICM co-located with the 2014 Conferences on Intelligent Computer Mathematics. Aachen: CEUR-WS.org, 2014: No.23. |
10 | ALEXEEVA M, SHARP R, VALENZUELA-ESCÁRCEGA M A, et al. MathAlign: linking formula identifiers to their contextual natural language descriptions [C]// Proceedings of the 12th International Conference on Language Resources and Evaluation. [S.l.]: European Language Resources Association, 2020: 2204-2212. |
11 | VALENZUELA-ESCÁRCEGA M A, HAHN-POWELL G, SURDEANU M. Odin’s Runes: a rule language for information extraction [C]// Proceedings of the 10th International Conference on Language Resources and Evaluation. [S.l.]: European Language Resources Association, 2016: 322-329. 10.18653/v1/w16-2907 |
12 | SCHUBOTZ M, KRÄMER L, MEUSCHKE N, et al. Evaluating and improving the extraction of mathematical identifier definitions [C]// Proceedings of the 2017 International Conference of the Cross-Language Evaluation Forum for European Languages, LNCS 10456. Cham: Springer, 2017: 82-94. |
13 | YOKOI K, NGHIEM M Q, MATSUBAYASHI Y, et al. Contextual analysis of mathematical expressions for advanced mathematical search[J]. Polibits, 2011(43): 81-86. 10.17562/pb-43-11 |
14 | SCHÖNEBERG U, SPERBER W. POS tagging and its applications for mathematics: text analysis in mathematics [C]// Proceedings of the 2014 International Conference on Intelligent Computer Mathematics, LNCS 8543. Cham: Springer, 2014: 213-223. |
15 | SCHUBOTZ M, GRIGOREV A, LEICH M, et al. Semantification of identifiers in mathematics for better math information retrieval [C]// Proceedings of the 39th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2016: 135-144. 10.1145/2911451.2911503 |
16 | LIN J, WANG X, WANG Z L, et al. Prediction of mathematical expression declarations based on spatial, semantic, and syntactic analysis [C]// Proceedings of the 19th ACM Symposium on Document Engineering. New York: ACM, 2019: No.15. 10.1145/3342558.3345399 |
17 | 高宗升,周梦,李红裔.线性代数[M]. 3版.北京:北京航空航天大学出版社, 2016: 29-156. |
GAO Z S, ZHOU M, LI H Y. Linear Algebra[M]. 3rd ed. Beijing: Beihang University Press, 2016: 29-156. |
[1] | 张新宇, 丁胜, 杨治佩. 基于改进注意力机制的交通标志检测算法[J]. 《计算机应用》唯一官方网站, 2022, 42(8): 2378-2385. |
[2] | 吴明晖, 张广洁, 金苍宏. 基于多模态信息融合的时间序列预测模型[J]. 《计算机应用》唯一官方网站, 2022, 42(8): 2326-2332. |
[3] | 杨博, 张恒巍, 李哲铭, 徐开勇. 基于图像翻转变换的对抗样本生成方法[J]. 《计算机应用》唯一官方网站, 2022, 42(8): 2319-2325. |
[4] | 周乐, 代婷婷, 李淳, 谢军, 楚博策, 李峰, 张君毅, 刘峤. 基于节点-属性二部图的网络表示学习模型[J]. 《计算机应用》唯一官方网站, 2022, 42(8): 2311-2318. |
[5] | 黄晓辉 杨凯铭 凌嘉壕. 基于共享注意力的多智能体强化学习订单派送[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[6] | 吴家皋 章仕稳 蒋宇栋 刘林峰. 基于状态精细化长短期记忆和注意力机制的社交生成对抗网络行人轨迹预测#br#
#br#
[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[7] | 钟磊 周允升 余敦辉 崔海波. 基于亲和力与研究方向覆盖率的审稿人推荐算法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[8] | 刘清堂 马鑫倩 周洁 吴林静 周鹏霄. 融合常识库和语法特征的数学应用题题意理解[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[9] | 唐鑫 彭博 滕飞. 基于状态信息的红外小目标跟踪方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[10] | 申志军 穆丽娜 高静 史远航 刘志强. 细粒度图像分类综述[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[11] | 叶青 史昕 孙梦薇 朱健. 基于形式概念分析的交通监测传感网络贪婪性同步拓扑算法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[12] | 许喆 王志宏 单存宇 孙亚茹 杨莹. 基于重构误差的无监督人脸伪造视频检测[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[13] | 刘辉 张琳玉 王复港 何如瑾. 基于注意力机制和上下文信息的目标检测算法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[14] | 王娟, 袁旭亮, 武明虎, 郭力权, 刘子杉. 基于压缩提炼网络的实时语义分割方法[J]. 《计算机应用》唯一官方网站, 2022, 42(7): 1993-2000. |
[15] | 李汉伦, 任建国. P2P网络中基于特征行为检测的恶意代码传播模型[J]. 《计算机应用》唯一官方网站, 2022, 42(7): 2125-2131. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||