《计算机应用》唯一官方网站 ›› 2022, Vol. 42 ›› Issue (8): 2386-2393.DOI: 10.11772/j.issn.1001-9081.2021060924
所属专题: 人工智能
收稿日期:
2021-06-02
修回日期:
2021-07-27
接受日期:
2021-08-06
发布日期:
2022-08-09
出版日期:
2022-08-10
通讯作者:
王伟
作者简介:
陈肖宇(1982—),男,辽宁沈阳人,讲师,博士,CCF会员,主要研究方向:知识表示、机器学习;
Xiaoyu CHEN1,2,3, Wei WANG1,2()
Received:
2021-06-02
Revised:
2021-07-27
Accepted:
2021-08-06
Online:
2022-08-09
Published:
2022-08-10
Contact:
Wei WANG
About author:
CHEN Xiaoyu, born in 1982, Ph. D., lecturer. His research interests include knowledge representation, machine learning.摘要:
针对科技领域文档语义信息获取不充分的问题,提出一套基于规则的数学领域相关文本的语义抽取方法。首先从文本中提取领域概念并实现数学实体与领域概念之间的语义映射;然后对数学符号的上下文进行分析,获取数学符号的实体指代或文字描述,进而抽取其语义;最后基于已抽取的数学符号语义实现表达式的语义分析。以线性代数文本为研究实例,构建了一个语义标注数据集并进行实验,实验结果表明所提方法对标识符、线性代数实体以及表达式的语义抽取具有93%以上的精确率和91%以上的召回率。
中图分类号:
陈肖宇, 王伟. 领域相关的数学文本语义抽取[J]. 计算机应用, 2022, 42(8): 2386-2393.
Xiaoyu CHEN, Wei WANG. Semantic extraction of domain-dependent mathematical text[J]. Journal of Computer Applications, 2022, 42(8): 2386-2393.
编号 | 语句模板 |
---|---|
1 | TextDesc <ID> |
2 | TextDesc a (与|和) <ID> |
3 | <ID> a (是|为) TextDesc |
4 | <ID> (是|为) TextDesc |
5 | 用 <ID> 表示TextDesc |
表1 语句模板列表
Tab. 1 List of sentence templates
编号 | 语句模板 |
---|---|
1 | TextDesc <ID> |
2 | TextDesc a (与|和) <ID> |
3 | <ID> a (是|为) TextDesc |
4 | <ID> (是|为) TextDesc |
5 | 用 <ID> 表示TextDesc |
实体指代或文字描述 | 领域概念 | 段落序数 | 语句序数 | 表达式序数 | 起始索引 | 结束索引 |
---|---|---|---|---|---|---|
3 | 8 | 7 | 2 | 4 | ||
对称矩阵 | 对称矩阵 | 5 | 9 | 10 | 3 | 5 |
三阶对角行列式 | 6 | 2 | 4 | 1 | 3 | |
上三角行列式 | 上三角行列式 | 8 | 1 | 6 | 7 | 9 |
表2 语义表(部分)
Tab. 2 List of semantics (Part )
实体指代或文字描述 | 领域概念 | 段落序数 | 语句序数 | 表达式序数 | 起始索引 | 结束索引 |
---|---|---|---|---|---|---|
3 | 8 | 7 | 2 | 4 | ||
对称矩阵 | 对称矩阵 | 5 | 9 | 10 | 3 | 5 |
三阶对角行列式 | 6 | 2 | 4 | 1 | 3 | |
上三角行列式 | 上三角行列式 | 8 | 1 | 6 | 7 | 9 |
章节标题 | 实体数 | 标识符数 | 表达式数 |
---|---|---|---|
合计 | 223 | 1 806 | 820 |
行列式 | 26 | 130 | 76 |
矩阵 | 105 | 646 | 309 |
向量组 | 34 | 157 | 94 |
线性方程组 | 11 | 139 | 46 |
相似变换 | 38 | 486 | 220 |
二次型 | 9 | 248 | 75 |
表3 实验数据统计
Tab. 3 Experimental data statistics
章节标题 | 实体数 | 标识符数 | 表达式数 |
---|---|---|---|
合计 | 223 | 1 806 | 820 |
行列式 | 26 | 130 | 76 |
矩阵 | 105 | 646 | 309 |
向量组 | 34 | 157 | 94 |
线性方程组 | 11 | 139 | 46 |
相似变换 | 38 | 486 | 220 |
二次型 | 9 | 248 | 75 |
类型 | 样本数 |
---|---|
实体 | 223 |
标识符 | 1 204 |
表达式 | 68 |
表4 评价数据集
Tab. 4 Evaluation dataset
类型 | 样本数 |
---|---|
实体 | 223 |
标识符 | 1 204 |
表达式 | 68 |
抽取对象 | strict matching | soft matching | ||||
---|---|---|---|---|---|---|
P | R | F1 | P | R | F1 | |
标识符 | 0.983 | 0.920 | 0.950 | 1.000 | 0.936 | 0.967 |
实体 | 0.978 | 0.978 | 0.978 | 0.996 | 0.996 | 0.996 |
表达式 | 0.939 | 0.912 | 0.925 | 1.000 | 0.971 | 0.985 |
表5 语义抽取结果评价
Tab. 5 Evaluation of semantic extraction results
抽取对象 | strict matching | soft matching | ||||
---|---|---|---|---|---|---|
P | R | F1 | P | R | F1 | |
标识符 | 0.983 | 0.920 | 0.950 | 1.000 | 0.936 | 0.967 |
实体 | 0.978 | 0.978 | 0.978 | 0.996 | 0.996 | 0.996 |
表达式 | 0.939 | 0.912 | 0.925 | 1.000 | 0.971 | 0.985 |
1 | CHIEN P Y, CHENG P J. Semantic tagging of mathematical expressions [C]// Proceedings of the 24th International Conference on World Wide Web. Republic and Canton of Geneva: International World Wide Web Conferences Steering Committee, 2015: 195-204. 10.1145/2736277.2741108 |
2 | SCHUBOTZ M, GREINER-PETTER A, SCHARPF P, et al. Improving the representation and conversion of mathematical formulae by considering their textual context [C]// Proceedings of the 18th ACM/IEEE-CS Joint Conference on Digital Libraries. New York: ACM, 2018: 233-242. 10.1145/3197026.3197058 |
3 | GANESALINGAM M. The Language of Mathematics: A Linguistic and Philosophical Investigation[M]. Berlin: Springer, 2013: 21-23. 10.1007/978-3-642-37012-0_2 |
4 | GREINER-PETTER A, SCHUBOTZ M, MÜLLER F, et al. Discovering mathematical objects of interest — a study of mathematical notations [C]// Proceedings of the Web Conference 2020. New York: ACM, 2020: 1445-1456. 10.1145/3366423.3380218 |
5 | YOUSSEF A, MILLER B R. Deep learning for math knowledge processing [C]// Proceedings of the 2018 International Conference on Intelligent Computer Mathematics, LNCS 11006. Cham: Springer, 2018: 271-286. |
6 | YOUSSEF A. Part-of-math tagging and applications [C]// Proceedings of the 2017 International Conference on Intelligent Computer Mathematics, LNCS 10383. Cham: Springer, 2017: 356-374. |
7 | QUOC M N, YOKOI K, MATSUBAYASHI Y, et al. Mining coreference relations between formulas and text using Wikipedia [C]// Proceedings of the 2nd Workshop on NLP Challenges in the Information Explosion Era. [S.l.]: Coling 2010 Organizing Committee, 2010: 69-74. |
8 | KRISTIANTO G Y, TOPIĆ G, AIZAWA A. Extracting textual descriptions of mathematical expressions in scientific papers[J]. D-Lib Magazine, 2014, 20(11/12). 10.1109/icdim.2014.6991403 |
9 | PAGEL R, SCHUBOTZ M. Mathematical language processing project [C]// Joint Proceedings of the 2014 MathUI, OpenMath and ThEdu Workshops and Work in Progress track at CICM co-located with the 2014 Conferences on Intelligent Computer Mathematics. Aachen: CEUR-WS.org, 2014: No.23. |
10 | ALEXEEVA M, SHARP R, VALENZUELA-ESCÁRCEGA M A, et al. MathAlign: linking formula identifiers to their contextual natural language descriptions [C]// Proceedings of the 12th International Conference on Language Resources and Evaluation. [S.l.]: European Language Resources Association, 2020: 2204-2212. |
11 | VALENZUELA-ESCÁRCEGA M A, HAHN-POWELL G, SURDEANU M. Odin’s Runes: a rule language for information extraction [C]// Proceedings of the 10th International Conference on Language Resources and Evaluation. [S.l.]: European Language Resources Association, 2016: 322-329. 10.18653/v1/w16-2907 |
12 | SCHUBOTZ M, KRÄMER L, MEUSCHKE N, et al. Evaluating and improving the extraction of mathematical identifier definitions [C]// Proceedings of the 2017 International Conference of the Cross-Language Evaluation Forum for European Languages, LNCS 10456. Cham: Springer, 2017: 82-94. |
13 | YOKOI K, NGHIEM M Q, MATSUBAYASHI Y, et al. Contextual analysis of mathematical expressions for advanced mathematical search[J]. Polibits, 2011(43): 81-86. 10.17562/pb-43-11 |
14 | SCHÖNEBERG U, SPERBER W. POS tagging and its applications for mathematics: text analysis in mathematics [C]// Proceedings of the 2014 International Conference on Intelligent Computer Mathematics, LNCS 8543. Cham: Springer, 2014: 213-223. |
15 | SCHUBOTZ M, GRIGOREV A, LEICH M, et al. Semantification of identifiers in mathematics for better math information retrieval [C]// Proceedings of the 39th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2016: 135-144. 10.1145/2911451.2911503 |
16 | LIN J, WANG X, WANG Z L, et al. Prediction of mathematical expression declarations based on spatial, semantic, and syntactic analysis [C]// Proceedings of the 19th ACM Symposium on Document Engineering. New York: ACM, 2019: No.15. 10.1145/3342558.3345399 |
17 | 高宗升,周梦,李红裔.线性代数[M]. 3版.北京:北京航空航天大学出版社, 2016: 29-156. |
GAO Z S, ZHOU M, LI H Y. Linear Algebra[M]. 3rd ed. Beijing: Beihang University Press, 2016: 29-156. |
[1] | 李强 白少雄 熊源 袁薇. 基于视觉大模型隐私保护的监控图像定位[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[2] | 薛雅丽 徐忠敏 刘世豪. 基于多级小波残差网络的重力数据去噪方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[3] | 况世雄 姚俊波 陆佳炜 王琪冰 肖刚. 基于动态图卷积网络的电梯乘客异常行为数据增强方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[4] | 康斌 陈斌 王俊杰 李昱林 赵军智 咸伟志. 基于多粒度共享语义中心关联的文本到人物检索方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[5] | 张庆 杨凡 方宇涵. 基于多模态信息融合的中文拼写纠错算法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[6] | 王昊 王金伟 程鑫 张家伟 吴昊 罗向阳 马宾. 彩色图像JPEG重压缩取证综述(ChinaMFS 2024+14)[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[7] | 王磊 胡节 彭博. 用于半监督火灾检测的分布自适应和动态课程伪标签框架[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[8] | 刘晋文 王磊 马博 董瑞 杨雅婷 艾合塔木江·艾合麦提 王欣乐. 基于弱监督模态语义增强的多模态有害信息检测方法 [J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[9] | 夏雨禾 王晓东 何启学. 基于频域增强图变分学习的时间序列异常检测[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[10] | 殷兵, 凌震华, 林垠, 奚昌凤, 刘颖. 兼容缺失模态推理的情感识别方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[11] | 王子怡 李卫军 刘雪洋 丁建平 刘世侠 苏易礌. 基于Swin Transformer与多尺度特征融合的图像描述方法#br# [J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[12] | 方鹏, 赵凡, 王保全, 王轶, 蒋同海. 区块链3.0的发展、技术与应用[J]. 《计算机应用》唯一官方网站, 2024, 44(12): 3647-3657. |
[13] | 庞玉东, 李志星, 刘伟杰, 李天昊, 王宁宁. 基于改进实时检测Transformer的塔机上俯视场景小目标检测模型[J]. 《计算机应用》唯一官方网站, 2024, 44(12): 3922-3929. |
[14] | 赵欣, 李鑫杰, 徐健, 刘步云, 毕祥. 基于卷积神经网络与Transformer并行的医学图像配准模型[J]. 《计算机应用》唯一官方网站, 2024, 44(12): 3915-3921. |
[15] | 何长久, 杨婧涵, 周丕宇, 边昕烨, 吕明明, 董迪, 付岩, 王海鹏. 基于Transformer和门控循环单元的肽序列理论串联质谱图预测方法[J]. 《计算机应用》唯一官方网站, 2024, 44(12): 3958-3964. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||