《计算机应用》唯一官方网站 ›› 2022, Vol. 42 ›› Issue (8): 2386-2393.DOI: 10.11772/j.issn.1001-9081.2021060924
所属专题: 人工智能
Xiaoyu CHEN1,2,3, Wei WANG1,2()
About author:
CHEN Xiaoyu, born in 1982, Ph. D., lecturer. His research interests include knowledge representation, machine learning.摘要:
陈肖宇, 王伟. 领域相关的数学文本语义抽取[J]. 计算机应用, 2022, 42(8): 2386-2393.
Xiaoyu CHEN, Wei WANG. Semantic extraction of domain-dependent mathematical text[J]. Journal of Computer Applications, 2022, 42(8): 2386-2393.
编号 | 语句模板 |
1 | TextDesc <ID> |
2 | TextDesc a (与|和) <ID> |
3 | <ID> a (是|为) TextDesc |
4 | <ID> (是|为) TextDesc |
5 | 用 <ID> 表示TextDesc |
表1 语句模板列表
Tab. 1 List of sentence templates
编号 | 语句模板 |
1 | TextDesc <ID> |
2 | TextDesc a (与|和) <ID> |
3 | <ID> a (是|为) TextDesc |
4 | <ID> (是|为) TextDesc |
5 | 用 <ID> 表示TextDesc |
实体指代或文字描述 | 领域概念 | 段落序数 | 语句序数 | 表达式序数 | 起始索引 | 结束索引 |
3 | 8 | 7 | 2 | 4 | ||
对称矩阵 | 对称矩阵 | 5 | 9 | 10 | 3 | 5 |
三阶对角行列式 | 6 | 2 | 4 | 1 | 3 | |
上三角行列式 | 上三角行列式 | 8 | 1 | 6 | 7 | 9 |
表2 语义表(部分)
Tab. 2 List of semantics (Part )
实体指代或文字描述 | 领域概念 | 段落序数 | 语句序数 | 表达式序数 | 起始索引 | 结束索引 |
3 | 8 | 7 | 2 | 4 | ||
对称矩阵 | 对称矩阵 | 5 | 9 | 10 | 3 | 5 |
三阶对角行列式 | 6 | 2 | 4 | 1 | 3 | |
上三角行列式 | 上三角行列式 | 8 | 1 | 6 | 7 | 9 |
章节标题 | 实体数 | 标识符数 | 表达式数 |
合计 | 223 | 1 806 | 820 |
行列式 | 26 | 130 | 76 |
矩阵 | 105 | 646 | 309 |
向量组 | 34 | 157 | 94 |
线性方程组 | 11 | 139 | 46 |
相似变换 | 38 | 486 | 220 |
二次型 | 9 | 248 | 75 |
表3 实验数据统计
Tab. 3 Experimental data statistics
章节标题 | 实体数 | 标识符数 | 表达式数 |
合计 | 223 | 1 806 | 820 |
行列式 | 26 | 130 | 76 |
矩阵 | 105 | 646 | 309 |
向量组 | 34 | 157 | 94 |
线性方程组 | 11 | 139 | 46 |
相似变换 | 38 | 486 | 220 |
二次型 | 9 | 248 | 75 |
类型 | 样本数 |
实体 | 223 |
标识符 | 1 204 |
表达式 | 68 |
表4 评价数据集
Tab. 4 Evaluation dataset
类型 | 样本数 |
实体 | 223 |
标识符 | 1 204 |
表达式 | 68 |
抽取对象 | strict matching | soft matching | ||||
P | R | F1 | P | R | F1 | |
标识符 | 0.983 | 0.920 | 0.950 | 1.000 | 0.936 | 0.967 |
实体 | 0.978 | 0.978 | 0.978 | 0.996 | 0.996 | 0.996 |
表达式 | 0.939 | 0.912 | 0.925 | 1.000 | 0.971 | 0.985 |
表5 语义抽取结果评价
Tab. 5 Evaluation of semantic extraction results
抽取对象 | strict matching | soft matching | ||||
P | R | F1 | P | R | F1 | |
标识符 | 0.983 | 0.920 | 0.950 | 1.000 | 0.936 | 0.967 |
实体 | 0.978 | 0.978 | 0.978 | 0.996 | 0.996 | 0.996 |
表达式 | 0.939 | 0.912 | 0.925 | 1.000 | 0.971 | 0.985 |
1 | CHIEN P Y, CHENG P J. Semantic tagging of mathematical expressions [C]// Proceedings of the 24th International Conference on World Wide Web. Republic and Canton of Geneva: International World Wide Web Conferences Steering Committee, 2015: 195-204. 10.1145/2736277.2741108 |
2 | SCHUBOTZ M, GREINER-PETTER A, SCHARPF P, et al. Improving the representation and conversion of mathematical formulae by considering their textual context [C]// Proceedings of the 18th ACM/IEEE-CS Joint Conference on Digital Libraries. New York: ACM, 2018: 233-242. 10.1145/3197026.3197058 |
3 | GANESALINGAM M. The Language of Mathematics: A Linguistic and Philosophical Investigation[M]. Berlin: Springer, 2013: 21-23. 10.1007/978-3-642-37012-0_2 |
4 | GREINER-PETTER A, SCHUBOTZ M, MÜLLER F, et al. Discovering mathematical objects of interest — a study of mathematical notations [C]// Proceedings of the Web Conference 2020. New York: ACM, 2020: 1445-1456. 10.1145/3366423.3380218 |
5 | YOUSSEF A, MILLER B R. Deep learning for math knowledge processing [C]// Proceedings of the 2018 International Conference on Intelligent Computer Mathematics, LNCS 11006. Cham: Springer, 2018: 271-286. |
6 | YOUSSEF A. Part-of-math tagging and applications [C]// Proceedings of the 2017 International Conference on Intelligent Computer Mathematics, LNCS 10383. Cham: Springer, 2017: 356-374. |
7 | QUOC M N, YOKOI K, MATSUBAYASHI Y, et al. Mining coreference relations between formulas and text using Wikipedia [C]// Proceedings of the 2nd Workshop on NLP Challenges in the Information Explosion Era. [S.l.]: Coling 2010 Organizing Committee, 2010: 69-74. |
8 | KRISTIANTO G Y, TOPIĆ G, AIZAWA A. Extracting textual descriptions of mathematical expressions in scientific papers[J]. D-Lib Magazine, 2014, 20(11/12). 10.1109/icdim.2014.6991403 |
9 | PAGEL R, SCHUBOTZ M. Mathematical language processing project [C]// Joint Proceedings of the 2014 MathUI, OpenMath and ThEdu Workshops and Work in Progress track at CICM co-located with the 2014 Conferences on Intelligent Computer Mathematics. Aachen: CEUR-WS.org, 2014: No.23. |
10 | ALEXEEVA M, SHARP R, VALENZUELA-ESCÁRCEGA M A, et al. MathAlign: linking formula identifiers to their contextual natural language descriptions [C]// Proceedings of the 12th International Conference on Language Resources and Evaluation. [S.l.]: European Language Resources Association, 2020: 2204-2212. |
11 | VALENZUELA-ESCÁRCEGA M A, HAHN-POWELL G, SURDEANU M. Odin’s Runes: a rule language for information extraction [C]// Proceedings of the 10th International Conference on Language Resources and Evaluation. [S.l.]: European Language Resources Association, 2016: 322-329. 10.18653/v1/w16-2907 |
12 | SCHUBOTZ M, KRÄMER L, MEUSCHKE N, et al. Evaluating and improving the extraction of mathematical identifier definitions [C]// Proceedings of the 2017 International Conference of the Cross-Language Evaluation Forum for European Languages, LNCS 10456. Cham: Springer, 2017: 82-94. |
13 | YOKOI K, NGHIEM M Q, MATSUBAYASHI Y, et al. Contextual analysis of mathematical expressions for advanced mathematical search[J]. Polibits, 2011(43): 81-86. 10.17562/pb-43-11 |
14 | SCHÖNEBERG U, SPERBER W. POS tagging and its applications for mathematics: text analysis in mathematics [C]// Proceedings of the 2014 International Conference on Intelligent Computer Mathematics, LNCS 8543. Cham: Springer, 2014: 213-223. |
15 | SCHUBOTZ M, GRIGOREV A, LEICH M, et al. Semantification of identifiers in mathematics for better math information retrieval [C]// Proceedings of the 39th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2016: 135-144. 10.1145/2911451.2911503 |
16 | LIN J, WANG X, WANG Z L, et al. Prediction of mathematical expression declarations based on spatial, semantic, and syntactic analysis [C]// Proceedings of the 19th ACM Symposium on Document Engineering. New York: ACM, 2019: No.15. 10.1145/3342558.3345399 |
17 | 高宗升,周梦,李红裔.线性代数[M]. 3版.北京:北京航空航天大学出版社, 2016: 29-156. |
GAO Z S, ZHOU M, LI H Y. Linear Algebra[M]. 3rd ed. Beijing: Beihang University Press, 2016: 29-156. |
[1] | 李强 白少雄 熊源 袁薇. 基于视觉大模型隐私保护的监控图像定位[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[2] | 薛雅丽 徐忠敏 刘世豪. 基于多级小波残差网络的重力数据去噪方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[3] | 况世雄 姚俊波 陆佳炜 王琪冰 肖刚. 基于动态图卷积网络的电梯乘客异常行为数据增强方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[4] | 康斌 陈斌 王俊杰 李昱林 赵军智 咸伟志. 基于多粒度共享语义中心关联的文本到人物检索方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[5] | 张庆 杨凡 方宇涵. 基于多模态信息融合的中文拼写纠错算法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[6] | 王昊 王金伟 程鑫 张家伟 吴昊 罗向阳 马宾. 彩色图像JPEG重压缩取证综述(ChinaMFS 2024+14)[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[7] | 王磊 胡节 彭博. 用于半监督火灾检测的分布自适应和动态课程伪标签框架[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[8] | 刘晋文 王磊 马博 董瑞 杨雅婷 艾合塔木江·艾合麦提 王欣乐. 基于弱监督模态语义增强的多模态有害信息检测方法 [J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[9] | 夏雨禾 王晓东 何启学. 基于频域增强图变分学习的时间序列异常检测[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[10] | 殷兵, 凌震华, 林垠, 奚昌凤, 刘颖. 兼容缺失模态推理的情感识别方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[11] | 王子怡 李卫军 刘雪洋 丁建平 刘世侠 苏易礌. 基于Swin Transformer与多尺度特征融合的图像描述方法#br# [J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[12] | 方鹏, 赵凡, 王保全, 王轶, 蒋同海. 区块链3.0的发展、技术与应用[J]. 《计算机应用》唯一官方网站, 2024, 44(12): 3647-3657. |
[13] | 庞玉东, 李志星, 刘伟杰, 李天昊, 王宁宁. 基于改进实时检测Transformer的塔机上俯视场景小目标检测模型[J]. 《计算机应用》唯一官方网站, 2024, 44(12): 3922-3929. |
[14] | 赵欣, 李鑫杰, 徐健, 刘步云, 毕祥. 基于卷积神经网络与Transformer并行的医学图像配准模型[J]. 《计算机应用》唯一官方网站, 2024, 44(12): 3915-3921. |
[15] | 何长久, 杨婧涵, 周丕宇, 边昕烨, 吕明明, 董迪, 付岩, 王海鹏. 基于Transformer和门控循环单元的肽序列理论串联质谱图预测方法[J]. 《计算机应用》唯一官方网站, 2024, 44(12): 3958-3964. |
阅读次数 | ||||||
全文 |
摘要 |