计算机应用 ›› 2016, Vol. 36 ›› Issue (3): 833-836.DOI: 10.11772/j.issn.1001-9081.2016.03.833
周南, 田学东
收稿日期:
2015-08-16
修回日期:
2015-10-02
发布日期:
2016-03-17
出版日期:
2016-03-10
通讯作者:
田学东
作者简介:
周南(1991-),男,河北承德人,硕士研究生,主要研究方向:信息检索;田学东(1963-),男,天津人,教授,博士,CCF会员,主要研究方向:模式识别、信息检索。
基金资助:
Received:
2015-08-16
Revised:
2015-10-02
Online:
2016-03-17
Published:
2016-03-10
Supported by:
摘要: 针对数学表达式复杂二维结构特性所导致的普通文本检索技术难以对其进行检索的问题,提出了一种面向数学检索的LaTeX数学表达式解析与索引方法。在充分考虑公式特点的基础上,通过对LaTeX构成特点的分析和归纳,设计了LaTeX数学表达式的解析和检索特征提取算法;以此为基础,构建了一种适应数学表达式特性的双层索引结构,利用所提取数学表达式各层次运算数和运算符信息,分别以Treap数据结构和倒排索引结构构成数学表达式索引,为实现进一步的数学表达式检索匹配打下基础。在浏览器/服务器模式下采用6234条数学教材中的公式作为数据集进行实验,在解析获得的124960个基线层数最高为11层的表达式节点上,建立索引平均耗时为33.8317 s。实验结果表明所提出的LaTeX表达式解析算法和索引结构能够适应数学表达式的特点,有助于实现具有较高效率和准确性的数学表达式检索。
中图分类号:
周南, 田学东. LaTeX数学表达式解析与索引方法[J]. 计算机应用, 2016, 36(3): 833-836.
ZHOU Nan, TIAN Xuedong. Analyzing and indexing method on LaTeX formulae[J]. Journal of Computer Applications, 2016, 36(3): 833-836.
[1] MINER R, MUNAVALLI R. An approach to mathematical search through query formulation and data normalization [M]//KAUERS M, KERBER M, MINER R, et al. Towards Mechanized Mathematical Assistants, LNCS 4573. Berlin: Springer, 2007:342-355. [2] LIBBRECHT P, MELIS E. Semantic search in leactivemath [EB/OL]. [2015-03-12]. http://www.hoplahup.net/copy_left/Libbrecht-etal-Semantic-Search-WebALT-06.pdf. [3] 刘志伟.数学搜索引擎研究[D].兰州:兰州大学,2011:18-22.(LIU Z W. The research on mathematics search [D]. Lanzhou: Lanzhou University, 2011:18-22.) [4] GUO W, SU W, LI L, et al. MQL: a mathematical formula query language for mathematical search [C]//CSE 2011: Proceedings of the 2011 14th International Conference on Computational Science and Engineering. Piscataway, NJ: IEEE, 2011:245-250. [5] 蔡川,苏伟,李廉.Presentation数学公式到Content转换关键问题研究[J].计算机应用与软件,2012,29(8):30-33.(CAI C, SU W, LI L. On key issues of converting presentation mathematics formulas to content [J]. Computer Applications and Software, 2012,29(8):30-33.) [6] LIN X, GAO L, HU X, et al. A mathematics retrieval system for formulae in layout presentations [C]//SIGIR'14: Proceedings of the 37th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2014:697-706. [7] HU X, GAO L, LIN X, et al. WikiMirs: a mathematical information retrieval system for Wikipedia [C]//JCDL'13: Proceedings of the 13th ACM/IEEE-CS Joint Conference on Digital libraries. New York: ACM, 2013:11-20. [8] TIAN X, YANG S, LI X, et al. An indexing method of mathematical expression retrieval [C]//Proceedings of the 2013 3rd International Conference on Computer Science and Network Technology. Piscataway, NJ: IEEE, 2013:574-578. [9] 俞士汶.计算机语言学概论[M].北京:商务印书馆,2003:121-128.(YU S W. Introduction to computational linguistics [M]. Beijing: The Commercial Press, 2003:121-128.) [10] ZANIBBI R. Recognition of mathematics notation via computer using baseline structure [EB/OL]. [2015-04-02]. http://research.cs.queensu.ca/TechReports/Reports/2000-439.pdf. [11] 刘毅.关于Treap数据结构问题的研究[J].计算机应用与软件,2005,22(8):36-38.(LIU Y. The research about Treap data structure [J]. Computer Applications and Software, 2005,22(8):36-38.) |
[1] | 杨建锋 陈斌 李雨轩. 基于点云重构的自监督点云异常检测方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[2] | 薛振华 李强 黄超. 视觉大模型驱动的像素级图像异常检测模型[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[3] | 边小勇 胡其仁 袁培洋. 多注意力对比学习的红外小目标检测[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[4] | 李钟华 钟庚辛 范萍 朱恒亮. 通过边界挖掘和背景引导的伪装目标检测[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[5] | 吴松霖 张广朝 姚远 彭博. 基于判别区域引导的多视图困难气道识别[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[6] | 李强 白少雄 熊源 袁薇. 基于视觉大模型隐私保护的监控图像定位[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[7] | 薛雅丽 徐忠敏 刘世豪. 基于多级小波残差网络的重力数据去噪方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[8] | 况世雄 姚俊波 陆佳炜 王琪冰 肖刚. 基于动态图卷积网络的电梯乘客异常行为数据增强方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[9] | 康斌 陈斌 王俊杰 李昱林 赵军智 咸伟志. 基于多粒度共享语义中心关联的文本到人物检索方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[10] | 张庆 杨凡 方宇涵. 基于多模态信息融合的中文拼写纠错算法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[11] | 王昊 王金伟 程鑫 张家伟 吴昊 罗向阳 马宾. 彩色图像JPEG重压缩取证综述(ChinaMFS 2024+14)[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[12] | 王磊 胡节 彭博. 用于半监督火灾检测的分布自适应和动态课程伪标签框架[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[13] | 刘晋文 王磊 马博 董瑞 杨雅婷 艾合塔木江·艾合麦提 王欣乐. 基于弱监督模态语义增强的多模态有害信息检测方法 [J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[14] | 夏雨禾 王晓东 何启学. 基于频域增强图变分学习的时间序列异常检测[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[15] | 殷兵, 凌震华, 林垠, 奚昌凤, 刘颖. 兼容缺失模态推理的情感识别方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||