计算机应用 ›› 2016, Vol. 36 ›› Issue (3): 833-836.DOI: 10.11772/j.issn.1001-9081.2016.03.833
收稿日期:
2015-08-16
修回日期:
2015-10-02
出版日期:
2016-03-10
发布日期:
2016-03-17
通讯作者:
田学东
作者简介:
周南(1991-),男,河北承德人,硕士研究生,主要研究方向:信息检索;田学东(1963-),男,天津人,教授,博士,CCF会员,主要研究方向:模式识别、信息检索。
基金资助:
Received:
2015-08-16
Revised:
2015-10-02
Online:
2016-03-10
Published:
2016-03-17
Supported by:
摘要: 针对数学表达式复杂二维结构特性所导致的普通文本检索技术难以对其进行检索的问题,提出了一种面向数学检索的LaTeX数学表达式解析与索引方法。在充分考虑公式特点的基础上,通过对LaTeX构成特点的分析和归纳,设计了LaTeX数学表达式的解析和检索特征提取算法;以此为基础,构建了一种适应数学表达式特性的双层索引结构,利用所提取数学表达式各层次运算数和运算符信息,分别以Treap数据结构和倒排索引结构构成数学表达式索引,为实现进一步的数学表达式检索匹配打下基础。在浏览器/服务器模式下采用6234条数学教材中的公式作为数据集进行实验,在解析获得的124960个基线层数最高为11层的表达式节点上,建立索引平均耗时为33.8317 s。实验结果表明所提出的LaTeX表达式解析算法和索引结构能够适应数学表达式的特点,有助于实现具有较高效率和准确性的数学表达式检索。
中图分类号:
周南, 田学东. LaTeX数学表达式解析与索引方法[J]. 计算机应用, 2016, 36(3): 833-836.
ZHOU Nan, TIAN Xuedong. Analyzing and indexing method on LaTeX formulae[J]. Journal of Computer Applications, 2016, 36(3): 833-836.
[1] MINER R, MUNAVALLI R. An approach to mathematical search through query formulation and data normalization [M]//KAUERS M, KERBER M, MINER R, et al. Towards Mechanized Mathematical Assistants, LNCS 4573. Berlin: Springer, 2007:342-355. [2] LIBBRECHT P, MELIS E. Semantic search in leactivemath [EB/OL]. [2015-03-12]. http://www.hoplahup.net/copy_left/Libbrecht-etal-Semantic-Search-WebALT-06.pdf. [3] 刘志伟.数学搜索引擎研究[D].兰州:兰州大学,2011:18-22.(LIU Z W. The research on mathematics search [D]. Lanzhou: Lanzhou University, 2011:18-22.) [4] GUO W, SU W, LI L, et al. MQL: a mathematical formula query language for mathematical search [C]//CSE 2011: Proceedings of the 2011 14th International Conference on Computational Science and Engineering. Piscataway, NJ: IEEE, 2011:245-250. [5] 蔡川,苏伟,李廉.Presentation数学公式到Content转换关键问题研究[J].计算机应用与软件,2012,29(8):30-33.(CAI C, SU W, LI L. On key issues of converting presentation mathematics formulas to content [J]. Computer Applications and Software, 2012,29(8):30-33.) [6] LIN X, GAO L, HU X, et al. A mathematics retrieval system for formulae in layout presentations [C]//SIGIR'14: Proceedings of the 37th International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2014:697-706. [7] HU X, GAO L, LIN X, et al. WikiMirs: a mathematical information retrieval system for Wikipedia [C]//JCDL'13: Proceedings of the 13th ACM/IEEE-CS Joint Conference on Digital libraries. New York: ACM, 2013:11-20. [8] TIAN X, YANG S, LI X, et al. An indexing method of mathematical expression retrieval [C]//Proceedings of the 2013 3rd International Conference on Computer Science and Network Technology. Piscataway, NJ: IEEE, 2013:574-578. [9] 俞士汶.计算机语言学概论[M].北京:商务印书馆,2003:121-128.(YU S W. Introduction to computational linguistics [M]. Beijing: The Commercial Press, 2003:121-128.) [10] ZANIBBI R. Recognition of mathematics notation via computer using baseline structure [EB/OL]. [2015-04-02]. http://research.cs.queensu.ca/TechReports/Reports/2000-439.pdf. [11] 刘毅.关于Treap数据结构问题的研究[J].计算机应用与软件,2005,22(8):36-38.(LIU Y. The research about Treap data structure [J]. Computer Applications and Software, 2005,22(8):36-38.) |
[1] | 章悦, 张亮, 谢非, 杨嘉乐, 张瑞, 刘益剑. 基于实例分割模型优化的道路抛洒物检测算法[J]. 《计算机应用》唯一官方网站, 2021, 41(11): 3228-3233. |
[2] | 李凯, 李洁. 基于pinball损失的结构模糊多分类支持向量机算法[J]. 《计算机应用》唯一官方网站, 2021, 41(11): 3104-3112. |
[3] | 胡誉生, 何炳蔚, 邓清康. 混合视觉系统的运动物体检测和静态地图重建[J]. 《计算机应用》唯一官方网站, 2021, 41(11): 3332-3336. |
[4] | 高洁, 朱元, 陆科. 基于雷达和相机融合的目标检测方法[J]. 《计算机应用》唯一官方网站, 2021, 41(11): 3242-3250. |
[5] | 彭博, 罗娅茹, 谢盛华, 尹立雪. 联合深度学习的通用血流向量成像方法[J]. 《计算机应用》唯一官方网站, 2021, 41(11): 3368-3375. |
[6] | 陈吉成, 陈鸿昶. 基于张量建模和进化K均值聚类的社区检测方法[J]. 《计算机应用》唯一官方网站, 2021, 41(11): 3120-3126. |
[7] | 张嘉琪, 张月琴, 陈健. 优化强化学习路径特征分类的脉象识别法[J]. 《计算机应用》唯一官方网站, 2021, 41(11): 3402-3408. |
[8] | 任俊伟, 曾诚, 肖丝雨, 乔金霞, 何鹏. 基于会话的多粒度图神经网络推荐模型[J]. 《计算机应用》唯一官方网站, 2021, 41(11): 3164-3170. |
[9] | 孙琳, 袁玉波. 基于人眼状态的瞌睡识别算法[J]. 《计算机应用》唯一官方网站, 2021, 41(11): 3213-3218. |
[10] | 葛晨宇, 董良, 许伊昆, 常毅, 张宏鸣. 基于总变分低秩组稀疏的全球雷达数据修复算法[J]. 《计算机应用》唯一官方网站, 2021, 41(11): 3353-3361. |
[11] | 闫钧华, 侯平, 张寅, 吕向阳, 马越, 王高飞. 基于多尺度多分类器卷积神经网络的混合失真类型判定方法[J]. 《计算机应用》唯一官方网站, 2021, 41(11): 3178-3184. |
[12] | 李福海, 蒋慕蓉, 杨磊, 谌俊毅. 基于生成对抗网络的梯度引导太阳斑点图像去模糊方法[J]. 《计算机应用》唯一官方网站, 2021, 41(11): 3345-3352. |
[13] | 曹建芳, 闫敏敏, 贾一鸣, 田晓东. 融合迁移学习的Inception-v3模型在古壁画朝代识别中的应用[J]. 《计算机应用》唯一官方网站, 2021, 41(11): 3219-3227. |
[14] | 刘太亨, 何昭水. 基于自编码和知识蒸馏的表面缺陷检测方法[J]. 《计算机应用》唯一官方网站, 2021, 41(11): 3200-3205. |
[15] | 张阳, 王小宁. 基于Word2Vec词嵌入和高维生物基因选择遗传算法的文本特征选择方法[J]. 《计算机应用》唯一官方网站, 2021, 41(11): 3151-3155. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||