基于自动机理论的PDF文本内容抽取

doi:10.3724/SP.J.1087.2012.02491

计算机应用 ›› 2012, Vol. 32 ›› Issue (09): 2491-2495.DOI: 10.3724/SP.J.1087.2012.02491

基于自动机理论的PDF文本内容抽取

王晓娟^1,2*,谭建龙²,刘燕兵^2,3,刘金刚^1,2

1.首都师范大学计算机科学联合研究院,北京 100037;
2.中国科学院计算技术研究所,北京 100190;
3.中国科学院研究生院,北京 100049

收稿日期:2012-02-21 修回日期:2012-04-25 发布日期:2012-09-01 出版日期:2012-09-01
通讯作者: 王晓娟
作者简介:王晓娟(1985-),女,内蒙古赤峰人,硕士研究生,主要研究方向:信息内容安全、模式串匹配; 谭建龙(1974-),男,湖南长沙人,研究员,博士,主要研究方向:自然语言处理、网络安全、模式匹配; 刘燕兵(1981-),男,湖北麻城人,助理研究员,博士研究生,主要研究方向:信息内容安全、模式串匹配算法; 刘金刚(1963-),男,辽宁铁岭人,教授,博士,主要研究方向:操作系统、智能接口。
基金资助:
国家自然科学基金资助项目(61070026);国家863计划项目(2011AA010705)

Extraction of text content from PDF documents based on automaton theory

WANG Xiao-juan^1,2*,TAN Jian-long²,LIU Yan-bing^2,3,LIU Jin-gang^1,2

1.Joint Faculty of Computer Scientific Research,Capital Normal University,Beijing 100037,China;
2.Institute of Computer Technology,Chinese Academy of Sciences,Beijing 100190,China;
3.Graduate University of Chinese Academy of Sciences,Beijing 100049,China

Received:2012-02-21 Revised:2012-04-25 Online:2012-09-01 Published:2012-09-01

摘要/Abstract

摘要： 现有的从PDF文档抽取文本内容的方法(如PDFBox类库采用的方法)处理速度较低,无法满足高速网络中内容分析的需求,也不能对网络中部分到达的PDF数据包进行流式的处理。为此,提出了基于自动机理论的PDF文本内容抽取方法。该方法通过建立具有层次的关键字自动机,可以快速地抽取完整PDF文档和不完整PDF文档中的文本内容。在中文和英文PDF文档数据集下的实验结果表明,基于自动机理论的PDF文本内容抽取方法耗时仅为PDFBox方法的17%~37%。

关键词: 文本内容抽取, 自动机, 确定的有穷自动机, 不完整文档

Abstract: The existing methods of extracting text content from a PDF file, such as the one adopted by the PDFBox library, are not efficient enough to handle the high-speed network traffic. Moreover, these methods cannot extract the contents streamingly from partial PDF packets in transfer. This paper proposed a new method based on automaton theory. The method adopted a hierarchical keyword Deterministic Finite Automaton (DFA) to extract information from complete or incomplete PDF files. The experimental results show that the response time of the proposed method is about 17% - 37% of the algorithm used by PDFBox when processing PDF files in Chinese or English.

Key words: text content extraction, automaton, Deterministic Finite Automation (DFA), incomplete document

中图分类号:

TP311.52

王晓娟谭建龙刘燕兵刘金刚. 基于自动机理论的PDF文本内容抽取[J]. 计算机应用, 2012, 32(09): 2491-2495.

WANG Xiao-juan TAN Jian-long LIU Yan-bing LIU Jin-gang. Extraction of text content from PDF documents based on automaton theory[J]. Journal of Computer Applications, 2012, 32(09): 2491-2495.

参考文献

[1]Adobe Systems Incorporated.PDF reference:sixth edition[EB/OL].[2010-10-23].http://www.adobe.com/content/dam/Adobe/en/devnet/acrobat/pdfs/pdf_reference_1-7.pdf.
[2]杨道良.面向对象的中文PDF阅读器的设计与实现[J].计算机应用,1999,19(6):1-4.
[3]李强,刘时进.PDF阅读器的设计与实现[J].计算机工程与设计,2010,31(7):1635-1638.
[4]李贵林,李建中,杨艳.Plug-in实现对PDF文件的信息提取[J].计算机应用,2003,23(2):110-112.
[5]李珍,田学东.PDF文件信息的抽取与分析[J].计算机应用,2003,23(12):145-147.
[6]张秀秀,张立峰.PDF文件文本内容提取研究[J].科技情报开发与经济,2008,18(36):118-120.
[7]WILLIAM S L,DAVID F B.Document analysis of PDF files:methods,results and implications[J].Electronic Publishing Origination Dissemination and Design,1995,8(2/3):207-220.
[8]YUAN FANG,LIU BO,YU GE.A study on information extraction from PDF files[C]// ICMLC 2005:Proceedings of the 4th International Conference Advances in Machine Learning and Cybernetics,LNCS 3930.Berlin:Springer-Verlag,2005:258-267.
[9]CHAO HUI,FAN JIAN.Layout and content extraction for PDF documents[C]// DAS 2004:Proceedings of Document Analysis Systems,LNCS 3108.Berlin:Springer-Verlag,2004:213-224.
[10]TAMIR H,ROBERT B.Intelligent text extraction from PDF documents[C]// CIMCA/IAWTIC 2005:Proceedings of the 2005 International Conference on Computational Intelligence for Modelling,Control and Automation,and International Conference on Intelligent Agents,Web Technologies and Internet Commerce.Washington,DC:IEEE Computer Society,2005:2-6.
[11]宋艳娟,张文德.基于XML的PDF文档信息抽取系统的研究[J].现代图书情报技术,2005,21(9):10-13.
[12]陈俊林,张文德.基于XSLT的PDF论文元数据的优化抽取[J].现代图书情报技术,2007,23(2):18-23.
[13]宋艳娟,李金铭,陈振标.基于XSLT的PDF信息抽取技术的研究[J].计算机与数字工程,2008,36(5):156-159.
[14]GONZALO N,MATHIEU R.Flexible pattern matching in strings:practical on-line search algorithms for texts and biological sequences[M].Cambridge:Cambridge University Press,2002:49-54.

[1]	刘然, 刘宇, 顾进广. 基于自适应学习率优化的AdaNet改进[J]. 计算机应用, 2020, 40(10): 2804-2810.
[2]	韩德帅, 邢建春, 杨启亮, 李决龙. 自适应软件动态过程时间特性建模与验证方法[J]. 计算机应用, 2018, 38(3): 799-805.
[3]	王莎莎, 冯子亮, 傅可人. 基于图节点中心性和空间自相关的显著性检测方法[J]. 计算机应用, 2018, 38(12): 3547-3556.
[4]	贾尚坤, 贺飞. 基于证据自动机的软件回归验证[J]. 计算机应用, 2018, 38(10): 2990-2995.
[5]	梁铭富, 房少梅, 黄中展, 蔡钦镒. 基于突发事件影响力传播的双向人流疏散仿真[J]. 计算机应用, 2017, 37(5): 1496-1502.
[6]	麦涛涛, 潘晓中, 王亚奇, 苏阳. 基于预定义类的紧凑型正则表达式匹配算法[J]. 计算机应用, 2017, 37(2): 397-401.
[7]	李雪, 朱嘉钢. 接口自动机的良构性检测算法及其实现[J]. 计算机应用, 2017, 37(2): 574-580.
[8]	曹帅, 王布宏, 李龙军, 刘帅琦. 基于随机无穷自动机的多功能雷达辐射源识别方法[J]. 计算机应用, 2017, 37(2): 608-612.
[9]	俞艺涵, 付钰, 吴晓平. 基于改进正则表达式规则分组的内网行为审计方案[J]. 计算机应用, 2016, 36(8): 2241-2245.
[10]	薛岗, 张云春, 刘笛, 姚绍文. 面向嵌套式系统结构的端口自动机行为表达方法[J]. 计算机应用, 2016, 36(7): 2016-2020.
[11]	连培昆, 李振龙, 荣建, 陈宁. 基于VISSIM微观交通仿真软件的导流岛机非冲突元胞自动机模型[J]. 计算机应用, 2016, 36(6): 1745-1750.
[12]	卓艳男, 刘强, 姜磊, 戴琼. 基于FPGA改进电路的高性能正则表达式匹配算法[J]. 计算机应用, 2016, 36(4): 927-930.
[13]	于群, 张敏, 曹娜, 贺庆, 石良. 基于模糊元胞自动机的电网故障演化模型[J]. 计算机应用, 2015, 35(9): 2682-2686.
[14]	陈劲源李建华郭卫斌. 改进的硅各向异性腐蚀GPU并行模拟[J]. 计算机应用, 2013, 33(12): 3317-3320.
[15]	范畅茹鹏. 非线性一次一密(t,n)门限秘密共享方案[J]. 计算机应用, 2013, 33(09): 2536-2539.

基于自动机理论的PDF文本内容抽取

Extraction of text content from PDF documents based on automaton theory

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics