计算机应用 ›› 2014, Vol. 34 ›› Issue (9): 2639-2644.DOI: 10.11772/j.issn.1001-9081.2014.09.2639
苏赢彬1,2,杜学绘1,2,夏春涛1,2,李海华3
收稿日期:
2014-04-09
修回日期:
2014-05-28
发布日期:
2014-09-30
出版日期:
2014-09-01
通讯作者:
苏赢彬
作者简介:
基金资助:
国家863计划项目
SU Yingbin1,2,DU Xuehui1,2,XIA Chuntao1,2,LI Haihua3
Received:
2014-04-09
Revised:
2014-05-28
Online:
2014-09-30
Published:
2014-09-01
Contact:
SU Yingbin
摘要:
由于办公终端可能出现敏感信息泄露的风险,对终端上的文档进行敏感信息检测就显得十分重要,但现有敏感信息检测方法中存在上下文信息无关的索引导致文档建模不准确、查询语义扩展不充分的问题。为此,首先提出基于上下文的文档索引平滑算法,构建尽可能保留文档信息的索引;然后改进查询语义扩展算法,结合领域本体中概念敏感度适当扩大敏感信息检测范围;最后将文档平滑和查询扩展融合于语言模型,在其基础上提出了文档敏感信息检测方法。将采用不同索引机制、查询关键字扩展算法及检测模型的四种方法进行比较,所提出的算法在文档敏感信息检测中的查全率、准确率和F值分别为0.798,0.786和0.792,各项性能指标均明显优于对比算法。结果表明该算法是一种能更有效检测敏感信息的方法。
中图分类号:
苏赢彬 杜学绘 夏春涛 李海华. 基于文档平滑和查询扩展的文档敏感信息检测方法[J]. 计算机应用, 2014, 34(9): 2639-2644.
SU Yingbin DU Xuehui XIA Chuntao LI Haihua. Sensitive information detection approach for documents based on document smoothing and query expansion[J]. Journal of Computer Applications, 2014, 34(9): 2639-2644.
[1]LI W, SUN L, NUO M, et al.Sensitive information filtering based on kernel method[J]. Journal on Communications, 2008, 29(4): 57-62. (李文波,孙乐,诺明花,等.基于核方法的敏感信息过滤的研究[J].通信学报,2008, 29(4):57-62.)
[2]YU S. Design and implementation of sensitive military information search system [D]. Chengdu: University of Electronic Science and Technology of China, 2012. (喻世玺. 军事敏感信息搜索系统的设计与实现[D].成都:电子科技大学, 2012.)
[3]TAO T, ZHAI C. Regularized estimation of mixture models for robust pseudo-relevance feedback [C]// Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2006: 162-169.
[4]CHEN H, DU X, XIA C, et al.Query expansion model based on interest ontology [C]// ICIII 2012: Proceedings of the 2012 International Conference on Information Management, Innovation Management and Industrial Engineering. Piscataway: IEEE, 2012, 3: 474-478.
[5]CHAUHAN R, GOUDAR R, SHARMA R, et al.Domain ontology based semantic search for efficient information retrieval through automatic query expansion [C]// ISSP 2013: Proceedings of the 2013 International Conference on Intelligent Systems and Signal Processing. Piscataway: IEEE, 2013: 397-402.
[6]GOYAL P, BEHERA L, MCGINNITY T M. A novel neighborhood based document smoothing model for information retrieval [J]. Information Retrieval, 2013, 16(3): 391-425.
[7]DAMANI O P. Improving Pointwise Mutual Information (PMI) by incorporating significant co-occurrence [EB/OL]. [2014-03-01]. http://arxiv.org/pdf/1307.0596v1.pdf.
〖BP(〗【arXiv preprint arXiv:1307.0596, 2013.〖BP)〗
[8]LIANG S. VSM information retrieval data sparseness problem analysis and avoidance strategies [J]. Library and Information Service, 2013, 57(1): 142-146. (梁士金. VSM 信息检索中的数据稀疏问题分析与规避策略[J].图书情报工作, 2013, 57(1): 142-146.)
〖HJ1.85mm〗[9]BAI J, NIE J Y, CAO G, et al.Using query contexts in information retrieval [C]// Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2007: 15-22.
[10]YAN C, GAO K, LI M. Processing natural language based query and context sensitive spelling suggestion in information retrieval [C]// ICMIC 2013: Proceedings of the 2013 International Conference on Modeling, Identification & Control. Piscataway: IEEE, 2013: 269-274.
[11]LI W, ZHAO T, WANG X. Context-sensitive query expansion [J]. Journal of Computer Research and Development, 2010 (2): 300-304. (李卫疆, 赵铁军, 王宪刚. 基于上下文的查询扩展[J]. 计算机研究与发展, 2010 (2): 300-304.)
[12]GOYAL P, BEHERA L, MCGINNITY T M. A Context-based word indexing model for document summarization [J]. IEEE Transactions on Knowledge and Data Engineering, 2013, 25(8): 1693-1705.
[13]PONTE J M, CROFT W B. A language modeling approach to information retrieval [C]// Proceedings of the 21st Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 1998: 275-281.
[14]ZHAI C, LAFFERTY J. A study of smoothing methods for language models applied to information retrieval [J]. ACM Transactions on Information Systems, 2004, 22(2): 179-214. |
[1] | 宗学军 韩冰 王国刚 宁博伟 何戡 连莲. TDRFuzzer:基于自适应动态区间策略的工业控制协议模糊测试方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[2] | 张明, 付乐, 王海峰. 面向边缘计算的并发数据流接转控制模型[J]. 《计算机应用》唯一官方网站, 2024, 44(12): 3876-3883. |
[3] | 郑智强 王锐棋 范子静 何发镁 姚叶鹏 汪秋云 姜政伟. DNS隧道检测技术研究综述[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[4] | 张立孝 马垚 杨玉丽 于丹 陈永乐. 基于命名实体识别的大规模物联网二进制组件识别[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[5] | 刘羿希, 何俊, 吴波, 刘丙童, 李子玉. DevSecOps中软件安全性测试技术综述[J]. 《计算机应用》唯一官方网站, 2024, 44(11): 3470-3478. |
[6] | 庞川林, 唐睿, 张睿智, 刘川, 刘佳, 岳士博. D2D通信系统中基于图卷积网络的分布式功率控制算法[J]. 《计算机应用》唯一官方网站, 2024, 44(9): 2855-2862. |
[7] | 方介泼, 陶重犇. 应对零日攻击的混合车联网入侵检测系统[J]. 《计算机应用》唯一官方网站, 2024, 44(9): 2763-2769. |
[8] | 张一鸣 曹腾飞. 基于本地漂移和多样性算力的联邦学习优化算法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[9] | 徐航, 杨智, 陈性元, 韩冰, 杜学绘. 基于自适应敏感区域变异的覆盖引导模糊测试[J]. 《计算机应用》唯一官方网站, 2024, 44(8): 2528-2535. |
[10] | 陈虹, 齐兵, 金海波, 武聪, 张立昂. 融合1D-CNN与BiGRU的类不平衡流量异常检测[J]. 《计算机应用》唯一官方网站, 2024, 44(8): 2493-2499. |
[11] | 耿海军 董赟 胡治国 池浩田 杨静 尹霞. 基于Attention-1DCNN-CE的加密流量分类方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[12] | 邓淼磊 阚雨培 孙川川 徐海航 樊少珺 周鑫. 基于深度学习的网络入侵检测系统综述[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[13] | 陈瑞龙 胡涛 卜佑军 伊鹏 胡先君 乔伟. 面向加密恶意流量检测模型的堆叠集成对抗防御方法[J]. 《计算机应用》唯一官方网站, 0, (): 0-0. |
[14] | 吴中岱, 韩德志, 蒋海豹, 冯程, 韩冰, 陈重庆. 海洋船舶通信网络安全综述[J]. 《计算机应用》唯一官方网站, 2024, 44(7): 2123-2136. |
[15] | 姚梓豪, 栗远明, 马自强, 李扬, 魏良根. 基于机器学习的多目标缓存侧信道攻击检测模型[J]. 《计算机应用》唯一官方网站, 2024, 44(6): 1862-1871. |
阅读次数 | ||||||
全文 |
|
|||||
摘要 |
|
|||||