基于关联特征词表的中文比较句识别

doi:10.3724/SP.J.1087.2013.01591

计算机应用 ›› 2013, Vol. 33 ›› Issue (06): 1591-1594.DOI: 10.3724/SP.J.1087.2013.01591

基于关联特征词表的中文比较句识别

杜文韬¹,²,刘培玉¹,²,费绍栋²,³,张朕¹,²

1. 山东省分布式计算机软件新技术重点实验室，济南 250014
2. 山东师范大学信息科学与工程学院，济南 250014
3. 山东财经大学图书馆，济南 250014

收稿日期:2012-12-28 修回日期:2013-02-11 发布日期:2013-06-05 出版日期:2013-06-01
通讯作者: 杜文韬
作者简介:杜文韬(1987-)，男，山东威海人，硕士研究生，CCF会员，主要研究方向：网络信息安全、网络舆情分析；刘培玉(1960-),男，山东潍坊人，教授，博士生导师，主要研究方向：计算机网络信息安全、网络系统规划、软件开发；费绍栋(1984-)，男，浙江宁波人，博士研究生，主要研究方向：计算机网络信息安全、网络舆情分析、社会网络；张朕(1988-)，男，山东烟台人，硕士研究生，主要研究方向：网络信息安全、网络舆情分析。
基金资助:
国家自然科学基金资助项目(60872092);国家社会科学基金资助项目(12BXW040);公安部科技创新计划项目(2011YYCXSDST057);山东省自然科学基金资助项目（ZR2010FM012）;山东省自然科学基金资助项目( ZR2011FM030);山东省科技发展计划项目(2012GGB01194)

Chinese comparative sentences recognition based on associated feature vocabulary

DU Wentao¹,²,LIU Peiyu¹,²,FEI Shaodong¹,³,ZHANG Zhen¹,²

1. School of Information Science and Engineering, Shandong Normal University, Jinan Shandong 250014, China
2. Shandong Provincial Key Laboratory for Normal Distributed Computer Software Technology, Jinan Shandong 250014，China
3. Library,Shandong University of Finance and Economics,Jinan Shandong 250014,China

Received:2012-12-28 Revised:2013-02-11 Online:2013-06-05 Published:2013-06-01
Contact: DU Wentao

摘要/Abstract

摘要： 中文比较句研究多集中于语言学领域，然而利用机器学习的方法识别比较句的研究才刚刚起步。根据关联规则挖掘算法的基本原理提出一种基于关联特征词表的比较句识别方法，该方法将词和词性作为一个基本元素，定义特征词表中核心词和依存词之间的关联方式，利用支持向量机(SVM)分类器进行比较句的识别。实验结果表明，该方法能够有效地识别出中文比较句，在准确率、召回率和F值上均取得不错的效果。

关键词: 比较句识别, 文本分类, 中文比较模式库, 类序列规则, 关联特征词表

Abstract: Chinese comparative sentences are more focused in the field of linguistics. Using machine learning methods to identify comparative sentences, however, has only just started. According to the basic principle of the association rules mining algorithm, a method of comparative sentences based on the associated feature vocabulary was proposed. This method regarded word and part of speech as basic elements, defined the connecting way between the table definition core words and interdependent relationship words, and used the Support Vector Machine (SVM) classifier for the identification of comparative sentences. The experimental results show that this method can effectively identify Chinese comparative sentences, and achieves good results in precision, recall and F-measure.

Key words: comparative sentences identification, text classification, Chinese comparative pattern database, class sequential rule, associated feature vocabulary

中图分类号:

TP391

杜文韬刘培玉费绍栋张朕. 基于关联特征词表的中文比较句识别[J]. 计算机应用, 2013, 33(06): 1591-1594.

DU Wentao LIU Peiyu FEI Shaodong ZHANG Zhen. Chinese comparative sentences recognition based on associated feature vocabulary[J]. Journal of Computer Applications, 2013, 33(06): 1591-1594.

参考文献

［1］刘焱.现代汉语比较范畴的语义认知基础［M］.上海:学林出版社,2004.

［2］车竞.现代汉语比较句论略［J］.湖北师范学院学报,2005, 25(3): 60-63.

［3］尚平.比较句系统研究综述［J］.语言文字应用,2006(S2):77-80.

［4］庞倩.略论现代汉语比较句之结构和功能特点［J］.北方文学,2012(2):97-98.

［5］JINDAL B, LIU B. Identifying comparative sentences in text documents［C］// Proceedings of the 29th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval. New York: ACM, 2006: 244-251.

［6］JINDAL N, LIU B. Mining comparative sentences and relations［C］// Proceedings of the 21st National Conference on Artificial Intelligence. Menlo Park, CA: AAAI Press, 2006:1331-1336.

［7］黄小江,万小军,杨建武.汉语比较句识别研究［J］. 中文信息学报, 2008, 22(5): 30-37.

［8］YANG S, KO Y J. Extracting comparative sentences from Korean text documents using comparative lexical patterns and machine learning techniques［C］// Proceedings of the ACL-IJCNLP 2009 Conference Short Papers. Stroudsburg, PA: Association for Computational Linguistics, 2009:153-156.

［9］宋锐,林鸿飞,常富洋.中文比较句识别及比较关系抽取［J］.中文信息学报,2009,23(2):102-107.

［10］黄高辉,姚天昉,刘全升.基于CRF算法的汉语比较句识别和关系抽取［J］.计算机应用研究,2010, 27(6): 2061-2064.

［11］李建军.比较句与比较关系识别研究及其应用［D］.重庆:重庆大学,2011.

［12］夏群.汉语比较句研究综述［J］.汉语学习,2009(2):58-64.

［13］马建忠. 马氏文通[M]. 上海: 商务印书馆, 1898.

［14］AGRAWAL R, IMIELINSKI T, SWAMI A. Mining association rules between sets of items in large databases ［C］// Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data. New York: ACM, 1993:207-216.
［15］武建华,宋擒豹,沈均毅,等.基于关联规则的特征选择算法［J］.模式识别与人工智能,2009,22(2):256-262.

［16］张磊,夏士雄.基于语义相关性的关联规则挖掘研究［J］.东南大学学报,2008,24(3):358-360.

[1]	余新言, 曾诚, 王乾, 何鹏, 丁晓玉. 基于知识增强和提示学习的小样本新闻主题分类方法[J]. 《计算机应用》唯一官方网站, 2024, 44(6): 1767-1774.
[2]	姚迅, 秦忠正, 杨捷. 生成式标签对抗的文本分类模型[J]. 《计算机应用》唯一官方网站, 2024, 44(6): 1781-1785.
[3]	余杭, 周艳玲, 翟梦鑫, 刘涵. 基于预训练模型与标签融合的文本分类[J]. 《计算机应用》唯一官方网站, 2024, 44(3): 709-714.
[4]	王楷天, 叶青, 程春雷. 基于异构图表示的中医电子病历分类方法[J]. 《计算机应用》唯一官方网站, 2024, 44(2): 411-417.
[5]	张家伟, 高冠东, 肖珂, 宋胜尊. 基于改进分层注意网络和TextCNN联合建模的暴力犯罪分级算法[J]. 《计算机应用》唯一官方网站, 2024, 44(2): 403-410.
[6]	于碧辉, 蔡兴业, 魏靖烜. 基于提示学习的小样本文本分类方法[J]. 《计算机应用》唯一官方网站, 2023, 43(9): 2735-2740.
[7]	崔雨萌, 王靖亚, 刘晓文, 闫尚义, 陶知众. 融合注意力和裁剪机制的通用文本分类模型[J]. 《计算机应用》唯一官方网站, 2023, 43(8): 2396-2405.
[8]	杨森淇, 段旭良, 肖展, 郎松松, 李志勇. 基于ERNIE+DPCNN+BiGRU的农业新闻文本分类[J]. 《计算机应用》唯一官方网站, 2023, 43(5): 1461-1466.
[9]	张旭, 生龙, 张海芳, 田丰, 王巍. 基于标签混淆的院前急救文本分类模型[J]. 《计算机应用》唯一官方网站, 2023, 43(4): 1050-1055.
[10]	林呈宇, 王雷, 薛聪. 标签语义增强的弱监督文本分类模型[J]. 《计算机应用》唯一官方网站, 2023, 43(2): 335-342.
[11]	江静, 陈渝, 孙界平, 琚生根. 融合后验概率校准训练的文本分类算法[J]. 《计算机应用》唯一官方网站, 2022, 42(6): 1789-1795.
[12]	杨先凤, 赵家和, 李自强. 融合字注释的文本分类模型[J]. 《计算机应用》唯一官方网站, 2022, 42(5): 1317-1323.
[13]	杨世刚, 刘勇国. 融合语料库特征与图注意力网络的短文本分类方法[J]. 《计算机应用》唯一官方网站, 2022, 42(5): 1324-1329.
[14]	张海丰, 曾诚, 潘列, 郝儒松, 温超东, 何鹏. 结合BERT和特征投影网络的新闻主题文本分类方法[J]. 《计算机应用》唯一官方网站, 2022, 42(4): 1116-1124.
[15]	唐望径, 许斌, 仝美涵, 韩美奂, 王黎明, 钟琦. 知识图谱增强的科普文本分类模型[J]. 《计算机应用》唯一官方网站, 2022, 42(4): 1072-1078.

基于关联特征词表的中文比较句识别

Chinese comparative sentences recognition based on associated feature vocabulary

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics