基于短语的维吾尔文文本分类

doi:10.3724/SP.J.1087.2012.02923

计算机应用 ›› 2012, Vol. 32 ›› Issue (10): 2923-2926.DOI: 10.3724/SP.J.1087.2012.02923

基于短语的维吾尔文文本分类

阿力木江·艾沙¹,²,吐尔根·依布拉音²,库尔班·吾布力²,李哲¹

1. 新疆大学现代教育技术中心,乌鲁木齐 830046
2. 新疆大学信息科学与工程学院,乌鲁木齐 830046

收稿日期:2012-05-02 修回日期:2012-06-08 发布日期:2012-10-23 出版日期:2012-10-01
通讯作者: 阿力木江·艾沙
作者简介:阿力木江·艾沙（1973-）,男（维吾尔族）,新疆喀什人,副教授,博士研究生,主要研究方向：自然语言处理、信息安全；吐尔根·依布拉音（1958-）,男（维吾尔族）,新疆乌鲁木齐人,教授,博士生导师,主要研究方向：信息处理技术、人工智能；库尔班·吾布力(1974-),男（维吾尔族）,新疆喀什人,副教授,主要研究方向：模式识别；李哲(1977-),女,新疆乌鲁木齐人,讲师,主要研究方向：软件工程。
基金资助:
国家自然科学基金资助项目;国家自然科学基金资助项目

Phrase based Uyghur language text categorization

ALIMJAN Aysa¹,²,TURGUN Ibrahim²,KURBAN Obul²,LI Zhe¹

1. Modern Education Technology Center, Xinjiang University, Urumqi Xinjiang 830046, China
2. School of Information Science and Engineering, Xinjiang University, Urumqi Xinjiang 830046,China

Received:2012-05-02 Revised:2012-06-08 Online:2012-10-23 Published:2012-10-01
Contact: ALIMJAN Aysa

摘要/Abstract

摘要： 文本特征表示是在文本自动分类中最重要的一个环节。在基于向量空间模型（VSM）的文本表示中特征单元粒度的选择直接影响到文本分类的效果。对于基于词袋模型（BOW）的维吾尔文文本分类效果不理想的问题,提出了一种基于统计方法的维吾尔语短语抽取算法并将抽取到的短语作为文本特征项,采用支持向量机（SVM）算法对维吾尔文文本进行了分类实验。实验结果表明,与以词为特征的文本分类相比,短语作为文本特征能够提高维吾尔文文本分类的准确率和召回率。

关键词: 文本分类, 短语抽取, 支持向量机, 维吾尔语, 互信息

Abstract: Text representation is the most important phase in automatic text categorization. In the Vector Space Model (VSM) based text representation, the selection of feature granularity has the direct impact on the text categorization performance. The statistical approach based Uyghur phrase extraction algorithm was proposed and the Uyghur text categorization experiments was conducted using Support Vector Machine (SVM) algorithm based on the extracted phrases as text features. The experimental results show that the phrase based Uyghur text categorization achieves higher classification precision and recall compared to the word based categorization.

Key words: text categorization, phrase extraction, Support Vector Machine (SVM), Uyghur language, Mutual Information (MI)

阿力木江·艾沙吐尔根·依布拉音库尔班·吾布力李哲. 基于短语的维吾尔文文本分类[J]. 计算机应用, 2012, 32(10): 2923-2926.

ALIMJAN Aysa TURGUN Ibrahim KURBAN Obul LI Zhe. Phrase based Uyghur language text categorization[J]. Journal of Computer Applications, 2012, 32(10): 2923-2926.

参考文献

［1］苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展［J］.软件学报,2006, 17(9):1848-1859. ［2］刘华.基于关键短语的文本分类研究［J］.中文信息学报,2007,21(4):34-41. ［3］ CAROPRESO M F, MATWIN S, SEBASTIANI F. Statistical phrases in automated text categorization,Statistical Phrases in Automated Text Categorization ［R］. Paris: Centre National de la Recherche Scientifique,2000:78-102. ［4］ KOSTER C, BENEY J. Phrase-based document categorization revisited［C］// PaIR09: Proceedings of the 2nd International Workshop on Patent Information Retrieval.New York: ACM, 2009:49-55. ［5］张爱华,荆继武,向继.中文文本分类中的文本表示因素比较［J］.中国科学院研究生院学报,2009,26(3):400-407. ［6］李钝,曹付元,曹元大.基于短语的文本情感分类研究［J］.计算机科学,2008,35(4):132-134. ［7］阿力木江·艾沙,吐尔根·依布拉音,艾山·吾买尔.基于机器学习的维吾尔文文本分类研究［J］.计算机工程与应用,2012,48(5):110-112. ［8］张震,胡学钢.基于互信息量的分类模型［J］.JOCA,2011,36(6):1678-1680. ［9］ VAPNIK V．The nature of statistical learning theory［M］．New York:Springer-Verlag,1995. ［10］ JOACHIMS T. Text categorization with support vector machines: Learning with many relevant features［C］// European Conference on Machine Learning. Berlin: Springer-Verlag, 1998:137-142. ［11］孙建涛,郭崇慧,陆玉昌,等. 多项式核支持向量机文本分类器泛化性能分析［J］. 计算机研究与发展,2004,41（8）:1321-1326. ［12］ HSU C-W, LIN C-J. A comparison of methods for multiclass support vector machines［J］.IEEE Transactions on Neural Networks,2002,13(2):415-440. ［13］ CHANG C-C, LIN C-J. LIBSVM: A library for support vector machines ［EB/OL］. ［2011-09-10］http://www.csie.ntu.edu.tw/~cjlin/libsvm/. ［14］ SEBASTIANI F. Machine learning in automated text categorization[J]. ACM Computing Surveys, 2002,34(1):1-47. ［15］施聪莺, 徐朝军, 杨晓江. TFIDF算法研究综述［J］.JOCA,2009,29（S1）:167-170.

[1]	李顺勇, 李师毅, 胥瑞, 赵兴旺. 基于自注意力融合的不完整多视图聚类算法[J]. 《计算机应用》唯一官方网站, 2024, 44(9): 2696-2703.
[2]	姚迅, 秦忠正, 杨捷. 生成式标签对抗的文本分类模型[J]. 《计算机应用》唯一官方网站, 2024, 44(6): 1781-1785.
[3]	余新言, 曾诚, 王乾, 何鹏, 丁晓玉. 基于知识增强和提示学习的小样本新闻主题分类方法[J]. 《计算机应用》唯一官方网站, 2024, 44(6): 1767-1774.
[4]	孙敏, 成倩, 丁希宁. 基于CBAM-CGRU-SVM的Android恶意软件检测方法[J]. 《计算机应用》唯一官方网站, 2024, 44(5): 1539-1545.
[5]	余杭, 周艳玲, 翟梦鑫, 刘涵. 基于预训练模型与标签融合的文本分类[J]. 《计算机应用》唯一官方网站, 2024, 44(3): 709-714.
[6]	张家伟, 高冠东, 肖珂, 宋胜尊. 基于改进分层注意网络和TextCNN联合建模的暴力犯罪分级算法[J]. 《计算机应用》唯一官方网站, 2024, 44(2): 403-410.
[7]	王楷天, 叶青, 程春雷. 基于异构图表示的中医电子病历分类方法[J]. 《计算机应用》唯一官方网站, 2024, 44(2): 411-417.
[8]	乔恩保, 高向阳, 程俊. 基于支持向量机的自恢复自适应蒙特卡洛定位算法[J]. 《计算机应用》唯一官方网站, 2024, 44(10): 3246-3251.
[9]	陈都, 李圆媛, 陈彧. 基于t检验和逐步网络搜索的有向基因调控网络推断算法[J]. 《计算机应用》唯一官方网站, 2024, 44(1): 199-205.
[10]	于碧辉, 蔡兴业, 魏靖烜. 基于提示学习的小样本文本分类方法[J]. 《计算机应用》唯一官方网站, 2023, 43(9): 2735-2740.
[11]	李瀚臣, 张顺香, 朱广丽, 王腾科. 基于拼音相似度的中文谐音新词发现方法[J]. 《计算机应用》唯一官方网站, 2023, 43(9): 2715-2720.
[12]	崔雨萌, 王靖亚, 刘晓文, 闫尚义, 陶知众. 融合注意力和裁剪机制的通用文本分类模型[J]. 《计算机应用》唯一官方网站, 2023, 43(8): 2396-2405.
[13]	黄学雨, 贺怀宇, 林慧敏, 陈金水. 基于特征聚合的铜合金金相图分类识别方法[J]. 《计算机应用》唯一官方网站, 2023, 43(8): 2593-2601.
[14]	孙林, 黄金旭, 徐久成. 基于邻域容差互信息和鲸鱼优化算法的非平衡数据特征选择[J]. 《计算机应用》唯一官方网站, 2023, 43(6): 1842-1854.
[15]	劳景欢, 黄栋, 王昌栋, 赖剑煌. 基于视图互信息加权的多视图集成聚类算法[J]. 《计算机应用》唯一官方网站, 2023, 43(6): 1713-1718.

基于短语的维吾尔文文本分类

Phrase based Uyghur language text categorization

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics