Journal of Computer Applications ›› 2012, Vol. 32 ›› Issue (10): 2923-2926.DOI: 10.3724/SP.J.1087.2012.02923

• Artificial intelligence • Previous Articles     Next Articles

Phrase based Uyghur language text categorization

ALIMJAN Aysa1,2,TURGUN Ibrahim2,KURBAN Obul2,LI Zhe1   

  1. 1. Modern Education Technology Center, Xinjiang University, Urumqi Xinjiang 830046, China
    2. School of Information Science and Engineering, Xinjiang University, Urumqi Xinjiang 830046,China
  • Received:2012-05-02 Revised:2012-06-08 Online:2012-10-23 Published:2012-10-01
  • Contact: ALIMJAN Aysa

基于短语的维吾尔文文本分类

阿力木江·艾沙1,2,吐尔根·依布拉音2,库尔班·吾布力2,李哲1   

  1. 1. 新疆大学 现代教育技术中心,乌鲁木齐 830046
    2. 新疆大学 信息科学与工程学院,乌鲁木齐 830046
  • 通讯作者: 阿力木江·艾沙
  • 作者简介:阿力木江·艾沙(1973-),男(维吾尔族),新疆喀什人,副教授,博士研究生,主要研究方向:自然语言处理、信息安全;吐尔根·依布拉音(1958-),男(维吾尔族),新疆乌鲁木齐人,教授,博士生导师,主要研究方向:信息处理技术、人工智能;库尔班·吾布力(1974-),男(维吾尔族),新疆喀什人,副教授,主要研究方向:模式识别;李哲(1977-),女,新疆乌鲁木齐人,讲师,主要研究方向:软件工程。
  • 基金资助:
    国家自然科学基金资助项目;国家自然科学基金资助项目

Abstract: Text representation is the most important phase in automatic text categorization. In the Vector Space Model (VSM) based text representation, the selection of feature granularity has the direct impact on the text categorization performance. The statistical approach based Uyghur phrase extraction algorithm was proposed and the Uyghur text categorization experiments was conducted using Support Vector Machine (SVM) algorithm based on the extracted phrases as text features. The experimental results show that the phrase based Uyghur text categorization achieves higher classification precision and recall compared to the word based categorization.

Key words: text categorization, phrase extraction, Support Vector Machine (SVM), Uyghur language, Mutual Information (MI)

摘要: 文本特征表示是在文本自动分类中最重要的一个环节。在基于向量空间模型(VSM)的文本表示中特征单元粒度的选择直接影响到文本分类的效果。对于基于词袋模型(BOW)的维吾尔文文本分类效果不理想的问题,提出了一种基于统计方法的维吾尔语短语抽取算法并将抽取到的短语作为文本特征项,采用支持向量机(SVM)算法对维吾尔文文本进行了分类实验。实验结果表明,与以词为特征的文本分类相比,短语作为文本特征能够提高维吾尔文文本分类的准确率和召回率。

关键词: 文本分类, 短语抽取, 支持向量机, 维吾尔语, 互信息