计算机应用 ›› 2013, Vol. 33 ›› Issue (08): 2280-2282.

• 人工智能 • 上一篇    下一篇

新的短文本特征权重计算方法

马雯雯1,邓一贵1,2   

  1. 1. 重庆大学 计算机学院,重庆 400044;
    2. 重庆大学 信息与网络管理中心,重庆 400044
  • 收稿日期:2013-02-25 修回日期:2013-03-30 出版日期:2013-08-01 发布日期:2013-09-11
  • 通讯作者: 马雯雯
  • 作者简介:马雯雯(1986-),女,陕西西安人,硕士,主要研究方向:计算机网络与信息安全;
    邓一贵(1971-),男,四川简阳人,高级工程师,博士,主要研究方向:计算机网络与信息安全、移动代理。
  • 基金资助:
    重庆市自然科学基金资助项目

New feature weight calculation method for short text

MA Wenwen1,DENG Yigui1,2   

  1. 1. College of Computer Science, Chongqing University, Chongqing 400044, China
    2. Center of Information and Network, Chongqing University, Chongqing 400044, China
  • Received:2013-02-25 Revised:2013-03-30 Online:2013-09-11 Published:2013-08-01
  • Contact: MA Wenwen

摘要: 短文本固有的特征稀疏和样本高度不均衡等特点,使得传统长文本的加权方法难以直接套用。针对此问题,提出一种针对短文本的特征权重计算方法——综合类别法。该方法引入反文档频和相关性频率的概念,综合考虑了样本在正类和负类中的分布情况。实验结果表明,相对于其他特征权重方法,该方法的微平均和宏平均值均在90%以上,能增强样本在负类中的类别区分能力,改善短文本分类的查准率和查全率。

关键词: 短文本, 特征权重, 不均衡样本, 文本分类

Abstract: The inherent sparse features and unbalanced sample of the short text make it difficult for short text to use traditional weight of long text mechanically. To resolve this problem, an approach of short text feature weight named Integrated Category (IC) was proposed. This approach introduced the concept of inverse document frequency and relevancy frequency, and integrated the distribution of sample in positive category and negative category. The experimental results show that, compared with other feature weight methods, the micro-average and macro-average of this method are above 90%, and it can enhance the sample categories distinguishing ability in negative category, and improve the precision and recall of short text categorization.

Key words: short text, feature weight, unbalanced sample, text categorization

中图分类号: