计算机应用 ›› 2014, Vol. 34 ›› Issue (8): 2209-2211.DOI: 10.11772/j.issn.1001-9081.2014.08.2209

• 第五届中国数据挖掘会议(CCDM 2014)论文 • 上一篇    下一篇

基于粗糙集的微博用户性别识别

黄发良1,熊金波1,黄添强1,刘西蒙2   

  1. 1. 福建师范大学 软件学院,福州350007
    2. 西安电子科技大学 计算机学院,西安710071
  • 收稿日期:2014-04-29 修回日期:2014-05-02 出版日期:2014-08-01 发布日期:2014-08-10
  • 通讯作者: 黄发良
  • 作者简介:黄发良(1975-),男,湖南永州人,副教授,博士,主要研究方向:数据挖掘;熊金波(1982-),男,湖南益阳人,讲师,博士,主要研究方向:大数据安全;黄添强(1970-),男,福建莆田人,教授,博士,主要研究方向:数据挖掘;刘西蒙(1988-),男,陕西西安人,博士研究生,主要研究方向:大数据安全。
  • 基金资助:

    教育部人文社会科学研究青年基金资助项目;福建省教育厅科技项目

Gender identification of microblog users based on rough set

HUANG Faliang1,XIONG Jinbo1,HUANG Tianqiang1,LIU Ximeng2   

  1. 1. Faculty of Software, Fujian Normal University, Fuzhou Fujian 350007, China;
    2. School of Computer Science and Technology, Xidian University, Xi'an Shaanxi 710071, China
  • Received:2014-04-29 Revised:2014-05-02 Online:2014-08-01 Published:2014-08-10
  • Contact: HUANG Faliang

摘要:

针对微博消息往往会不同程度表现出性别倾向性的特点,从消息内容挖掘的角度出发提出了一种基于粗糙集的微博用户性别识别算法。设计了一种基于容差粗集的微博消息表示模型(TRSRM),有效地刻画微博消息的性别特征。实验结果表明,在1000个真实微博用户的微博消息的测试集下,所提模型的准确率比特征项频数表示模型平均提高了7%,取得了更好的识别效果。

Abstract:

Concerning gender tendency hidden in microblog messages posted by microblog users, a novel approach based on rough set theory was proposed to identify microblog user gender. In the proposed approach, a new Representation Model based on Tolerance Rough Set (TRSRM) was devised, which can effectively represent gender characteristics of microblog messages. The experimental results show that the accuracy rate of the proposed approach is 7% higher than frequency model approach by testing messages of 1000 real microblog users, and so the TRSRM achieves better recognition performance.

中图分类号: