基于LDA主题模型的短文本分类方法
张志飞,苗夺谦,高灿
同济大学 计算机科学与技术系,上海 201804
Short text classification using latent Dirichlet allocation
ZHANG Zhifei,MIAO Duoqian,GAO Can
Department of Computer Science and Technology, Tongji University, Shanghai 201804, China
摘要 针对短文本的特征稀疏性和上下文依赖性两个问题,提出一种基于隐含狄列克雷分配模型的短文本分类方法。利用模型生成的主题,一方面区分相同词的上下文,降低权重;另一方面关联不同词以减少稀疏性,增加权重。采用K近邻方法对自动抓取的网易页面标题数据进行分类,实验表明新方法在分类性能上比传统的向量空间模型和基于主题的相似性度量分别高5%和2.5%左右。
关键词 :
短文本 ,
分类 ,
K近邻 ,
相似度 ,
隐含狄列克雷分配
Abstract :In order to solve the two key problems of the short text classification, very sparse features and strong context dependency, a new method based on latent Dirichlet allocation was proposed. The generated topics not only discriminate contexts of common words and decrease their weights, but also reduce sparsity by connecting distinguishing words and increase their weights. In addition, a short text dataset was constructed by crawling titles of Netease pages. Experiments were done by classifying these short titles using K-nearest neighbors. The proposed method outperforms vector space model and topic-based similarity.
Key words :
short text
classification
K-Nearest Neighbor (K-NN)
similarity measure
latent Dirichlet allocation
收稿日期: 2012-12-14
出版日期: 2013-06-05
基金资助: 国家自然科学基金资助项目(60970061);国家自然科学基金资助项目(61075056);国家自然科学基金资助项目(61103067);中央高校基本科研业务费专项资金资助项目
通讯作者:
张志飞
E-mail: tjzhifei@163.com
作者简介 : 张志飞(1986-),男,江苏如东人,博士研究生,CCF学生会员,主要研究方向:粒计算、文本挖掘;苗夺谦(1964-),男,山西祁县人,教授,博士生导师,CCF高级会员,主要研究方向:粗糙集、Web智能、机器学习;高灿(1983-),男,湖南南县人,博士研究生,CCF学生会员,主要研究方向:粗糙集、机器学习。
[1]
孙辉, 许洁萍, 刘彬彬. 基于多核学习支持向量机的音乐流派分类 [J]. 计算机应用, 2015, 35(6): 1753-1756.
[2]
董志聪, 黎福海, 刘少雄. 旋转角可变的人体检测算法 [J]. 计算机应用, 2015, 35(6): 1785-1790.
[3]
章少平, 梁雪春. 优化的支持向量机集成分类器在非平衡数据集分类中的应用 [J]. 计算机应用, 2015, 35(5): 1306-1309.
[4]
胡杨, 戴丹, 刘骊, 冯旭鹏, 刘利军, 黄青松. 基于情感角色模型的文本情感分类方法 [J]. 计算机应用, 2015, 35(5): 1310-1313.
[5]
范家兵, 王鹏, 周渭博, 燕京京. 在推荐系统中利用时间因素的方法 [J]. 计算机应用, 2015, 35(5): 1324-1327.
[6]
孙贵宾, 周勇. 基于结构相似度仿射传播的社团检测算法 [J]. 计算机应用, 2015, 35(3): 633-637.
[7]
冶忠林, 杨燕, 贾真, 尹红风. 基于语义扩展的短问题分类 [J]. 计算机应用, 2015, 35(3): 792-796.
[8]
廖声扬, 黄添强. 基于几何均值分解和结构相似度的同源视频时间域复制粘贴篡改快速检测及恢复方法 [J]. 计算机应用, 2015, 35(3): 821-825.
[9]
芮志良, 朱玉全, 耿霞, 陈耿. 基于特征聚类和随机子空间的microRNA识别方法 [J]. 计算机应用, 2015, 35(2): 374-377.
[10]
彭爽, 彭晓明. 基于高效多示例学习的目标跟踪 [J]. 计算机应用, 2015, 35(2): 466-469.
[11]
蒲国林, 邱玉辉. 基于稀疏表示全局字典学习的图像分类方法 [J]. 计算机应用, 2015, 35(2): 499-501.
[12]
陈诚, 战荫伟, 李鹰. 基于网页链接分类的PageRank并行算法 [J]. 计算机应用, 2015, 35(1): 48-52.
[13]
霍玉丹, 谷琼, 蔡之华, 袁磊. 基于遗传算法改进的少数类样本合成过采样技术的非平衡数据集分类算法 [J]. 计算机应用, 2015, 35(1): 121-124.
[14]
张丹普, 付忠良, 王莉莉, 李昕. 基于浮动阈值分类器组合的多标签分类算法 [J]. 计算机应用, 2015, 35(1): 147-151.
[15]
孙劲光, 吴素红. 基于分类遍历的碰撞检测优化算法 [J]. 计算机应用, 2015, 35(1): 194-197.