基于属性选择的半监督短文本分类算法

计算机应用 ›› 2010, Vol. 30 ›› Issue (4): 1015-1018.

基于属性选择的半监督短文本分类算法

蔡月红¹,朱倩²,孙萍²,程显毅²

1. 江苏大学
2.

收稿日期:2009-10-12 修回日期:2009-12-02 发布日期:2010-04-15 出版日期:2010-04-01
通讯作者: 蔡月红
基金资助:
基于粒子群优化和先验信息的约束学习算法研究

Semi-supervised short text categorization based on attribute selection

Received:2009-10-12 Revised:2009-12-02 Online:2010-04-15 Published:2010-04-01
Contact: Cai YueHong

摘要/Abstract

摘要： 针对海量短文本分类中的标注语料匮乏问题，提出了一种基于属性选择的半监督短文本分类算法。通过基于ReliefF评估和独立性度量的属性选择技术选出部分具有较好的属性独立关系的属性参与分类模型的学习，以弱化朴素贝叶斯模型的强独立性假设条件；借助集成学习，以具有一定差异性的分类器组去估计初始值，并以多数投票策略去分类未标注语料集，以减低最大期望算法(EM)对于初始值的敏感。通过真实语料上进行的比较实验，证明了该方法能有效利用大量未标注语料提高算法的泛化能力。

关键词: 属性选择, 半监督学习, 短文本, 文本分类, 集成学习

Abstract: In order to solve the data scarcity problem of massive short text categorization, a semi-supervised short text categorization method based on attribute selection was presented. An attribute selection algorithm based on ReliefF and independence measures was used to overcome the limitation of the attributes independence assumption by deleting irrelevant or redundant attributes, and an ensemble algorithm based on Expectaion-Maximization (EM) was used to resolve the problems of sensitivity to initial values in semi-supervised EM algorithm. The experiments on real corpus show that the proposed method can more effectively and stably utilize the unlabeled examples to improve classification generalization.

Key words: attribute selection, semi-supervised learning, short text, text categorization, ensemble learning

蔡月红朱倩孙萍程显毅. 基于属性选择的半监督短文本分类算法[J]. 计算机应用, 2010, 30(4): 1015-1018.

[1]	张英俊, 李牛牛, 谢斌红, 张睿, 陆望东. 课程学习指导下的半监督目标检测框架[J]. 《计算机应用》唯一官方网站, 2024, 44(8): 2326-2333.
[2]	余新言, 曾诚, 王乾, 何鹏, 丁晓玉. 基于知识增强和提示学习的小样本新闻主题分类方法[J]. 《计算机应用》唯一官方网站, 2024, 44(6): 1767-1774.
[3]	周妍, 李阳. 用于脑卒中病灶分割的具有注意力机制的校正交叉伪监督方法[J]. 《计算机应用》唯一官方网站, 2024, 44(6): 1942-1948.
[4]	姚迅, 秦忠正, 杨捷. 生成式标签对抗的文本分类模型[J]. 《计算机应用》唯一官方网站, 2024, 44(6): 1781-1785.
[5]	余杭, 周艳玲, 翟梦鑫, 刘涵. 基于预训练模型与标签融合的文本分类[J]. 《计算机应用》唯一官方网站, 2024, 44(3): 709-714.
[6]	王楷天, 叶青, 程春雷. 基于异构图表示的中医电子病历分类方法[J]. 《计算机应用》唯一官方网站, 2024, 44(2): 411-417.
[7]	张家伟, 高冠东, 肖珂, 宋胜尊. 基于改进分层注意网络和TextCNN联合建模的暴力犯罪分级算法[J]. 《计算机应用》唯一官方网站, 2024, 44(2): 403-410.
[8]	张帅华, 张淑芬, 周明川, 徐超, 陈学斌. 基于半监督联邦学习的恶意流量检测模型[J]. 《计算机应用》唯一官方网站, 2024, 44(11): 3487-3494.
[9]	龙杰, 谢良, 徐海蛟. 集成的深度强化学习投资组合模型[J]. 《计算机应用》唯一官方网站, 2024, 44(1): 300-310.
[10]	于碧辉, 蔡兴业, 魏靖烜. 基于提示学习的小样本文本分类方法[J]. 《计算机应用》唯一官方网站, 2023, 43(9): 2735-2740.
[11]	王瑞琪, 纪淑娟, 曹宁, 郭亚杰. 基于一致性训练的半监督虚假招聘广告检测模型[J]. 《计算机应用》唯一官方网站, 2023, 43(9): 2932-2939.
[12]	崔雨萌, 王靖亚, 刘晓文, 闫尚义, 陶知众. 融合注意力和裁剪机制的通用文本分类模型[J]. 《计算机应用》唯一官方网站, 2023, 43(8): 2396-2405.
[13]	杨森淇, 段旭良, 肖展, 郎松松, 李志勇. 基于ERNIE+DPCNN+BiGRU的农业新闻文本分类[J]. 《计算机应用》唯一官方网站, 2023, 43(5): 1461-1466.
[14]	张旭, 生龙, 张海芳, 田丰, 王巍. 基于标签混淆的院前急救文本分类模型[J]. 《计算机应用》唯一官方网站, 2023, 43(4): 1050-1055.
[15]	伏博毅, 彭云聪, 蓝鑫, 秦小林. 基于深度学习的标签噪声学习算法综述[J]. 《计算机应用》唯一官方网站, 2023, 43(3): 674-684.