基于CBR的文本自动分类研究

doi:10.3724/SP.J.1087.2005.02028

计算机应用 ›› 2005, Vol. 25 ›› Issue (09): 2028-2030.DOI: 10.3724/SP.J.1087.2005.02028

基于CBR的文本自动分类研究

张婷慧，耿焕同，蔡庆生

中国科学技术大学计算机科学与技术系

出版日期:2005-09-01 发布日期:2011-04-11
基金资助:
国家自然科学基金资助项目(70171052);;皖泰开发项目资助(143-150401)

Study of automatic text categorization based on CBR

ZHANG Ting-hui,GENG Huan-tong,CAI Qing-sheng

Department of Computer Science and Technology,University of Science and Technology of China,Anhui Hefei 230027,China

Online:2005-09-01 Published:2011-04-11

摘要/Abstract

摘要： KNN方法是性能最好的文本分类方法之一,但它在分类时要计算待分类文档与所有训练样本的相似度,时间复杂度较大。文中提出了一种基于CBR的文本自动分类方法,先用聚类方法把训练样本库转换为范例库,然后用KNN思想分类。实验结果显示该方法分类的平均召回率和准确率达到了87.07%和89.17%;并且通过分析算法的时间复杂度得知,该方法的分类速度比KNN方法有很大的提高,因此具有很好的实用价值。

关键词: 基于范例推理, 文本自动分类, K近邻, 聚类

Abstract: K-Nearest Neighbor(KNN) is one of the top-performing classifiers,but it has a large time complexity on calculating the similarity between the document and all training samples.An automatic text categorization mechanism based on CBR was presented,the training sample library was converted to the case library and the document was classified by KNN.In experiments,the average recall and precision were 87.07% and 89.17% respectively.In addition,by analyzing the time complexity,this mechanism can perform much more quickly than the KNN method.

Key words: case-based reasoning(CBR), automatic text categorization, K-nearest neighbor, clustering

中图分类号:

TP391.1

张婷慧，耿焕同，蔡庆生. 基于CBR的文本自动分类研究[J]. 计算机应用, 2005, 25(09): 2028-2030.

ZHANG Ting-hui,GENG Huan-tong,CAI Qing-sheng. Study of automatic text categorization based on CBR[J]. Journal of Computer Applications, 2005, 25(09): 2028-2030.

[1]	陈恒恒, 倪志伟, 朱旭辉, 金媛媛, 陈千. 基于聚类分析的差分隐私高维数据发布方法[J]. 计算机应用, 2021, 41(9): 2578-2585.
[2]	曾祥银, 郑伯川, 刘丹. 基于深度卷积神经网络和聚类的左右轨道线检测[J]. 计算机应用, 2021, 41(8): 2324-2329.
[3]	祝承, 赵晓琦, 赵丽萍, 焦玉宏, 朱亚飞, 陈建英, 周伟, 谭颖. 基于谱聚类半监督特征选择的功能磁共振成像数据分类[J]. 计算机应用, 2021, 41(8): 2288-2293.
[4]	王月, 江逸茗, 兰巨龙. 基于改进三元组网络和K近邻算法的入侵检测[J]. 计算机应用, 2021, 41(7): 1996-2002.
[5]	戴嫣然, 戴国庆, 袁玉波. 基于肤色学习的多人脸前景抽取方法[J]. 计算机应用, 2021, 41(6): 1659-1666.
[6]	王治和, 常筱卿, 杜辉. 基于万有引力的自适应近邻传播聚类算法[J]. 计算机应用, 2021, 41(5): 1337-1342.
[7]	马建红, 曹文斌, 刘元刚, 夏爽. 基于功效特征的专利聚类方法[J]. 计算机应用, 2021, 41(5): 1361-1366.
[8]	李国荣, 冶继民, 甄远婷. 基于新的鲁棒相似性度量的时间序列聚类[J]. 计算机应用, 2021, 41(5): 1343-1347.
[9]	李杏峰, 黄玉清, 任珍文, 李毅红. 基于自适应邻域的鲁棒多视图聚类算法[J]. 计算机应用, 2021, 41(4): 1093-1099.
[10]	龙超奇, 蒋瑜, 谢雨. 基于峰值网格改进的小波聚类算法[J]. 计算机应用, 2021, 41(4): 1122-1127.
[11]	吕佳, 鲜焱. 结合改进密度峰值聚类和共享子空间的协同训练算法[J]. 计算机应用, 2021, 41(3): 686-693.
[12]	邹志文, 秦程. 基于k-means++的动态构建空间主题R树方法[J]. 计算机应用, 2021, 41(3): 733-737.
[13]	郭佳, 韩李涛, 孙宪龙, 周丽娟. 自动确定聚类中心的比较密度峰值聚类算法[J]. 计算机应用, 2021, 41(3): 738-744.
[14]	袁芊芊, 邓洪敏, 王晓航. 基于超像素快速模糊C均值聚类与支持向量机的柑橘病虫害区域分割[J]. 计算机应用, 2021, 41(2): 563-570.
[15]	张恩, 李会敏, 常键. 可验证的隐私保护k-means聚类方案[J]. 计算机应用, 2021, 41(2): 413-421.

基于CBR的文本自动分类研究

Study of automatic text categorization based on CBR

PDF

可视化

摘要/Abstract

引用本文

使用本文

参考文献

相关文章 15

编辑推荐

Metrics