%0 Journal Article %A 陈伯伦 %A 王留洋 %A 俞扬信 %A 章慧 %T 基于共识和分类改善文档聚类的识别信息方法 %D 2020 %R 10.11772/j.issn.1001-9081.2019091540 %J 计算机应用 %P 1069-1073 %V 40 %N 4 %X 不同的聚类算法用于设计各自的策略,然而,每种技术在执行特定数据集时都有一定的局限性。选择恰当的识别信息方法(DIM)可确保文档聚类的进行。针对这些问题提出一种基于共识和分类的文档聚类(DCCC)的DIM。首先,选择识别信息最大化聚类(CDIM)作为数据集生成初始聚类的解决方法,并使用两种不同的CDIM方法生成两个初始聚集;其次,使用不同的参数方法对两初始聚集再进行初始化,通过簇标签信息间的关系建立共识,最大限度地提高文档的识别数总和;最后,选择识别文本权重分类(DTWC)作为文本分类器给共识分配新的簇标签,通过训练文本分类器更改基础分区,并根据预报标签信息生成最后的分区。采用8个网络数据集进行实验,选择BCubed的精度和召回率指标进行聚类验证。实验结果表明,所提出的共识分类方法的聚类结果优于对比方法的聚类结果。 %U http://www.joca.cn/CN/10.11772/j.issn.1001-9081.2019091540