-
基于差异—相似矩阵的文本降维方法
- 黄晓春,晏蒲柳,夏德麟,陈健
-
2005, 25(08):
1821-1823.
DOI: 10.3724/SP.J.1087.2005.01821
-
摘要
(
)
PDF (153KB)
(
)
-
相关文章 |
计量指标
由于文本文档数量多、词量大,形成的文档空间维度高,很多自动文本分类算法不能直接有效地发挥作用。基于差异—相似矩阵(DSM)的方法在很大程度上降低了文档空间的维度。已经分好类的文集经过预处理后被表示成特征项—文档矩阵,再转化为差异—相似矩阵,其中同类文档采用相似项描述,而异类文档则采用差异项描述。通过对差异—相似矩阵的处理,最终得到维度较低的文本特征集,并同时生成分类规则。实验说明,对于大规模文集,DSM方法能在保持良好的分类质量的同时,获得较高的属性降维率和样本降维率。