计算机应用 ›› 2011, Vol. 31 ›› Issue (03): 698-701.DOI: 10.3724/SP.J.1087.2011.00698
CHEN Xiao-li,LIU Pei-yu
摘要: 针对支持向量机(SVM)中常用核函数由于忽略文本结构而导致大量语义信息丢失的现象,提出一种类别相关度量的词序列核(WSK),并将其应用于垃圾邮件过滤。首先提取邮件文本特征并计算特征的类别相关度量,然后利用词序列核作为核函数训练支持向量机,训练过程中利用类别相关度量计算词的衰减系数,最后对邮件进行分类。实验结果表明,与常用核函数和字符串核相比,改进的词序列核分类准确率更高,提高了垃圾邮件过滤的准确率。
中图分类号: