摘要: 摘 要: 心电图数据通常包含多种病症,因此适用于多标签分类算法,在多标签分类方法中,RAKEL(Random k-labelsets)方法是将初始标签集分解为若干个大小为k的随机子集,建立LP(Label Powerset)分类器进行训练。由于随机选择标签,没有充分考虑标签间的相关性,使得LP分类器中容易产生标签组合对应样本稀少的情况,从而影响预测性能。本文提出了一种基于贝叶斯的RAKEL算法(Bayesian network-based RAKEL, BN-RAKEL),首先利用贝叶斯网络找到标签间的相关性,确定候选标签子集;然后对每个标签采用基于信息增益的特征选择方法确定其最优特征空间,针对每个候选标签子集,利用最优特征空间相似性来检测其相关程度,从而确定最终的标签子集;最后在标签子集的最优特征空间上训练LP分类器。实验表明,改进的算法有更好的预测性能,心电图数据集包含的18个病症中,有17个病症的Recall和F_score值较RAKEL算发有所提升。
中图分类号: