计算机应用 ›› 2015, Vol. 35 ›› Issue (10): 2793-2797.DOI: 10.11772/j.issn.1001-9081.2015.10.2793

• 第十五届中国机器学习会议(CCML2015)论文 • 上一篇    下一篇

基于属性约简和支持向量机集成的乳腺癌诊断决策

卢星凝1, 张莉1,2   

  1. 1. 苏州大学 计算机科学与技术学院, 江苏 苏州 215006;
    2. 江苏省计算机信息处理技术重点实验室(苏州大学), 江苏 苏州 215006
  • 收稿日期:2015-06-01 修回日期:2015-07-05 出版日期:2015-10-10 发布日期:2015-10-14
  • 通讯作者: 张莉(1975-),女,江苏张家港人,教授,博士生导师,CCF高级会员,主要研究方向:机器学习、模式识别、图像处理,zhangliml@suda.edu.cn
  • 作者简介:卢星凝(1992-),女,江苏淮安人,硕士研究生,主要研究方向:机器学习、模式识别。
  • 基金资助:
    国家自然科学基金资助项目(61373093);江苏省自然科学基金资助项目(BK20140008,BK201222725);江苏省高校自然科学研究项目(13KJA520001);江苏省"青蓝工程"资助项目;苏州大学第17届大学生课外学术科研基金资助项目(KY2015545B)。

Diagnosis decision of breast cancer combining with attribute reduction and support vector machine

LU Xingning1, ZHANG Li1,2   

  1. 1. School of Computer Science and Technology, Soochow University, Suzhou Jiangsu 215006, China;
    2. Provincial Key Laboratory for Computer Information Processing Technology, Soochow University, Suzhou Jiangsu 215006, China
  • Received:2015-06-01 Revised:2015-07-05 Online:2015-10-10 Published:2015-10-14

摘要: 针对遗传算法(GA)与支持向量机(SVM)集成相结合的疾病诊断方法存在属性冗余的问题,提出了一种改进的约简和诊断乳腺癌决策方法。该方法将最小化约简属性个数、最大化区分矩阵可区别属性的个数以及最大化约简属性对决策属性的依赖度这三种目标函数相结合作为GA的适应度函数。在约简属性后取多个子集,以便利用SVM集成学习。在UCI数据库中乳腺癌数据集的实验表明,与原始的SVM算法相比,该方法在分类诊断的准确度以及敏感性方面有一定的提高,其中分类准确度至少提高了2%。

关键词: 粗糙集, 支持向量机, 属性约简, 乳腺癌诊断, 遗传算法

Abstract: In the disease diagnosis approach of combining with Gene Algorithm (GA) and Support Vector Machine (SVM) ensemble, the attribute redundancy problem still exists. A decision method for diagnosis of breast cancer was proposed based on attribute reduction and SVM. The proposed attribute reduction method took minimizing the attribute number, maximizing the difference attribute number in discernibility matrix and maximizing the dependency degree of condition reduction attributes on decision attributes as the fitness function of GA. After attribute reduction, multiple attribute subsets were selected for SVM ensemble learning. Compared with SVM, experimental results on the breast cancer dataset from UCI databases validate that the classification accuracy increases by 2 percent at least.

Key words: Rough Set (RS), Support Vector Machine (SVM), attribute reduction, breast cancer diagnosis, Genetic Algorithm (GA)

中图分类号: