计算机应用 ›› 2018, Vol. 38 ›› Issue (10): 2918-2922.DOI: 10.11772/j.issn.1001-9081.2018040888

• 网络空间安全 • 上一篇    下一篇

基于差分隐私保护的谱聚类算法

郑孝遥1,2, 陈冬梅1,2, 刘雨晴1,2, 尤浩1,2, 汪祥舜1,2, 孙丽萍1,2   

  1. 1. 安徽师范大学 计算机与信息学院, 安徽 芜湖 241002;
    2. 网络与信息安全安徽省重点实验室(安徽师范大学), 安徽 芜湖 241002
  • 收稿日期:2018-04-28 修回日期:2018-07-12 出版日期:2018-10-10 发布日期:2018-10-13
  • 通讯作者: 郑孝遥
  • 作者简介:郑孝遥(1981-),男,安徽芜湖人,副教授,博士研究生,CCF会员,主要研究方向:信息安全、个性化推荐;陈冬梅(1994-),女,安徽天长人,硕士研究生,主要研究方向:信息安全、智能计算;刘雨晴(1994-),女,安徽阜阳人,硕士研究生,主要研究方向:信息安全、数据挖掘;尤浩(1997-),男,安徽颍上人,主要研究方向:信息安全、个性化推荐;汪祥舜(1992-),男,安徽安庆人,硕士研究生,主要研究方向:个性化推荐;孙丽萍(1980-),女,安徽芜湖人,教授,博士,CCF会员,主要研究方向:空间数据处理、智能计算。
  • 基金资助:
    国家自然科学基金资助项目(61772034,61602009);安徽省自然科学基金资助项目(1808085MF172)。

Spectral clustering algorithm based on differential privacy protection

ZHENG Xiaoyao1,2, CHEN Dongmei1,2, LIU Yuqing1,2, YOU Hao1,2, WANG Xiangshun1,2, SUN Liping1,2   

  1. 1. School Computer and Information, Anhui Normal University, Wuhu Anhui 241002, China;
    2. Anhui Provincial Key Laboratory of Network and Information Security(Anhui Normal University), Wuhu Anhui 241002, China
  • Received:2018-04-28 Revised:2018-07-12 Online:2018-10-10 Published:2018-10-13
  • Supported by:
    This work is partially supported by the National Natural Science Foundation of China (61772034, 61602009), the Natural Science Foundation of Anhui Province (1808085MF172).

摘要: 针对传统的聚类算法存在隐私泄露的风险,提出一种基于差分隐私保护的谱聚类算法。该算法基于差分隐私模型,利用累计分布函数生成满足拉普拉斯分布的随机噪声,将该噪声添加到经过谱聚类算法计算的样本相似度的函数中,干扰样本个体之间的权重值,实现样本个体间的信息隐藏以达到隐私保护的目的。通过UCI数据集上的仿真实验,表明该算法能够在一定的信息损失度范围内实现有效的数据聚类,也可以对聚类数据进行保护。

关键词: 差分隐私, 谱聚类, 敏感数据, 隐私泄露

Abstract: Aiming at the problem of privacy leakage in the application of traditional clustering algorithm, a spectral clustering algorithm based on differential privacy protection was proposed. Based on the differential privacy model, the cumulative distribution function was used to generate random noise that satisfies Laplasse distribution. Then the noise was added to the sample similarity function calculated by the spectral clustering algorithm, which disturbed the weight values between the individual samples and realized information hiding between sample individuals for privacy protection. Experimental results of UCI dataset verify that the proposed algorithm can achieve effective data clustering within a certain degree of information loss, and can also protect clustered data.

Key words: differential privacy, spectral clustering, sensitive data, privacy leakage

中图分类号: