计算机应用 ›› 2013, Vol. 33 ›› Issue (09): 2490-2492.DOI: 10.11772/j.issn.1001-9081.2013.09.2490

• 数据库技术 • 上一篇    下一篇

基于信息熵的不确定性数据清理方法

覃远翔1,段亮1,岳昆1,2   

  1. 1. 云南大学 信息学院,昆明 650091
    2.
  • 收稿日期:2013-03-25 修回日期:2013-04-21 出版日期:2013-09-01 发布日期:2013-10-18
  • 通讯作者: 岳昆
  • 作者简介:覃远翔(1987-),男,贵州六盘水人,硕士研究生,主要研究方向:数据与知识工程;
    段亮(1986-),男,云南临沧人,硕士研究生,主要研究方向:数据与知识工程;
    岳昆(1979-),男,云南曲靖人,副教授,博士,主要研究方向:数据与知识工程。
  • 基金资助:

    国家自然科学基金资助项目;云南省应用基础研究计划项目;云南省教育厅科研基金资助项目

Approach for cleaning uncertain data based on information entropy theory

QIN Yuanxing1,DUAN Liang1,YUE Kun1,2   

  1. 1. School of Information Science and Engineering, Yunnan University, Kunming Yunnan 650091, China
    2.
  • Received:2013-03-25 Revised:2013-04-21 Online:2013-10-18 Published:2013-09-01
  • Contact: YUE Kun

摘要: 针对不确定性数据中往往包含一些异常数据而导致相应的查询结果出现错误的问题,提出了一种基于信息熵的不确定性数据清理方法以减少异常数据并提高不确定性数据的质量。首先使用信息熵来度量数据的不确定度,然后结合统计学方法计算出不确定性数据的可信区间,最后去除那些不在可信区间内的数据。实验结果验证了该方法的高效性和有效性。

关键词: 不确定性数据, 数据清理, 信息熵, 不确定度, 可信区间

Abstract: In response to the issue that data anomalies in the uncertain databases often hamper the efficient and effective use of data, an uncertain data cleaning method was proposed to reduce abnormal data based on the information entropy theory. First, the uncertainty degree of uncertain data was defined by using information entropy. Then, the confidence interval of uncertain data was obtained based on statistical method with the degree of uncertainty. By means of the confidence interval, the uncertain databases were cleaned. The experimental results show the effectiveness and efficiency of the proposed method.

Key words: uncertain data, data cleansing, information entropy, uncertainty degree, confidence interval

中图分类号: