• • 下一篇
李 沛1,管中庆1,戴超凡2*,曹俊彬1
摘要: 违反完整性约束的不一致数据是航空机务维修信息系统数据库中常见的数据质量问题,相较于函数依赖(FD)和条件函数依赖(CFD)的“等式约束”形式,包含谓词特殊形式(“大于”“小于”和“等于”等)的条件谓词依赖(CFDps)由于理论上有无穷个满足依赖的候选值,出错时找到初始真值的修复难度更大。针对违反条件谓词依赖的不一致数据更难修复的问题,本文提出一种基于最大可能性的启发式修复方法Heuristic-MPR(Heuristic- Maximum Possibility Repair),首先,根据条件谓词依赖找到数据集上的冲突元组和冲突属性;其次,建立属性错误率概率模型,选择最大错误概率的属性作为候选冲突属性优先修复;再次,修复时借鉴机器学习的思想,考虑数据集中候选冲突属性与其他属性的相关性,计算每种修复方案的修复可能性,选择最大可能性的修复方案作为修复值;最后,验证修复结果对依赖规则的满足程度,判断是否需要重新选择候选冲突属性。真实数据上的实验结果表明,该方法对多种属性类型的不一致数据均具备较好的修复能力,与初始真值完全一致的平均修复准确率为82.22%,与初始真值不完全一致的平均修复偏差率为1.27%。
中图分类号: