计算机应用 ›› 2005, Vol. 25 ›› Issue (06): 1362-1365.DOI: 10.3724/SP.J.1087.2005.1362
程国达,苏杭丽
CHENG Guo-da, SU Hang-li
摘要: 消除重复记录可以提高数据质量。提出了按字段值种类数选择排序字段的方法。在相似重复记录的检测中,用第1个排序字段建立存储相似重复记录的二维链表,然后再用第2、第3个排序字段对二维链表中的记录进行排序—比较,以提高检测效果。为了正确地匹配汉字串,研究了由于缩写所造成的不匹配和读音、字型相似造成的输入错误。通过查找“相似汉字表”解决部分输入错误的问题,计算相似度函数判断被比较的记录是否是重复记录。实验表明,提出的方法能有效的检测汉语相似重复记录。
中图分类号: