期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于动态规划的缩写发现算法 被引量:2
1
作者 李华 易宝林 桂浩 《武汉大学学报(工学版)》 CAS CSCD 北大核心 2004年第1期128-131,共4页
数据清理中重复记录的识别一般采用动态规划算法或过滤算法,然而很少算法考虑了数据中的缩写问题,因此容易漏掉一些重复记录,影响了数据清理的质量,因此在动态规划的基础上提出了缩写发现算法,同已有算法相比,它的算法复杂度较小,而且... 数据清理中重复记录的识别一般采用动态规划算法或过滤算法,然而很少算法考虑了数据中的缩写问题,因此容易漏掉一些重复记录,影响了数据清理的质量,因此在动态规划的基础上提出了缩写发现算法,同已有算法相比,它的算法复杂度较小,而且能够发现汉语等无分隔符的语言中的缩写,最后给出了缩写情况下判断字符串近似匹配的方法. 展开更多
关键词 数据清理 动态规划 缩写发现算法 字符串相似匹配
下载PDF
数据分析和清理中相关算法研究 被引量:6
2
作者 冯玉才 桂浩 +1 位作者 李华 李又奎 《小型微型计算机系统》 CSCD 北大核心 2005年第6期1018-1022,共5页
数据清理的一个主要作用是识别重复的记录.结合过滤算法和启发式剪枝算法提出了启发式剪枝改进算法.然后,针对重复记录的特点提出了长度约束条件,能有效地提高比较字段不等长时的执行速度.数据库中经常会出现各种形式不同的缩写,而启发... 数据清理的一个主要作用是识别重复的记录.结合过滤算法和启发式剪枝算法提出了启发式剪枝改进算法.然后,针对重复记录的特点提出了长度约束条件,能有效地提高比较字段不等长时的执行速度.数据库中经常会出现各种形式不同的缩写,而启发式剪枝算法等无法识别缩写情况下的重复记录,本文因此提出了基于动态规划的缩写发现算法,该算法既可以用于缩写发现也可用于缩写存在时的重复记录识别.另外,重复记录的甄别目前必须人工处理,传统方式下用户不得不逐条浏览和分析,工作时间冗长而且乏味,容易引入新的数据质量隐患,作者提出了聚类清除方案和聚类闭包算法,它将重复的记录聚类显示,用户一次可以处理完一个重复聚类,在有效提高速度的同时方便了用户. 展开更多
关键词 数据清理 字符串相似匹配 缩写算法 聚类清除
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部