期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于动态规划的缩写发现算法
被引量:
2
1
作者
李华
易宝林
桂浩
《武汉大学学报(工学版)》
CAS
CSCD
北大核心
2004年第1期128-131,共4页
数据清理中重复记录的识别一般采用动态规划算法或过滤算法,然而很少算法考虑了数据中的缩写问题,因此容易漏掉一些重复记录,影响了数据清理的质量,因此在动态规划的基础上提出了缩写发现算法,同已有算法相比,它的算法复杂度较小,而且...
数据清理中重复记录的识别一般采用动态规划算法或过滤算法,然而很少算法考虑了数据中的缩写问题,因此容易漏掉一些重复记录,影响了数据清理的质量,因此在动态规划的基础上提出了缩写发现算法,同已有算法相比,它的算法复杂度较小,而且能够发现汉语等无分隔符的语言中的缩写,最后给出了缩写情况下判断字符串近似匹配的方法.
展开更多
关键词
数据清理
动态规划
缩写
发现
算法
字符串相似匹配
下载PDF
职称材料
数据分析和清理中相关算法研究
被引量:
6
2
作者
冯玉才
桂浩
+1 位作者
李华
李又奎
《小型微型计算机系统》
CSCD
北大核心
2005年第6期1018-1022,共5页
数据清理的一个主要作用是识别重复的记录.结合过滤算法和启发式剪枝算法提出了启发式剪枝改进算法.然后,针对重复记录的特点提出了长度约束条件,能有效地提高比较字段不等长时的执行速度.数据库中经常会出现各种形式不同的缩写,而启发...
数据清理的一个主要作用是识别重复的记录.结合过滤算法和启发式剪枝算法提出了启发式剪枝改进算法.然后,针对重复记录的特点提出了长度约束条件,能有效地提高比较字段不等长时的执行速度.数据库中经常会出现各种形式不同的缩写,而启发式剪枝算法等无法识别缩写情况下的重复记录,本文因此提出了基于动态规划的缩写发现算法,该算法既可以用于缩写发现也可用于缩写存在时的重复记录识别.另外,重复记录的甄别目前必须人工处理,传统方式下用户不得不逐条浏览和分析,工作时间冗长而且乏味,容易引入新的数据质量隐患,作者提出了聚类清除方案和聚类闭包算法,它将重复的记录聚类显示,用户一次可以处理完一个重复聚类,在有效提高速度的同时方便了用户.
展开更多
关键词
数据清理
字符串相似匹配
缩写算法
聚类清除
下载PDF
职称材料
题名
基于动态规划的缩写发现算法
被引量:
2
1
作者
李华
易宝林
桂浩
机构
华中科技大学计算机科学与技术学院
出处
《武汉大学学报(工学版)》
CAS
CSCD
北大核心
2004年第1期128-131,共4页
基金
国家电子政务支持项目(编号:2001BA110B01).
文摘
数据清理中重复记录的识别一般采用动态规划算法或过滤算法,然而很少算法考虑了数据中的缩写问题,因此容易漏掉一些重复记录,影响了数据清理的质量,因此在动态规划的基础上提出了缩写发现算法,同已有算法相比,它的算法复杂度较小,而且能够发现汉语等无分隔符的语言中的缩写,最后给出了缩写情况下判断字符串近似匹配的方法.
关键词
数据清理
动态规划
缩写
发现
算法
字符串相似匹配
Keywords
data cleaning
dynamic programming
abbreviation-discovered algorithm
string approximate matching
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
数据分析和清理中相关算法研究
被引量:
6
2
作者
冯玉才
桂浩
李华
李又奎
机构
华中科技大学计算机学院
出处
《小型微型计算机系统》
CSCD
北大核心
2005年第6期1018-1022,共5页
基金
高等学校博士学科点专项科研基金(20030487032)资助.
文摘
数据清理的一个主要作用是识别重复的记录.结合过滤算法和启发式剪枝算法提出了启发式剪枝改进算法.然后,针对重复记录的特点提出了长度约束条件,能有效地提高比较字段不等长时的执行速度.数据库中经常会出现各种形式不同的缩写,而启发式剪枝算法等无法识别缩写情况下的重复记录,本文因此提出了基于动态规划的缩写发现算法,该算法既可以用于缩写发现也可用于缩写存在时的重复记录识别.另外,重复记录的甄别目前必须人工处理,传统方式下用户不得不逐条浏览和分析,工作时间冗长而且乏味,容易引入新的数据质量隐患,作者提出了聚类清除方案和聚类闭包算法,它将重复的记录聚类显示,用户一次可以处理完一个重复聚类,在有效提高速度的同时方便了用户.
关键词
数据清理
字符串相似匹配
缩写算法
聚类清除
Keywords
data cleaning
string approximate matching
abbreviation algorithm
clustering cleaning
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于动态规划的缩写发现算法
李华
易宝林
桂浩
《武汉大学学报(工学版)》
CAS
CSCD
北大核心
2004
2
下载PDF
职称材料
2
数据分析和清理中相关算法研究
冯玉才
桂浩
李华
李又奎
《小型微型计算机系统》
CSCD
北大核心
2005
6
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部