期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
7
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
一种基于条件概率分布的近似重复记录检测方法
被引量:
3
1
作者
缪嘉嘉
吴刚
+2 位作者
毛捍东
杨强
邓苏
《小型微型计算机系统》
CSCD
北大核心
2004年第12期2164-2168,共5页
数据集成往往会形成一些近似重复记录 ,如何检测重复信息是数据质量研究中的一个热门课题 .文中提出了一种高效的基于条件概率分布的动态聚类算法来进行近似重复记录检测 .该方法在评估两个记录之间是否近似等价的问题上 ,解决了原来的...
数据集成往往会形成一些近似重复记录 ,如何检测重复信息是数据质量研究中的一个热门课题 .文中提出了一种高效的基于条件概率分布的动态聚类算法来进行近似重复记录检测 .该方法在评估两个记录之间是否近似等价的问题上 ,解决了原来的算法忽略序列结构特点的问题 ,基于条件概率分布定义了记录间的距离 ;并根据近邻函数准则选择了一个评议聚类结果质量的准则函数 ,采用动态聚类算法完成对序列数据集的聚类 .使用该方法 ,对仿真数据进行了聚类实验 。
展开更多
关键词
信息集成
近似重复记录
动态聚类
概率后缀树
下载PDF
职称材料
近似重复记录的增量式识别算法
被引量:
4
2
作者
许向阳
佘春红
《计算机工程与应用》
CSCD
北大核心
2003年第12期191-193,220,共4页
摘要数据清理是数据仓库中的一个重要研究内容,近似重复记录的识别是其中的一个技术难点。文章介绍了近邻排序方法,并以此为基础,研究了在数据模式与匹配规则不变的前提下,数据源动态增加时近似重复记录识别问题,提出了一种增量式算法IM...
摘要数据清理是数据仓库中的一个重要研究内容,近似重复记录的识别是其中的一个技术难点。文章介绍了近邻排序方法,并以此为基础,研究了在数据模式与匹配规则不变的前提下,数据源动态增加时近似重复记录识别问题,提出了一种增量式算法IMPN(IncrementalMulti-Passsorted-Neighborhood)。文章最后给出了实验结果。
展开更多
关键词
数据清理
近似重复记录
增量式识别
特征
记录
下载PDF
职称材料
近似重复记录的自适应距离度量检测
被引量:
2
3
作者
黄健斌
姬红兵
孙鹤立
《西安电子科技大学学报》
EI
CAS
CSCD
北大核心
2007年第2期331-336,共6页
提出了一种结合自适应字符串距离度量的记录相似度学习方法,用于多源Web数据集成中的重复记录检测.该方法首先使用最大熵分类器标注记录对中字段间的关联类型;然后根据每个字段对的关联类型,为其选择合适的距离函数;最后使用支持向量机...
提出了一种结合自适应字符串距离度量的记录相似度学习方法,用于多源Web数据集成中的重复记录检测.该方法首先使用最大熵分类器标注记录对中字段间的关联类型;然后根据每个字段对的关联类型,为其选择合适的距离函数;最后使用支持向量机通过组合多字段上的相似度来检测其中的重复记录对.在不同领域的数据集上的实验结果表明,该方法能够提高重复记录检测的精度,且具有良好的噪声数据抑制能力.
展开更多
关键词
近似重复记录
检测
记录
链接
实体匹配
数据集成
下载PDF
职称材料
多数据源近似重复记录增量式识别方法仿真
4
作者
蒙芳
翟建丽
《计算机仿真》
北大核心
2020年第8期362-365,423,共5页
在进行数据录入的过程中,经常会发生录错、数据源表现各异等状况。因而针对传统的多数据源近似重复记录增量式识别方法存在执行时间较长、查准率、查全率较低等问题,提出了一种基于MapReduce编程模型的多数据源近似重复记录增量式识别...
在进行数据录入的过程中,经常会发生录错、数据源表现各异等状况。因而针对传统的多数据源近似重复记录增量式识别方法存在执行时间较长、查准率、查全率较低等问题,提出了一种基于MapReduce编程模型的多数据源近似重复记录增量式识别方法。引用基本近邻排序方法将数据集中的记录按照设定的关键字进行排序,在排序后的数据集上移动一个固定大小的窗口,检测该窗口内的记录,并判断它们是否匹配。匹配结果通过MapReduce编程模型进行排序整合,采用跳动窗口进行重复数据记录识别,获取最终的识别结果。实验结果表明,所提方法在确保重复数据识别精度的基础上,有效节省了识别时间。
展开更多
关键词
多数据源
近似重复记录
增量式识别方法
下载PDF
职称材料
基于优先队列的增量式重复记录识别
被引量:
7
5
作者
佘春红
《计算机应用》
CSCD
北大核心
2003年第9期61-63,共3页
介绍了优先队列方法(PriorityQueueStrategy,PQS),并以此为基础,研究了在数据模式与匹配模型不变的前提下,数据源动态增加时近似重复记录识别问题,提出了一种增量式算法IPQS(IncrementalPQS),最后给出了实验结果。
关键词
数据清理
近似重复记录
增量式识别
特征
记录
下载PDF
职称材料
基于聚类分析技术的数据清洗研究
被引量:
11
6
作者
刘芳
何飞
《计算机工程与科学》
CSCD
2005年第6期70-71,77,共3页
数据清洗是建立数据仓库及进行数据挖掘的一个重要步骤。数据清洗的核心是检测近似重复记录,而聚类是将相似度高的数据对象聚集到一个类中的分析方法。本文描述的数据清洗过程就基于聚类分析,它将基于密度的改进聚类算法ICAD应用到数据...
数据清洗是建立数据仓库及进行数据挖掘的一个重要步骤。数据清洗的核心是检测近似重复记录,而聚类是将相似度高的数据对象聚集到一个类中的分析方法。本文描述的数据清洗过程就基于聚类分析,它将基于密度的改进聚类算法ICAD应用到数据清洗过程中,该算法通过不断调节密度发现近似重复记录,快速完成大容量数据清洗任务。
展开更多
关键词
数据清洗
近似重复记录
聚类
ICAD
下载PDF
职称材料
面向演化数据的代表性记录构建方法
7
作者
高广尚
《系统工程》
北大核心
2022年第3期137-148,共12页
对如何在不断快速演化的数据集中构建出规范的代表性记录,以确保Web应用的前端、后端能对数据集进行高效的比较分析开展了研究。论文首先分析记录之间的相似合并策略,具体包括记录间相似性策略、记录间合并策略和相似与合并组合策略,然...
对如何在不断快速演化的数据集中构建出规范的代表性记录,以确保Web应用的前端、后端能对数据集进行高效的比较分析开展了研究。论文首先分析记录之间的相似合并策略,具体包括记录间相似性策略、记录间合并策略和相似与合并组合策略,然后给出代表性记录的基本定义,并分析成为最佳代表性记录的先决条件,接着探讨面向演化数据的代表性记录构建方法,该方法首先在静态数据上利用匹配函数、合并函数生成代表性记录,然后在演化数据到来时基于出现操作及演化记录来有效更新先前生成的代表性记录集,最后通过实验和数据分析验证提出的方法。实验结果显示,提出的方法在静态数据上比传统方法更能提高生成质量,且在演化数据上具有良好的增量更新性能,最终保证提出的方法在演化数据环境下整体上的可行性和高效性。提出的方法不仅能有助于解决多源数据演化环境下的代表性记录高效构建问题,而且具有较好的稳定性和通用性,能适合诸多实际领域,因为它能适用于任何类型的相似性度量函数。
展开更多
关键词
近似重复记录
演化数据
代表性
记录
实体解析
原文传递
题名
一种基于条件概率分布的近似重复记录检测方法
被引量:
3
1
作者
缪嘉嘉
吴刚
毛捍东
杨强
邓苏
机构
国防科学技术大学计算机学院
国防科学技术大学人文管理学院
出处
《小型微型计算机系统》
CSCD
北大核心
2004年第12期2164-2168,共5页
基金
国家自然科学基金 ( 60 10 3 0 0 9)资助
文摘
数据集成往往会形成一些近似重复记录 ,如何检测重复信息是数据质量研究中的一个热门课题 .文中提出了一种高效的基于条件概率分布的动态聚类算法来进行近似重复记录检测 .该方法在评估两个记录之间是否近似等价的问题上 ,解决了原来的算法忽略序列结构特点的问题 ,基于条件概率分布定义了记录间的距离 ;并根据近邻函数准则选择了一个评议聚类结果质量的准则函数 ,采用动态聚类算法完成对序列数据集的聚类 .使用该方法 ,对仿真数据进行了聚类实验 。
关键词
信息集成
近似重复记录
动态聚类
概率后缀树
Keywords
information integration
approximately duplicated records
dynamic clustering
probabilistic suffix tree
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
近似重复记录的增量式识别算法
被引量:
4
2
作者
许向阳
佘春红
机构
华中科技大学计算机学院数据库与多媒体技术研究所
出处
《计算机工程与应用》
CSCD
北大核心
2003年第12期191-193,220,共4页
基金
国家科技攻关计划项目"科技部科技电子政务系统关键技术及应用系统的研究"(编号:2001BA110B01)
文摘
摘要数据清理是数据仓库中的一个重要研究内容,近似重复记录的识别是其中的一个技术难点。文章介绍了近邻排序方法,并以此为基础,研究了在数据模式与匹配规则不变的前提下,数据源动态增加时近似重复记录识别问题,提出了一种增量式算法IMPN(IncrementalMulti-Passsorted-Neighborhood)。文章最后给出了实验结果。
关键词
数据清理
近似重复记录
增量式识别
特征
记录
Keywords
Data cleaning,Approximately duplicate records,Incremental detection,Representative record
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
近似重复记录的自适应距离度量检测
被引量:
2
3
作者
黄健斌
姬红兵
孙鹤立
机构
西安电子科技大学电子工程学院
西安交通大学计算机科学与技术系
出处
《西安电子科技大学学报》
EI
CAS
CSCD
北大核心
2007年第2期331-336,共6页
基金
"十五"国家部委预研项目(41101050108)
西安电子科技大学博士生创新基金项目(05013)
文摘
提出了一种结合自适应字符串距离度量的记录相似度学习方法,用于多源Web数据集成中的重复记录检测.该方法首先使用最大熵分类器标注记录对中字段间的关联类型;然后根据每个字段对的关联类型,为其选择合适的距离函数;最后使用支持向量机通过组合多字段上的相似度来检测其中的重复记录对.在不同领域的数据集上的实验结果表明,该方法能够提高重复记录检测的精度,且具有良好的噪声数据抑制能力.
关键词
近似重复记录
检测
记录
链接
实体匹配
数据集成
Keywords
approximately duplicate records detection
record linkage
entity matching
data integration
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
多数据源近似重复记录增量式识别方法仿真
4
作者
蒙芳
翟建丽
机构
广东工业大学华立学院
出处
《计算机仿真》
北大核心
2020年第8期362-365,423,共5页
基金
基于开方式虚拟实验室计算机仿真学科改革与研究(2015GXJK185)。
文摘
在进行数据录入的过程中,经常会发生录错、数据源表现各异等状况。因而针对传统的多数据源近似重复记录增量式识别方法存在执行时间较长、查准率、查全率较低等问题,提出了一种基于MapReduce编程模型的多数据源近似重复记录增量式识别方法。引用基本近邻排序方法将数据集中的记录按照设定的关键字进行排序,在排序后的数据集上移动一个固定大小的窗口,检测该窗口内的记录,并判断它们是否匹配。匹配结果通过MapReduce编程模型进行排序整合,采用跳动窗口进行重复数据记录识别,获取最终的识别结果。实验结果表明,所提方法在确保重复数据识别精度的基础上,有效节省了识别时间。
关键词
多数据源
近似重复记录
增量式识别方法
Keywords
Multiple data sources
Approximate duplicate record
Incremental recognition method
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于优先队列的增量式重复记录识别
被引量:
7
5
作者
佘春红
机构
荆州师范学院信息科学学院
出处
《计算机应用》
CSCD
北大核心
2003年第9期61-63,共3页
文摘
介绍了优先队列方法(PriorityQueueStrategy,PQS),并以此为基础,研究了在数据模式与匹配模型不变的前提下,数据源动态增加时近似重复记录识别问题,提出了一种增量式算法IPQS(IncrementalPQS),最后给出了实验结果。
关键词
数据清理
近似重复记录
增量式识别
特征
记录
Keywords
data cleaning
approximately duplicate record
incremental detection
representative record
分类号
TP311.131 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于聚类分析技术的数据清洗研究
被引量:
11
6
作者
刘芳
何飞
机构
华中科技大学计算机科学与技术学院
出处
《计算机工程与科学》
CSCD
2005年第6期70-71,77,共3页
基金
国家"十五"重大科技专项课题(2001BA102A06 11)
文摘
数据清洗是建立数据仓库及进行数据挖掘的一个重要步骤。数据清洗的核心是检测近似重复记录,而聚类是将相似度高的数据对象聚集到一个类中的分析方法。本文描述的数据清洗过程就基于聚类分析,它将基于密度的改进聚类算法ICAD应用到数据清洗过程中,该算法通过不断调节密度发现近似重复记录,快速完成大容量数据清洗任务。
关键词
数据清洗
近似重复记录
聚类
ICAD
Keywords
data cleansing
approximately duplicate record
clustering
ICAD
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
面向演化数据的代表性记录构建方法
7
作者
高广尚
机构
桂林理工大学商学院
出处
《系统工程》
北大核心
2022年第3期137-148,共12页
基金
国家自然科学基金项资助目(71761008)
广西科技计划项目(桂科AD19245122)
桂林理工大学科研启动基金资助项目(GUTQDJJ2016020)。
文摘
对如何在不断快速演化的数据集中构建出规范的代表性记录,以确保Web应用的前端、后端能对数据集进行高效的比较分析开展了研究。论文首先分析记录之间的相似合并策略,具体包括记录间相似性策略、记录间合并策略和相似与合并组合策略,然后给出代表性记录的基本定义,并分析成为最佳代表性记录的先决条件,接着探讨面向演化数据的代表性记录构建方法,该方法首先在静态数据上利用匹配函数、合并函数生成代表性记录,然后在演化数据到来时基于出现操作及演化记录来有效更新先前生成的代表性记录集,最后通过实验和数据分析验证提出的方法。实验结果显示,提出的方法在静态数据上比传统方法更能提高生成质量,且在演化数据上具有良好的增量更新性能,最终保证提出的方法在演化数据环境下整体上的可行性和高效性。提出的方法不仅能有助于解决多源数据演化环境下的代表性记录高效构建问题,而且具有较好的稳定性和通用性,能适合诸多实际领域,因为它能适用于任何类型的相似性度量函数。
关键词
近似重复记录
演化数据
代表性
记录
实体解析
Keywords
Approximately Duplicate Records
Evolutionary Data
Canonical Records
Entity Resolution
分类号
TP301 [自动化与计算机技术—计算机系统结构]
原文传递
题名
作者
出处
发文年
被引量
操作
1
一种基于条件概率分布的近似重复记录检测方法
缪嘉嘉
吴刚
毛捍东
杨强
邓苏
《小型微型计算机系统》
CSCD
北大核心
2004
3
下载PDF
职称材料
2
近似重复记录的增量式识别算法
许向阳
佘春红
《计算机工程与应用》
CSCD
北大核心
2003
4
下载PDF
职称材料
3
近似重复记录的自适应距离度量检测
黄健斌
姬红兵
孙鹤立
《西安电子科技大学学报》
EI
CAS
CSCD
北大核心
2007
2
下载PDF
职称材料
4
多数据源近似重复记录增量式识别方法仿真
蒙芳
翟建丽
《计算机仿真》
北大核心
2020
0
下载PDF
职称材料
5
基于优先队列的增量式重复记录识别
佘春红
《计算机应用》
CSCD
北大核心
2003
7
下载PDF
职称材料
6
基于聚类分析技术的数据清洗研究
刘芳
何飞
《计算机工程与科学》
CSCD
2005
11
下载PDF
职称材料
7
面向演化数据的代表性记录构建方法
高广尚
《系统工程》
北大核心
2022
0
原文传递
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部