期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
一种基于条件概率分布的近似重复记录检测方法 被引量:3
1
作者 缪嘉嘉 吴刚 +2 位作者 毛捍东 杨强 邓苏 《小型微型计算机系统》 CSCD 北大核心 2004年第12期2164-2168,共5页
数据集成往往会形成一些近似重复记录 ,如何检测重复信息是数据质量研究中的一个热门课题 .文中提出了一种高效的基于条件概率分布的动态聚类算法来进行近似重复记录检测 .该方法在评估两个记录之间是否近似等价的问题上 ,解决了原来的... 数据集成往往会形成一些近似重复记录 ,如何检测重复信息是数据质量研究中的一个热门课题 .文中提出了一种高效的基于条件概率分布的动态聚类算法来进行近似重复记录检测 .该方法在评估两个记录之间是否近似等价的问题上 ,解决了原来的算法忽略序列结构特点的问题 ,基于条件概率分布定义了记录间的距离 ;并根据近邻函数准则选择了一个评议聚类结果质量的准则函数 ,采用动态聚类算法完成对序列数据集的聚类 .使用该方法 ,对仿真数据进行了聚类实验 。 展开更多
关键词 信息集成 近似重复记录 动态聚类 概率后缀树
下载PDF
近似重复记录的增量式识别算法 被引量:4
2
作者 许向阳 佘春红 《计算机工程与应用》 CSCD 北大核心 2003年第12期191-193,220,共4页
摘要数据清理是数据仓库中的一个重要研究内容,近似重复记录的识别是其中的一个技术难点。文章介绍了近邻排序方法,并以此为基础,研究了在数据模式与匹配规则不变的前提下,数据源动态增加时近似重复记录识别问题,提出了一种增量式算法IM... 摘要数据清理是数据仓库中的一个重要研究内容,近似重复记录的识别是其中的一个技术难点。文章介绍了近邻排序方法,并以此为基础,研究了在数据模式与匹配规则不变的前提下,数据源动态增加时近似重复记录识别问题,提出了一种增量式算法IMPN(IncrementalMulti-Passsorted-Neighborhood)。文章最后给出了实验结果。 展开更多
关键词 数据清理 近似重复记录 增量式识别 特征记录
下载PDF
近似重复记录的自适应距离度量检测 被引量:2
3
作者 黄健斌 姬红兵 孙鹤立 《西安电子科技大学学报》 EI CAS CSCD 北大核心 2007年第2期331-336,共6页
提出了一种结合自适应字符串距离度量的记录相似度学习方法,用于多源Web数据集成中的重复记录检测.该方法首先使用最大熵分类器标注记录对中字段间的关联类型;然后根据每个字段对的关联类型,为其选择合适的距离函数;最后使用支持向量机... 提出了一种结合自适应字符串距离度量的记录相似度学习方法,用于多源Web数据集成中的重复记录检测.该方法首先使用最大熵分类器标注记录对中字段间的关联类型;然后根据每个字段对的关联类型,为其选择合适的距离函数;最后使用支持向量机通过组合多字段上的相似度来检测其中的重复记录对.在不同领域的数据集上的实验结果表明,该方法能够提高重复记录检测的精度,且具有良好的噪声数据抑制能力. 展开更多
关键词 近似重复记录检测 记录链接 实体匹配 数据集成
下载PDF
多数据源近似重复记录增量式识别方法仿真
4
作者 蒙芳 翟建丽 《计算机仿真》 北大核心 2020年第8期362-365,423,共5页
在进行数据录入的过程中,经常会发生录错、数据源表现各异等状况。因而针对传统的多数据源近似重复记录增量式识别方法存在执行时间较长、查准率、查全率较低等问题,提出了一种基于MapReduce编程模型的多数据源近似重复记录增量式识别... 在进行数据录入的过程中,经常会发生录错、数据源表现各异等状况。因而针对传统的多数据源近似重复记录增量式识别方法存在执行时间较长、查准率、查全率较低等问题,提出了一种基于MapReduce编程模型的多数据源近似重复记录增量式识别方法。引用基本近邻排序方法将数据集中的记录按照设定的关键字进行排序,在排序后的数据集上移动一个固定大小的窗口,检测该窗口内的记录,并判断它们是否匹配。匹配结果通过MapReduce编程模型进行排序整合,采用跳动窗口进行重复数据记录识别,获取最终的识别结果。实验结果表明,所提方法在确保重复数据识别精度的基础上,有效节省了识别时间。 展开更多
关键词 多数据源 近似重复记录 增量式识别方法
下载PDF
基于优先队列的增量式重复记录识别 被引量:7
5
作者 佘春红 《计算机应用》 CSCD 北大核心 2003年第9期61-63,共3页
介绍了优先队列方法(PriorityQueueStrategy,PQS),并以此为基础,研究了在数据模式与匹配模型不变的前提下,数据源动态增加时近似重复记录识别问题,提出了一种增量式算法IPQS(IncrementalPQS),最后给出了实验结果。
关键词 数据清理 近似重复记录 增量式识别 特征记录
下载PDF
基于聚类分析技术的数据清洗研究 被引量:11
6
作者 刘芳 何飞 《计算机工程与科学》 CSCD 2005年第6期70-71,77,共3页
数据清洗是建立数据仓库及进行数据挖掘的一个重要步骤。数据清洗的核心是检测近似重复记录,而聚类是将相似度高的数据对象聚集到一个类中的分析方法。本文描述的数据清洗过程就基于聚类分析,它将基于密度的改进聚类算法ICAD应用到数据... 数据清洗是建立数据仓库及进行数据挖掘的一个重要步骤。数据清洗的核心是检测近似重复记录,而聚类是将相似度高的数据对象聚集到一个类中的分析方法。本文描述的数据清洗过程就基于聚类分析,它将基于密度的改进聚类算法ICAD应用到数据清洗过程中,该算法通过不断调节密度发现近似重复记录,快速完成大容量数据清洗任务。 展开更多
关键词 数据清洗 近似重复记录 聚类 ICAD
下载PDF
面向演化数据的代表性记录构建方法
7
作者 高广尚 《系统工程》 北大核心 2022年第3期137-148,共12页
对如何在不断快速演化的数据集中构建出规范的代表性记录,以确保Web应用的前端、后端能对数据集进行高效的比较分析开展了研究。论文首先分析记录之间的相似合并策略,具体包括记录间相似性策略、记录间合并策略和相似与合并组合策略,然... 对如何在不断快速演化的数据集中构建出规范的代表性记录,以确保Web应用的前端、后端能对数据集进行高效的比较分析开展了研究。论文首先分析记录之间的相似合并策略,具体包括记录间相似性策略、记录间合并策略和相似与合并组合策略,然后给出代表性记录的基本定义,并分析成为最佳代表性记录的先决条件,接着探讨面向演化数据的代表性记录构建方法,该方法首先在静态数据上利用匹配函数、合并函数生成代表性记录,然后在演化数据到来时基于出现操作及演化记录来有效更新先前生成的代表性记录集,最后通过实验和数据分析验证提出的方法。实验结果显示,提出的方法在静态数据上比传统方法更能提高生成质量,且在演化数据上具有良好的增量更新性能,最终保证提出的方法在演化数据环境下整体上的可行性和高效性。提出的方法不仅能有助于解决多源数据演化环境下的代表性记录高效构建问题,而且具有较好的稳定性和通用性,能适合诸多实际领域,因为它能适用于任何类型的相似性度量函数。 展开更多
关键词 近似重复记录 演化数据 代表性记录 实体解析
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部