期刊文献+
共找到16篇文章
< 1 >
每页显示 20 50 100
对基于SNM数据清洗算法的优化 被引量:17
1
作者 张建中 方正 +1 位作者 熊拥军 袁小一 《中南大学学报(自然科学版)》 EI CAS CSCD 北大核心 2010年第6期2240-2245,共6页
对基本邻近排序算法SNM(basic sorted-neighborhood method)进行分析,指出其不足;提出基于SNM算法的一种优化算法,通过采集中南大学冶金矿物工程机构知识库的2 000多条文献记录作为样本数据进行实验研究,对记录的"脏数据"按... 对基本邻近排序算法SNM(basic sorted-neighborhood method)进行分析,指出其不足;提出基于SNM算法的一种优化算法,通过采集中南大学冶金矿物工程机构知识库的2 000多条文献记录作为样本数据进行实验研究,对记录的"脏数据"按照DC标准和相关规范进行清洗与排重。研究结果表明:与SNM算法相比,在同样的运算环境下,优化算法在招回率、误识别率和执行时间上有明显优势。 展开更多
关键词 数据挖掘 数据清洗 重复记录 snm算法
下载PDF
基于伸缩窗口和等级调整的SNM改进方法 被引量:14
2
作者 陈爽 刁兴春 +2 位作者 宋金玉 曹建军 丁晨路 《计算机应用研究》 CSCD 北大核心 2013年第9期2736-2739,共4页
对基本邻近排序算法(basic sorted-neighborhood method,SNM)进行分析,指出其不足,提出了SNM算法的一种改进方法。采用变步长伸缩窗口,动态改变检测窗口大小,避免漏配问题,并减少不必要的比较。采用动态调整等级法,根据记录相似度调整... 对基本邻近排序算法(basic sorted-neighborhood method,SNM)进行分析,指出其不足,提出了SNM算法的一种改进方法。采用变步长伸缩窗口,动态改变检测窗口大小,避免漏配问题,并减少不必要的比较。采用动态调整等级法,根据记录相似度调整字段等级,并通过等级法将字段等级转换为权重,解决了人为赋予固定权重主观性强、不准确的问题。通过对实际系统中的数据进行测试,验证了方法的有效性和优越性。同时,这两种方法适用于大多数基于排序—合并的相似重复记录检测方法,提高了相应方法的效率和准确度。 展开更多
关键词 数据清洗 相似重复记录 变步长伸缩窗口 动态调整等级 基本邻近排序算法
下载PDF
基于SNM改进算法的相似重复记录消除 被引量:9
3
作者 余肖生 胡孙枝 《重庆理工大学学报(自然科学)》 CAS 2016年第4期91-96,共6页
高质量的数据是构建数据仓库的最重要因素,低质量的数据可能对决策产生不利影响。来自不同数据源的相似重复记录是数据仓库构建中影响数据质量的主要问题之一,在源数据进入数据仓库之前尽可能地消除相似重复记录能很大程度地提高数据质... 高质量的数据是构建数据仓库的最重要因素,低质量的数据可能对决策产生不利影响。来自不同数据源的相似重复记录是数据仓库构建中影响数据质量的主要问题之一,在源数据进入数据仓库之前尽可能地消除相似重复记录能很大程度地提高数据质量。为此,比较了现有的相似重复记录消除算法,改进了SNM算法,并通过实验比较了传统SNM方法与改进SNM算法。实验结果显示:在相似重复记录消除方面,SNM改进算法具有明显的优势。 展开更多
关键词 snm算法 snm改进算法 相似重复记录消除
下载PDF
改进的SNM中文语义重复记录检测算法 被引量:5
4
作者 袁满 穆永豪 +1 位作者 王贵友 于再富 《吉林大学学报(信息科学版)》 CAS 2021年第3期348-356,共9页
为解决中文数据的重复检测问题,在SNM(Sorted-Neighborhood Method)算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法,通过利用《同义词词林扩展版》和Jaccard算法计算词语相似度,同时采用Python中Ji... 为解决中文数据的重复检测问题,在SNM(Sorted-Neighborhood Method)算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法,通过利用《同义词词林扩展版》和Jaccard算法计算词语相似度,同时采用Python中Jieba中文分词的方式对语句进行分词,从而达到优化余弦相似度算法计算语句相似度。改进后的算法能有效的对记录为中文的字段和语句进行重复记录检测。并通过对某辅导机构学生测验信息数据集进行实验,实验结果表明,该算法的查全率及查准率比传统SNM算法有了很大提高。 展开更多
关键词 相似重复记录 snm算法 中文分词
下载PDF
基于模糊综合评判和长度过滤的SNM改进算法 被引量:1
5
作者 郭文龙 董建怀 《武汉工程大学学报》 CAS 2017年第4期403-408,共6页
为了提高数据库的数据质量,需要对相似重复记录进行清洗,基本邻近排序算法是目前常用的清洗算法之一.针对判重过程中属性权值计算主观性过强的问题,提出通过多用户综合评判确定属性权值的方法,该方法能更客观地评判属性的重要性程度.在... 为了提高数据库的数据质量,需要对相似重复记录进行清洗,基本邻近排序算法是目前常用的清洗算法之一.针对判重过程中属性权值计算主观性过强的问题,提出通过多用户综合评判确定属性权值的方法,该方法能更客观地评判属性的重要性程度.在此基础上,结合属性权值计算两条记录的长度比例,排除不可能构成相似重复的记录,减少了比较次数,提高了检测效率.实验结果表明改进算法在查全率、查准率及时间效率等方面均有所提高. 展开更多
关键词 相似重复记录 模糊综合评判 属性 长度过滤 snm 算法
下载PDF
基于长度过滤和动态容错的SNM改进算法 被引量:9
6
作者 刘雅思 程力 李晓 《计算机应用研究》 CSCD 北大核心 2017年第1期147-150,155,共5页
数据仓库中相似重复记录的清洗对于数据质量影响很大,传统的基本邻近排序算法(sorted-neighborhood method,SNM)时间效率和准确率均不高。针对SNM算法的缺陷,提出了一种基于长度过滤和动态容错的SNM改进算法。根据两条记录的长度比例和... 数据仓库中相似重复记录的清洗对于数据质量影响很大,传统的基本邻近排序算法(sorted-neighborhood method,SNM)时间效率和准确率均不高。针对SNM算法的缺陷,提出了一种基于长度过滤和动态容错的SNM改进算法。根据两条记录的长度比例和属性缺失情况,首先排除一部分不可能构成相似重复记录的数据,减少比较次数,提高检测效率;进一步提出了动态容错法,校准字段相似度评判结果,解决了因属性缺失而误判的问题,提高了准确率。针对实际数据集的实验分析表明,在相同的运算环境下,优化算法在准确率和时间效率上有明显优势。 展开更多
关键词 数据清洗 相似重复记录 snm算法 动态容错 字段匹配
下载PDF
基于SNM算法的大数据量中文商品清洗方法 被引量:1
7
作者 张苗苗 苏勇 《计算机与数字工程》 2019年第3期625-627,661,共4页
SNM算法即邻近排序算法,是英文数据清洗最常用的算法[1]。目前为止,因为中英文语义的差异等一些原因,中文数据清洗还未形成完整的理论,现有中文数据清洗算法大多数是基于改编英文数据清洗算法而来的[2~3]。论文介绍数算法,论述该算法... SNM算法即邻近排序算法,是英文数据清洗最常用的算法[1]。目前为止,因为中英文语义的差异等一些原因,中文数据清洗还未形成完整的理论,现有中文数据清洗算法大多数是基于改编英文数据清洗算法而来的[2~3]。论文介绍数算法,论述该算法的缺陷,针对缺陷进项改进,并提出实际中的应用场景。通过实验结果显示,在相似重复记录消除方面,SNM改进算法具有明显的优势。 展开更多
关键词 snm算法 数据清洗 重复记录
下载PDF
基于字段过滤和伸缩窗口的SNM算法优化
8
作者 周世杰 娄渊胜 《计算机工程与科学》 CSCD 北大核心 2022年第4期699-706,共8页
数据仓库中的问题数据对数据质量有较大的影响,为了查找和去除这些问题数据,首要的工作是处理相似重复数据,目前针对重复数据清除应用最多的算法是基本邻近排序算法(SNM)。通过分析SNM算法的缺陷,提出了一种改进的SNM算法——ISNM。采... 数据仓库中的问题数据对数据质量有较大的影响,为了查找和去除这些问题数据,首要的工作是处理相似重复数据,目前针对重复数据清除应用最多的算法是基本邻近排序算法(SNM)。通过分析SNM算法的缺陷,提出了一种改进的SNM算法——ISNM。采用属性区分法计算属性权值,解决了人为主观赋予权值导致的问题;使用字段过滤算法计算2条记录的相似度,减少了窗口内记录属性的比对次数,加快了算法的检测速度;使用可变窗口代替固定大小的窗口,防止记录漏配并减少无用的记录比对。实验结果表明,改进后的ISNM算法在查全率、查准率和运行时间开销上有明显的优势。 展开更多
关键词 数据质量 数据清洗 相似重复记录 snm算法
下载PDF
基于聚类分组和属性综合权值的SNM改进算法 被引量:6
9
作者 杨巧巧 郭振波 王开西 《工业控制计算机》 2017年第9期27-28,31,共3页
在处理大量业务数据时,传统的基本临近排序算法(sorted-neighborhood method,SNM)查准率、查全率均不高。针对SNM算法的缺陷,提出了一种基于聚类分组和属性综合权值的SNM改进算法。该算法基于分层思想,首先采用聚类分组的方式将海量数... 在处理大量业务数据时,传统的基本临近排序算法(sorted-neighborhood method,SNM)查准率、查全率均不高。针对SNM算法的缺陷,提出了一种基于聚类分组和属性综合权值的SNM改进算法。该算法基于分层思想,首先采用聚类分组的方式将海量数据进行分组,然后对各属性设置综合权值最后再进行相似重复记录的识别。其中聚类分组法能有效减少记录之间的比对次数,提高检测效率;属性综合权值的方法能更加准确反映各属性对记录的贡献度,针对实际数据集的实验分析表明,聚类分组法和属性综合权值法两者结合在提高查准率、查全率等方面均优于传统的SNM算法。 展开更多
关键词 相似重复记录 聚类分组 属性综合权值 snm算法 属性匹配
下载PDF
一种改进的基于RFID中间件的冗余数据清洗算法 被引量:10
10
作者 陈旭辉 王馨 柯铭 《微电子学与计算机》 CSCD 北大核心 2013年第7期154-158,共5页
针对RFID中间件冗余数据处理问题,提出一种改进的基本临近有序法(SNM)算法.通过对大量RFID数据进行分组,采用随机因子改变窗口大小对数据进行清洗,并在算法的实现过程中采用循环处理方式.经实验证明该改进算法能有效提高数据处理效率,... 针对RFID中间件冗余数据处理问题,提出一种改进的基本临近有序法(SNM)算法.通过对大量RFID数据进行分组,采用随机因子改变窗口大小对数据进行清洗,并在算法的实现过程中采用循环处理方式.经实验证明该改进算法能有效提高数据处理效率,并在召回率和数据处理时间上均优于原SNM算法. 展开更多
关键词 RFID中间件 冗余数据 数据清洗 snm算法
下载PDF
基于划分的海量数据相似重复记录检测 被引量:7
11
作者 李莉 张晓雯 《计算机系统应用》 2019年第3期172-178,共7页
针对目前社工库存储的海量数据,数据冗余、查询效率低下的质量问题,本文提出了一种有效的基于划分的近邻排序算法.对不同渠道采集、以不同存储方式存储的社工数据进行整合形成能以二维表形式存储的海量数据集,采用划分思想,对大数据集... 针对目前社工库存储的海量数据,数据冗余、查询效率低下的质量问题,本文提出了一种有效的基于划分的近邻排序算法.对不同渠道采集、以不同存储方式存储的社工数据进行整合形成能以二维表形式存储的海量数据集,采用划分思想,对大数据集进行分割,形成簇;采用改进的近邻排序算法对各个簇中的小数据集进行检测得到最终的相似重复记录检测结果.实验和对比分析结果表明,划分和近邻排序算法的结合使用不仅提高了海量数据相似重复记录检测的时间效率,检测准确率也有所提升. 展开更多
关键词 数据质量 数据清洗 相似重复记录 划分 snm算法
下载PDF
一种面向工业边缘计算应用的缓存替换算法 被引量:4
12
作者 张雷 李琳 +1 位作者 陈鸿龙 Daniel Bovensiepen 《计算机研究与发展》 EI CSCD 北大核心 2021年第7期1533-1543,共11页
工业应用对数据传输的确定性有严格要求,有必要通过合理的缓存策略保障工业边缘网络的实时服务性能保障.首先面向工业边缘计算应用场景阐述了边缘缓存问题模型.然后分析了工业应用中用户请求的动态性特点,结合工业用户请求的特征属性,... 工业应用对数据传输的确定性有严格要求,有必要通过合理的缓存策略保障工业边缘网络的实时服务性能保障.首先面向工业边缘计算应用场景阐述了边缘缓存问题模型.然后分析了工业应用中用户请求的动态性特点,结合工业用户请求的特征属性,给出用户请求内容流行度变化的预测方法.在此基础上提出了基于属性特征流行度预测的缓存替换(combing periodic popularity prediction and size caching strategy,PPPS)算法,根据最近周期窗口内主导属性特征的热度预测值,和尺寸参数一起确定缓存内容价值.实验结果表明:与MPC(most-popular content)、贪婪双尺寸(greedy dual size,GDS)、最近最久未使用(least recently used,LRU)、最近最少访问频次(least frequently used,LFU)、先进先出(first in first out,FIFO)这5种经典算法相比,提出的PPPS算法在缓存命中率和平均延迟2种性能指标下,在不同的用户请求模型、内容大小分布、内容种类参数下均取得最优性能,有效提升了边缘缓存的命中率,提高了缓存利用效率,降低了用户请求内容的延迟. 展开更多
关键词 工业应用 边缘计算 缓存替换算法 散粒噪声模型 流行度预测
下载PDF
基于R-树索引的高维相似重复记录检测改进算法 被引量:3
13
作者 宋国兴 周喜 +1 位作者 马博 赵凡 《微电子学与计算机》 CSCD 北大核心 2017年第9期97-102,共6页
经典的相似重复记录检测算法SNM算法随着记录维度的增加,投影过程不仅会导致数据丢失,算法的误差率也会明显增大.针对SNM算法的不足,提出DRR算法,利用R-树构建索引保留记录的高维空间特性,通过聚类减少记录在叶子节点中的比较次数提高效... 经典的相似重复记录检测算法SNM算法随着记录维度的增加,投影过程不仅会导致数据丢失,算法的误差率也会明显增大.针对SNM算法的不足,提出DRR算法,利用R-树构建索引保留记录的高维空间特性,通过聚类减少记录在叶子节点中的比较次数提高效率,同时改进度量记录相似性的距离算法,避免高维数据稀疏性的影响.最后,通过真实数据在不同维度上分别与SNM算法进行对比,验证了算法的有效性. 展开更多
关键词 snm算法 R-树索引 高维空间特性 改进距离算法 数据稀疏性
下载PDF
基于增量自适应的邻近排序算法优化 被引量:2
14
作者 杨晓东 李军 +1 位作者 王继荣 王芳 《青岛大学学报(自然科学版)》 CAS 2017年第2期53-57,共5页
数据库中相似重复记录的清洗是提高数据质量的有效措施,传统的邻近排序算法SNM的滑动窗口难以确定,而且要对窗口内的所有记录进行比对,效率不高。针对SNM算法的这一缺陷,提出了窗口大小动态变化的增量自适应的SNM算法,窗口的大小由当前... 数据库中相似重复记录的清洗是提高数据质量的有效措施,传统的邻近排序算法SNM的滑动窗口难以确定,而且要对窗口内的所有记录进行比对,效率不高。针对SNM算法的这一缺陷,提出了窗口大小动态变化的增量自适应的SNM算法,窗口的大小由当前出口的大小、窗口内第一条和最后一条记录的距离以及记录最短记录阈值确定,这样可以去掉很多无用的比较操作,提升数据清洗效率。 展开更多
关键词 相似重复记录 数据清洗 增量自 适应 snm算法
下载PDF
SDH网管系统简单路由查询算法的设计与实现
15
作者 刘犁 张杰 +1 位作者 杨芳南 陈旭东 《光通信研究》 北大核心 2004年第3期30-32,共3页
提出了一次性查找出所有简单路由的算法.为查询子网管理系统(SNMS)管理域中任意两个插/分处处用器(ADM)网元之间所有路由上的空闲时隙,此路由算法一次性计算出从起点网元(NE)到终点NE的所有可用路由,经实践验证,存储量需求和计算时间较好.
关键词 SDH网管系统 路由算法 子网管理系统 网元 光传送网 插/分复用器 同步数字体系
下载PDF
面向时序的相似重复数据清洗算法优化
16
作者 沈沛 毛海涛 +1 位作者 胡文林 芮波 《计算机时代》 2022年第9期68-72,77,共6页
针对海量时序数据集提出了一种相似重复数据检测算法。该算法以传统近邻排序算法SNM为基础,增加了对窗口大小的动态调整策略,新增了窗口跳跃滑动策略。新策略大大减少了相似重复数据清洗过程中的比对次数。该算法的提出,对时序数据集中... 针对海量时序数据集提出了一种相似重复数据检测算法。该算法以传统近邻排序算法SNM为基础,增加了对窗口大小的动态调整策略,新增了窗口跳跃滑动策略。新策略大大减少了相似重复数据清洗过程中的比对次数。该算法的提出,对时序数据集中的相似重复记录清洗效果带来了极大的提升,尤其是对于相似重复记录较稀疏的数据集,在理论和实验结果中均表明该算法在提高相似重复数据的检测性能上有显著效果。 展开更多
关键词 时序数据 snm改进算法 相似重复数据 动态滑动窗口 数据清洗
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部