期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
16
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
对基于SNM数据清洗算法的优化
被引量:
17
1
作者
张建中
方正
+1 位作者
熊拥军
袁小一
《中南大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2010年第6期2240-2245,共6页
对基本邻近排序算法SNM(basic sorted-neighborhood method)进行分析,指出其不足;提出基于SNM算法的一种优化算法,通过采集中南大学冶金矿物工程机构知识库的2 000多条文献记录作为样本数据进行实验研究,对记录的"脏数据"按...
对基本邻近排序算法SNM(basic sorted-neighborhood method)进行分析,指出其不足;提出基于SNM算法的一种优化算法,通过采集中南大学冶金矿物工程机构知识库的2 000多条文献记录作为样本数据进行实验研究,对记录的"脏数据"按照DC标准和相关规范进行清洗与排重。研究结果表明:与SNM算法相比,在同样的运算环境下,优化算法在招回率、误识别率和执行时间上有明显优势。
展开更多
关键词
数据挖掘
数据清洗
重复记录
snm
算法
下载PDF
职称材料
基于伸缩窗口和等级调整的SNM改进方法
被引量:
14
2
作者
陈爽
刁兴春
+2 位作者
宋金玉
曹建军
丁晨路
《计算机应用研究》
CSCD
北大核心
2013年第9期2736-2739,共4页
对基本邻近排序算法(basic sorted-neighborhood method,SNM)进行分析,指出其不足,提出了SNM算法的一种改进方法。采用变步长伸缩窗口,动态改变检测窗口大小,避免漏配问题,并减少不必要的比较。采用动态调整等级法,根据记录相似度调整...
对基本邻近排序算法(basic sorted-neighborhood method,SNM)进行分析,指出其不足,提出了SNM算法的一种改进方法。采用变步长伸缩窗口,动态改变检测窗口大小,避免漏配问题,并减少不必要的比较。采用动态调整等级法,根据记录相似度调整字段等级,并通过等级法将字段等级转换为权重,解决了人为赋予固定权重主观性强、不准确的问题。通过对实际系统中的数据进行测试,验证了方法的有效性和优越性。同时,这两种方法适用于大多数基于排序—合并的相似重复记录检测方法,提高了相应方法的效率和准确度。
展开更多
关键词
数据清洗
相似重复记录
变步长伸缩窗口
动态调整等级
基本邻近排序算法
下载PDF
职称材料
基于长度过滤和动态容错的SNM改进算法
被引量:
9
3
作者
刘雅思
程力
李晓
《计算机应用研究》
CSCD
北大核心
2017年第1期147-150,155,共5页
数据仓库中相似重复记录的清洗对于数据质量影响很大,传统的基本邻近排序算法(sorted-neighborhood method,SNM)时间效率和准确率均不高。针对SNM算法的缺陷,提出了一种基于长度过滤和动态容错的SNM改进算法。根据两条记录的长度比例和...
数据仓库中相似重复记录的清洗对于数据质量影响很大,传统的基本邻近排序算法(sorted-neighborhood method,SNM)时间效率和准确率均不高。针对SNM算法的缺陷,提出了一种基于长度过滤和动态容错的SNM改进算法。根据两条记录的长度比例和属性缺失情况,首先排除一部分不可能构成相似重复记录的数据,减少比较次数,提高检测效率;进一步提出了动态容错法,校准字段相似度评判结果,解决了因属性缺失而误判的问题,提高了准确率。针对实际数据集的实验分析表明,在相同的运算环境下,优化算法在准确率和时间效率上有明显优势。
展开更多
关键词
数据清洗
相似重复记录
snm
算法
动态容错
字段匹配
下载PDF
职称材料
基于SNM改进算法的相似重复记录消除
被引量:
9
4
作者
余肖生
胡孙枝
《重庆理工大学学报(自然科学)》
CAS
2016年第4期91-96,共6页
高质量的数据是构建数据仓库的最重要因素,低质量的数据可能对决策产生不利影响。来自不同数据源的相似重复记录是数据仓库构建中影响数据质量的主要问题之一,在源数据进入数据仓库之前尽可能地消除相似重复记录能很大程度地提高数据质...
高质量的数据是构建数据仓库的最重要因素,低质量的数据可能对决策产生不利影响。来自不同数据源的相似重复记录是数据仓库构建中影响数据质量的主要问题之一,在源数据进入数据仓库之前尽可能地消除相似重复记录能很大程度地提高数据质量。为此,比较了现有的相似重复记录消除算法,改进了SNM算法,并通过实验比较了传统SNM方法与改进SNM算法。实验结果显示:在相似重复记录消除方面,SNM改进算法具有明显的优势。
展开更多
关键词
snm
算法
snm
改进算法
相似重复记录消除
下载PDF
职称材料
改进的SNM中文语义重复记录检测算法
被引量:
5
5
作者
袁满
穆永豪
+1 位作者
王贵友
于再富
《吉林大学学报(信息科学版)》
CAS
2021年第3期348-356,共9页
为解决中文数据的重复检测问题,在SNM(Sorted-Neighborhood Method)算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法,通过利用《同义词词林扩展版》和Jaccard算法计算词语相似度,同时采用Python中Ji...
为解决中文数据的重复检测问题,在SNM(Sorted-Neighborhood Method)算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法,通过利用《同义词词林扩展版》和Jaccard算法计算词语相似度,同时采用Python中Jieba中文分词的方式对语句进行分词,从而达到优化余弦相似度算法计算语句相似度。改进后的算法能有效的对记录为中文的字段和语句进行重复记录检测。并通过对某辅导机构学生测验信息数据集进行实验,实验结果表明,该算法的查全率及查准率比传统SNM算法有了很大提高。
展开更多
关键词
相似重复记录
snm
算法
中文分词
下载PDF
职称材料
基于模糊综合评判和长度过滤的SNM改进算法
被引量:
1
6
作者
郭文龙
董建怀
《武汉工程大学学报》
CAS
2017年第4期403-408,共6页
为了提高数据库的数据质量,需要对相似重复记录进行清洗,基本邻近排序算法是目前常用的清洗算法之一.针对判重过程中属性权值计算主观性过强的问题,提出通过多用户综合评判确定属性权值的方法,该方法能更客观地评判属性的重要性程度.在...
为了提高数据库的数据质量,需要对相似重复记录进行清洗,基本邻近排序算法是目前常用的清洗算法之一.针对判重过程中属性权值计算主观性过强的问题,提出通过多用户综合评判确定属性权值的方法,该方法能更客观地评判属性的重要性程度.在此基础上,结合属性权值计算两条记录的长度比例,排除不可能构成相似重复的记录,减少了比较次数,提高了检测效率.实验结果表明改进算法在查全率、查准率及时间效率等方面均有所提高.
展开更多
关键词
相似重复记录
模糊综合评判
属性
长度过滤
snm
算法
下载PDF
职称材料
基于字段过滤和伸缩窗口的SNM算法优化
被引量:
1
7
作者
周世杰
娄渊胜
《计算机工程与科学》
CSCD
北大核心
2022年第4期699-706,共8页
数据仓库中的问题数据对数据质量有较大的影响,为了查找和去除这些问题数据,首要的工作是处理相似重复数据,目前针对重复数据清除应用最多的算法是基本邻近排序算法(SNM)。通过分析SNM算法的缺陷,提出了一种改进的SNM算法——ISNM。采...
数据仓库中的问题数据对数据质量有较大的影响,为了查找和去除这些问题数据,首要的工作是处理相似重复数据,目前针对重复数据清除应用最多的算法是基本邻近排序算法(SNM)。通过分析SNM算法的缺陷,提出了一种改进的SNM算法——ISNM。采用属性区分法计算属性权值,解决了人为主观赋予权值导致的问题;使用字段过滤算法计算2条记录的相似度,减少了窗口内记录属性的比对次数,加快了算法的检测速度;使用可变窗口代替固定大小的窗口,防止记录漏配并减少无用的记录比对。实验结果表明,改进后的ISNM算法在查全率、查准率和运行时间开销上有明显的优势。
展开更多
关键词
数据质量
数据清洗
相似重复记录
snm
算法
下载PDF
职称材料
基于SNM算法的大数据量中文商品清洗方法
被引量:
1
8
作者
张苗苗
苏勇
《计算机与数字工程》
2019年第3期625-627,661,共4页
SNM算法即邻近排序算法,是英文数据清洗最常用的算法[1]。目前为止,因为中英文语义的差异等一些原因,中文数据清洗还未形成完整的理论,现有中文数据清洗算法大多数是基于改编英文数据清洗算法而来的[2~3]。论文介绍数算法,论述该算法...
SNM算法即邻近排序算法,是英文数据清洗最常用的算法[1]。目前为止,因为中英文语义的差异等一些原因,中文数据清洗还未形成完整的理论,现有中文数据清洗算法大多数是基于改编英文数据清洗算法而来的[2~3]。论文介绍数算法,论述该算法的缺陷,针对缺陷进项改进,并提出实际中的应用场景。通过实验结果显示,在相似重复记录消除方面,SNM改进算法具有明显的优势。
展开更多
关键词
snm
算法
数据清洗
重复记录
下载PDF
职称材料
基于聚类分组和属性综合权值的SNM改进算法
被引量:
6
9
作者
杨巧巧
郭振波
王开西
《工业控制计算机》
2017年第9期27-28,31,共3页
在处理大量业务数据时,传统的基本临近排序算法(sorted-neighborhood method,SNM)查准率、查全率均不高。针对SNM算法的缺陷,提出了一种基于聚类分组和属性综合权值的SNM改进算法。该算法基于分层思想,首先采用聚类分组的方式将海量数...
在处理大量业务数据时,传统的基本临近排序算法(sorted-neighborhood method,SNM)查准率、查全率均不高。针对SNM算法的缺陷,提出了一种基于聚类分组和属性综合权值的SNM改进算法。该算法基于分层思想,首先采用聚类分组的方式将海量数据进行分组,然后对各属性设置综合权值最后再进行相似重复记录的识别。其中聚类分组法能有效减少记录之间的比对次数,提高检测效率;属性综合权值的方法能更加准确反映各属性对记录的贡献度,针对实际数据集的实验分析表明,聚类分组法和属性综合权值法两者结合在提高查准率、查全率等方面均优于传统的SNM算法。
展开更多
关键词
相似重复记录
聚类分组
属性综合权值
snm
算法
属性匹配
下载PDF
职称材料
一种改进的基于RFID中间件的冗余数据清洗算法
被引量:
10
10
作者
陈旭辉
王馨
柯铭
《微电子学与计算机》
CSCD
北大核心
2013年第7期154-158,共5页
针对RFID中间件冗余数据处理问题,提出一种改进的基本临近有序法(SNM)算法.通过对大量RFID数据进行分组,采用随机因子改变窗口大小对数据进行清洗,并在算法的实现过程中采用循环处理方式.经实验证明该改进算法能有效提高数据处理效率,...
针对RFID中间件冗余数据处理问题,提出一种改进的基本临近有序法(SNM)算法.通过对大量RFID数据进行分组,采用随机因子改变窗口大小对数据进行清洗,并在算法的实现过程中采用循环处理方式.经实验证明该改进算法能有效提高数据处理效率,并在召回率和数据处理时间上均优于原SNM算法.
展开更多
关键词
RFID中间件
冗余数据
数据清洗
snm
算法
下载PDF
职称材料
基于划分的海量数据相似重复记录检测
被引量:
7
11
作者
李莉
张晓雯
《计算机系统应用》
2019年第3期172-178,共7页
针对目前社工库存储的海量数据,数据冗余、查询效率低下的质量问题,本文提出了一种有效的基于划分的近邻排序算法.对不同渠道采集、以不同存储方式存储的社工数据进行整合形成能以二维表形式存储的海量数据集,采用划分思想,对大数据集...
针对目前社工库存储的海量数据,数据冗余、查询效率低下的质量问题,本文提出了一种有效的基于划分的近邻排序算法.对不同渠道采集、以不同存储方式存储的社工数据进行整合形成能以二维表形式存储的海量数据集,采用划分思想,对大数据集进行分割,形成簇;采用改进的近邻排序算法对各个簇中的小数据集进行检测得到最终的相似重复记录检测结果.实验和对比分析结果表明,划分和近邻排序算法的结合使用不仅提高了海量数据相似重复记录检测的时间效率,检测准确率也有所提升.
展开更多
关键词
数据质量
数据清洗
相似重复记录
划分
snm
算法
下载PDF
职称材料
一种面向工业边缘计算应用的缓存替换算法
被引量:
4
12
作者
张雷
李琳
+1 位作者
陈鸿龙
Daniel Bovensiepen
《计算机研究与发展》
EI
CSCD
北大核心
2021年第7期1533-1543,共11页
工业应用对数据传输的确定性有严格要求,有必要通过合理的缓存策略保障工业边缘网络的实时服务性能保障.首先面向工业边缘计算应用场景阐述了边缘缓存问题模型.然后分析了工业应用中用户请求的动态性特点,结合工业用户请求的特征属性,...
工业应用对数据传输的确定性有严格要求,有必要通过合理的缓存策略保障工业边缘网络的实时服务性能保障.首先面向工业边缘计算应用场景阐述了边缘缓存问题模型.然后分析了工业应用中用户请求的动态性特点,结合工业用户请求的特征属性,给出用户请求内容流行度变化的预测方法.在此基础上提出了基于属性特征流行度预测的缓存替换(combing periodic popularity prediction and size caching strategy,PPPS)算法,根据最近周期窗口内主导属性特征的热度预测值,和尺寸参数一起确定缓存内容价值.实验结果表明:与MPC(most-popular content)、贪婪双尺寸(greedy dual size,GDS)、最近最久未使用(least recently used,LRU)、最近最少访问频次(least frequently used,LFU)、先进先出(first in first out,FIFO)这5种经典算法相比,提出的PPPS算法在缓存命中率和平均延迟2种性能指标下,在不同的用户请求模型、内容大小分布、内容种类参数下均取得最优性能,有效提升了边缘缓存的命中率,提高了缓存利用效率,降低了用户请求内容的延迟.
展开更多
关键词
工业应用
边缘计算
缓存替换算法
散粒噪声模型
流行度预测
下载PDF
职称材料
基于R-树索引的高维相似重复记录检测改进算法
被引量:
3
13
作者
宋国兴
周喜
+1 位作者
马博
赵凡
《微电子学与计算机》
CSCD
北大核心
2017年第9期97-102,共6页
经典的相似重复记录检测算法SNM算法随着记录维度的增加,投影过程不仅会导致数据丢失,算法的误差率也会明显增大.针对SNM算法的不足,提出DRR算法,利用R-树构建索引保留记录的高维空间特性,通过聚类减少记录在叶子节点中的比较次数提高效...
经典的相似重复记录检测算法SNM算法随着记录维度的增加,投影过程不仅会导致数据丢失,算法的误差率也会明显增大.针对SNM算法的不足,提出DRR算法,利用R-树构建索引保留记录的高维空间特性,通过聚类减少记录在叶子节点中的比较次数提高效率,同时改进度量记录相似性的距离算法,避免高维数据稀疏性的影响.最后,通过真实数据在不同维度上分别与SNM算法进行对比,验证了算法的有效性.
展开更多
关键词
snm
算法
R-树索引
高维空间特性
改进距离算法
数据稀疏性
下载PDF
职称材料
基于增量自适应的邻近排序算法优化
被引量:
2
14
作者
杨晓东
李军
+1 位作者
王继荣
王芳
《青岛大学学报(自然科学版)》
CAS
2017年第2期53-57,共5页
数据库中相似重复记录的清洗是提高数据质量的有效措施,传统的邻近排序算法SNM的滑动窗口难以确定,而且要对窗口内的所有记录进行比对,效率不高。针对SNM算法的这一缺陷,提出了窗口大小动态变化的增量自适应的SNM算法,窗口的大小由当前...
数据库中相似重复记录的清洗是提高数据质量的有效措施,传统的邻近排序算法SNM的滑动窗口难以确定,而且要对窗口内的所有记录进行比对,效率不高。针对SNM算法的这一缺陷,提出了窗口大小动态变化的增量自适应的SNM算法,窗口的大小由当前出口的大小、窗口内第一条和最后一条记录的距离以及记录最短记录阈值确定,这样可以去掉很多无用的比较操作,提升数据清洗效率。
展开更多
关键词
相似重复记录
数据清洗
增量自
适应
snm
算法
下载PDF
职称材料
面向时序的相似重复数据清洗算法优化
被引量:
2
15
作者
沈沛
毛海涛
+1 位作者
胡文林
芮波
《计算机时代》
2022年第9期68-72,77,共6页
针对海量时序数据集提出了一种相似重复数据检测算法。该算法以传统近邻排序算法SNM为基础,增加了对窗口大小的动态调整策略,新增了窗口跳跃滑动策略。新策略大大减少了相似重复数据清洗过程中的比对次数。该算法的提出,对时序数据集中...
针对海量时序数据集提出了一种相似重复数据检测算法。该算法以传统近邻排序算法SNM为基础,增加了对窗口大小的动态调整策略,新增了窗口跳跃滑动策略。新策略大大减少了相似重复数据清洗过程中的比对次数。该算法的提出,对时序数据集中的相似重复记录清洗效果带来了极大的提升,尤其是对于相似重复记录较稀疏的数据集,在理论和实验结果中均表明该算法在提高相似重复数据的检测性能上有显著效果。
展开更多
关键词
时序数据
snm
改进算法
相似重复数据
动态滑动窗口
数据清洗
下载PDF
职称材料
SDH网管系统简单路由查询算法的设计与实现
16
作者
刘犁
张杰
+1 位作者
杨芳南
陈旭东
《光通信研究》
北大核心
2004年第3期30-32,共3页
提出了一次性查找出所有简单路由的算法.为查询子网管理系统(SNMS)管理域中任意两个插/分处处用器(ADM)网元之间所有路由上的空闲时隙,此路由算法一次性计算出从起点网元(NE)到终点NE的所有可用路由,经实践验证,存储量需求和计算时间较好.
关键词
SDH网管系统
路由算法
子网管理系统
网元
光传送网
插/分复用器
同步数字体系
下载PDF
职称材料
题名
对基于SNM数据清洗算法的优化
被引量:
17
1
作者
张建中
方正
熊拥军
袁小一
机构
中南大学信息科学与工程学院
中南大学化学化工学院
出处
《中南大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2010年第6期2240-2245,共6页
基金
国家自然科学基金资助项目(50874119)
文摘
对基本邻近排序算法SNM(basic sorted-neighborhood method)进行分析,指出其不足;提出基于SNM算法的一种优化算法,通过采集中南大学冶金矿物工程机构知识库的2 000多条文献记录作为样本数据进行实验研究,对记录的"脏数据"按照DC标准和相关规范进行清洗与排重。研究结果表明:与SNM算法相比,在同样的运算环境下,优化算法在招回率、误识别率和执行时间上有明显优势。
关键词
数据挖掘
数据清洗
重复记录
snm
算法
Keywords
data mining
data cleaning
approximately duplicate records
snm algorithm
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于伸缩窗口和等级调整的SNM改进方法
被引量:
14
2
作者
陈爽
刁兴春
宋金玉
曹建军
丁晨路
机构
解放军理工大学指挥信息系统学院
总参第六十三研究所
吉林陆军预备役步兵第
出处
《计算机应用研究》
CSCD
北大核心
2013年第9期2736-2739,共4页
基金
中国博士后科学基金特别资助项目(201003797)
江苏省博士后科研资助计划项目(0901014B)
解放军理工大学预研基金项目(20110604)
文摘
对基本邻近排序算法(basic sorted-neighborhood method,SNM)进行分析,指出其不足,提出了SNM算法的一种改进方法。采用变步长伸缩窗口,动态改变检测窗口大小,避免漏配问题,并减少不必要的比较。采用动态调整等级法,根据记录相似度调整字段等级,并通过等级法将字段等级转换为权重,解决了人为赋予固定权重主观性强、不准确的问题。通过对实际系统中的数据进行测试,验证了方法的有效性和优越性。同时,这两种方法适用于大多数基于排序—合并的相似重复记录检测方法,提高了相应方法的效率和准确度。
关键词
数据清洗
相似重复记录
变步长伸缩窗口
动态调整等级
基本邻近排序算法
Keywords
data cleaning
approximately duplicate records
changing step flexible window
dynamic adjusting ranking
snm algorithm
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于长度过滤和动态容错的SNM改进算法
被引量:
9
3
作者
刘雅思
程力
李晓
机构
中国科学院新疆理化技术研究所
新疆民族语音语言信息处理实验室
中国科学院大学计算机与控制学院
出处
《计算机应用研究》
CSCD
北大核心
2017年第1期147-150,155,共5页
基金
新疆维吾尔自治区青年科技创新人才培养工程基金资助项目(2014721033)
乌鲁木齐高新区发展扶持基金资助项目(2013038)
文摘
数据仓库中相似重复记录的清洗对于数据质量影响很大,传统的基本邻近排序算法(sorted-neighborhood method,SNM)时间效率和准确率均不高。针对SNM算法的缺陷,提出了一种基于长度过滤和动态容错的SNM改进算法。根据两条记录的长度比例和属性缺失情况,首先排除一部分不可能构成相似重复记录的数据,减少比较次数,提高检测效率;进一步提出了动态容错法,校准字段相似度评判结果,解决了因属性缺失而误判的问题,提高了准确率。针对实际数据集的实验分析表明,在相同的运算环境下,优化算法在准确率和时间效率上有明显优势。
关键词
数据清洗
相似重复记录
snm
算法
动态容错
字段匹配
Keywords
data cleaning
similar and duplicated records
snm algorithm
dynamic fault-tolerance
string match
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于SNM改进算法的相似重复记录消除
被引量:
9
4
作者
余肖生
胡孙枝
机构
三峡大学计算机与信息学院
出处
《重庆理工大学学报(自然科学)》
CAS
2016年第4期91-96,共6页
基金
国家自然科学基金资助项目(71473185)
文摘
高质量的数据是构建数据仓库的最重要因素,低质量的数据可能对决策产生不利影响。来自不同数据源的相似重复记录是数据仓库构建中影响数据质量的主要问题之一,在源数据进入数据仓库之前尽可能地消除相似重复记录能很大程度地提高数据质量。为此,比较了现有的相似重复记录消除算法,改进了SNM算法,并通过实验比较了传统SNM方法与改进SNM算法。实验结果显示:在相似重复记录消除方面,SNM改进算法具有明显的优势。
关键词
snm
算法
snm
改进算法
相似重复记录消除
Keywords
snm algorithm
snm
improved
algorithm
approximately duplicate records elimination
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
改进的SNM中文语义重复记录检测算法
被引量:
5
5
作者
袁满
穆永豪
王贵友
于再富
机构
东北石油大学计算机与信息技术学院
黑龙江省大庆市第十采油厂肇东分公司信息中心
出处
《吉林大学学报(信息科学版)》
CAS
2021年第3期348-356,共9页
基金
黑龙江省哲学社会科学研究规划基金资助项目(19EDE334)。
文摘
为解决中文数据的重复检测问题,在SNM(Sorted-Neighborhood Method)算法的基础上提出了一种融合《同义词词林扩展版》和中文分词于一体的重复记录检测算法,通过利用《同义词词林扩展版》和Jaccard算法计算词语相似度,同时采用Python中Jieba中文分词的方式对语句进行分词,从而达到优化余弦相似度算法计算语句相似度。改进后的算法能有效的对记录为中文的字段和语句进行重复记录检测。并通过对某辅导机构学生测验信息数据集进行实验,实验结果表明,该算法的查全率及查准率比传统SNM算法有了很大提高。
关键词
相似重复记录
snm
算法
中文分词
Keywords
similar duplicate records
sorted-neighborhood method(
snm
)
algorithm
chinese word segmentation
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于模糊综合评判和长度过滤的SNM改进算法
被引量:
1
6
作者
郭文龙
董建怀
机构
福建江夏学院电子信息科学学院
出处
《武汉工程大学学报》
CAS
2017年第4期403-408,共6页
基金
福建省自然科学基金(2015J01653)
福建江夏学院青年科研人才培育基金(JXZ2014011)
文摘
为了提高数据库的数据质量,需要对相似重复记录进行清洗,基本邻近排序算法是目前常用的清洗算法之一.针对判重过程中属性权值计算主观性过强的问题,提出通过多用户综合评判确定属性权值的方法,该方法能更客观地评判属性的重要性程度.在此基础上,结合属性权值计算两条记录的长度比例,排除不可能构成相似重复的记录,减少了比较次数,提高了检测效率.实验结果表明改进算法在查全率、查准率及时间效率等方面均有所提高.
关键词
相似重复记录
模糊综合评判
属性
长度过滤
snm
算法
Keywords
approximately duplicated records
fuzzy comprehensive evaluation
attribute
length filtering
snm
algorithm
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于字段过滤和伸缩窗口的SNM算法优化
被引量:
1
7
作者
周世杰
娄渊胜
机构
河海大学计算机与信息学院
出处
《计算机工程与科学》
CSCD
北大核心
2022年第4期699-706,共8页
基金
江苏省重点研发计划(BE2018301)。
文摘
数据仓库中的问题数据对数据质量有较大的影响,为了查找和去除这些问题数据,首要的工作是处理相似重复数据,目前针对重复数据清除应用最多的算法是基本邻近排序算法(SNM)。通过分析SNM算法的缺陷,提出了一种改进的SNM算法——ISNM。采用属性区分法计算属性权值,解决了人为主观赋予权值导致的问题;使用字段过滤算法计算2条记录的相似度,减少了窗口内记录属性的比对次数,加快了算法的检测速度;使用可变窗口代替固定大小的窗口,防止记录漏配并减少无用的记录比对。实验结果表明,改进后的ISNM算法在查全率、查准率和运行时间开销上有明显的优势。
关键词
数据质量
数据清洗
相似重复记录
snm
算法
Keywords
data quality
data cleaning
similar duplicate records
snm algorithm
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于SNM算法的大数据量中文商品清洗方法
被引量:
1
8
作者
张苗苗
苏勇
机构
江苏科技大学计算机学院
出处
《计算机与数字工程》
2019年第3期625-627,661,共4页
文摘
SNM算法即邻近排序算法,是英文数据清洗最常用的算法[1]。目前为止,因为中英文语义的差异等一些原因,中文数据清洗还未形成完整的理论,现有中文数据清洗算法大多数是基于改编英文数据清洗算法而来的[2~3]。论文介绍数算法,论述该算法的缺陷,针对缺陷进项改进,并提出实际中的应用场景。通过实验结果显示,在相似重复记录消除方面,SNM改进算法具有明显的优势。
关键词
snm
算法
数据清洗
重复记录
Keywords
snm algorithm
data cleaning
duplicate records
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
基于聚类分组和属性综合权值的SNM改进算法
被引量:
6
9
作者
杨巧巧
郭振波
王开西
机构
青岛大学数据科学与软件工程学院
青岛大学计算机科学技术学院
出处
《工业控制计算机》
2017年第9期27-28,31,共3页
文摘
在处理大量业务数据时,传统的基本临近排序算法(sorted-neighborhood method,SNM)查准率、查全率均不高。针对SNM算法的缺陷,提出了一种基于聚类分组和属性综合权值的SNM改进算法。该算法基于分层思想,首先采用聚类分组的方式将海量数据进行分组,然后对各属性设置综合权值最后再进行相似重复记录的识别。其中聚类分组法能有效减少记录之间的比对次数,提高检测效率;属性综合权值的方法能更加准确反映各属性对记录的贡献度,针对实际数据集的实验分析表明,聚类分组法和属性综合权值法两者结合在提高查准率、查全率等方面均优于传统的SNM算法。
关键词
相似重复记录
聚类分组
属性综合权值
snm
算法
属性匹配
Keywords
approximately duplicate records detection,clustering-based grouping,attribute weights,
snm algorithm
,attribute match
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
一种改进的基于RFID中间件的冗余数据清洗算法
被引量:
10
10
作者
陈旭辉
王馨
柯铭
机构
兰州理工大学计算机与通信学院
厦门理工学院福建省高校物联网应用重点实验室
出处
《微电子学与计算机》
CSCD
北大核心
2013年第7期154-158,共5页
基金
国家自然科学基金项目(61065007,61263047)
甘肃省自然科学基金(0916RJZA020)
兰州理工大学博士基金(BS14200901)
文摘
针对RFID中间件冗余数据处理问题,提出一种改进的基本临近有序法(SNM)算法.通过对大量RFID数据进行分组,采用随机因子改变窗口大小对数据进行清洗,并在算法的实现过程中采用循环处理方式.经实验证明该改进算法能有效提高数据处理效率,并在召回率和数据处理时间上均优于原SNM算法.
关键词
RFID中间件
冗余数据
数据清洗
snm
算法
Keywords
RFID middle-ware
redundant data
data cleaning
snm algorithm
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于划分的海量数据相似重复记录检测
被引量:
7
11
作者
李莉
张晓雯
机构
江苏大学计算机科学与通信工程学院
出处
《计算机系统应用》
2019年第3期172-178,共7页
文摘
针对目前社工库存储的海量数据,数据冗余、查询效率低下的质量问题,本文提出了一种有效的基于划分的近邻排序算法.对不同渠道采集、以不同存储方式存储的社工数据进行整合形成能以二维表形式存储的海量数据集,采用划分思想,对大数据集进行分割,形成簇;采用改进的近邻排序算法对各个簇中的小数据集进行检测得到最终的相似重复记录检测结果.实验和对比分析结果表明,划分和近邻排序算法的结合使用不仅提高了海量数据相似重复记录检测的时间效率,检测准确率也有所提升.
关键词
数据质量
数据清洗
相似重复记录
划分
snm
算法
Keywords
data quality
data cleaning
similar duplicate records
partition
snm algorithm
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
一种面向工业边缘计算应用的缓存替换算法
被引量:
4
12
作者
张雷
李琳
陈鸿龙
Daniel Bovensiepen
机构
南京邮电大学物联网学院
中国石油大学(华东)控制科学与工程学院
西门子中国研究院
出处
《计算机研究与发展》
EI
CSCD
北大核心
2021年第7期1533-1543,共11页
基金
国家自然科学基金项目(61772551)。
文摘
工业应用对数据传输的确定性有严格要求,有必要通过合理的缓存策略保障工业边缘网络的实时服务性能保障.首先面向工业边缘计算应用场景阐述了边缘缓存问题模型.然后分析了工业应用中用户请求的动态性特点,结合工业用户请求的特征属性,给出用户请求内容流行度变化的预测方法.在此基础上提出了基于属性特征流行度预测的缓存替换(combing periodic popularity prediction and size caching strategy,PPPS)算法,根据最近周期窗口内主导属性特征的热度预测值,和尺寸参数一起确定缓存内容价值.实验结果表明:与MPC(most-popular content)、贪婪双尺寸(greedy dual size,GDS)、最近最久未使用(least recently used,LRU)、最近最少访问频次(least frequently used,LFU)、先进先出(first in first out,FIFO)这5种经典算法相比,提出的PPPS算法在缓存命中率和平均延迟2种性能指标下,在不同的用户请求模型、内容大小分布、内容种类参数下均取得最优性能,有效提升了边缘缓存的命中率,提高了缓存利用效率,降低了用户请求内容的延迟.
关键词
工业应用
边缘计算
缓存替换算法
散粒噪声模型
流行度预测
Keywords
industrial application
edge computing
cache replacement
algorithm
shot noise model(
snm
)
popularity prediction
分类号
TP393 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于R-树索引的高维相似重复记录检测改进算法
被引量:
3
13
作者
宋国兴
周喜
马博
赵凡
机构
中国科学院新疆理化技术研究所
中国科学院大学
新疆民族语音语言信息处理实验室
出处
《微电子学与计算机》
CSCD
北大核心
2017年第9期97-102,共6页
基金
新疆维吾尔自治区重点实验室项目(2016D03019)
新疆维吾尔自治区高技术计划项目(201512103)
中国科学院科技服务网络计划(STS计划)项目(KFJ-EW-STS-129)
文摘
经典的相似重复记录检测算法SNM算法随着记录维度的增加,投影过程不仅会导致数据丢失,算法的误差率也会明显增大.针对SNM算法的不足,提出DRR算法,利用R-树构建索引保留记录的高维空间特性,通过聚类减少记录在叶子节点中的比较次数提高效率,同时改进度量记录相似性的距离算法,避免高维数据稀疏性的影响.最后,通过真实数据在不同维度上分别与SNM算法进行对比,验证了算法的有效性.
关键词
snm
算法
R-树索引
高维空间特性
改进距离算法
数据稀疏性
Keywords
Key words:
snm algorithm
R- tree index
high dimensional space characteristics
improved distance
algorithm
data scarcity
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于增量自适应的邻近排序算法优化
被引量:
2
14
作者
杨晓东
李军
王继荣
王芳
机构
青岛大学计算机科学技术学院
青岛大学机电工程学院
出处
《青岛大学学报(自然科学版)》
CAS
2017年第2期53-57,共5页
基金
山东省自然科学基金(批准号:ZR2011GM008)资助
文摘
数据库中相似重复记录的清洗是提高数据质量的有效措施,传统的邻近排序算法SNM的滑动窗口难以确定,而且要对窗口内的所有记录进行比对,效率不高。针对SNM算法的这一缺陷,提出了窗口大小动态变化的增量自适应的SNM算法,窗口的大小由当前出口的大小、窗口内第一条和最后一条记录的距离以及记录最短记录阈值确定,这样可以去掉很多无用的比较操作,提升数据清洗效率。
关键词
相似重复记录
数据清洗
增量自
适应
snm
算法
Keywords
similar repetitive records
data cleaning
incremental adaptation
snm algorithm
分类号
TP301.6 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
面向时序的相似重复数据清洗算法优化
被引量:
2
15
作者
沈沛
毛海涛
胡文林
芮波
机构
中国人民解放军
杭州幂链科技有限公司
出处
《计算机时代》
2022年第9期68-72,77,共6页
文摘
针对海量时序数据集提出了一种相似重复数据检测算法。该算法以传统近邻排序算法SNM为基础,增加了对窗口大小的动态调整策略,新增了窗口跳跃滑动策略。新策略大大减少了相似重复数据清洗过程中的比对次数。该算法的提出,对时序数据集中的相似重复记录清洗效果带来了极大的提升,尤其是对于相似重复记录较稀疏的数据集,在理论和实验结果中均表明该算法在提高相似重复数据的检测性能上有显著效果。
关键词
时序数据
snm
改进算法
相似重复数据
动态滑动窗口
数据清洗
Keywords
time series data
snm
improved
algorithm
approximately duplicate data
dynamic sliding window
data cleaning
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
SDH网管系统简单路由查询算法的设计与实现
16
作者
刘犁
张杰
杨芳南
陈旭东
机构
北京交通大学网络管理研究中心
出处
《光通信研究》
北大核心
2004年第3期30-32,共3页
基金
国家"八六三计划"资助项目:基于国产中间件的铁路综合维护管理系统的研究(2003AA112020)
基于国产Linux铁路行业信息化安全平台研究(2003AA182270)
文摘
提出了一次性查找出所有简单路由的算法.为查询子网管理系统(SNMS)管理域中任意两个插/分处处用器(ADM)网元之间所有路由上的空闲时隙,此路由算法一次性计算出从起点网元(NE)到终点NE的所有可用路由,经实践验证,存储量需求和计算时间较好.
关键词
SDH网管系统
路由算法
子网管理系统
网元
光传送网
插/分复用器
同步数字体系
Keywords
routing
algorithm
snm
S
optical transport network
NE
分类号
TN929.1 [电子电信—通信与信息系统]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
对基于SNM数据清洗算法的优化
张建中
方正
熊拥军
袁小一
《中南大学学报(自然科学版)》
EI
CAS
CSCD
北大核心
2010
17
下载PDF
职称材料
2
基于伸缩窗口和等级调整的SNM改进方法
陈爽
刁兴春
宋金玉
曹建军
丁晨路
《计算机应用研究》
CSCD
北大核心
2013
14
下载PDF
职称材料
3
基于长度过滤和动态容错的SNM改进算法
刘雅思
程力
李晓
《计算机应用研究》
CSCD
北大核心
2017
9
下载PDF
职称材料
4
基于SNM改进算法的相似重复记录消除
余肖生
胡孙枝
《重庆理工大学学报(自然科学)》
CAS
2016
9
下载PDF
职称材料
5
改进的SNM中文语义重复记录检测算法
袁满
穆永豪
王贵友
于再富
《吉林大学学报(信息科学版)》
CAS
2021
5
下载PDF
职称材料
6
基于模糊综合评判和长度过滤的SNM改进算法
郭文龙
董建怀
《武汉工程大学学报》
CAS
2017
1
下载PDF
职称材料
7
基于字段过滤和伸缩窗口的SNM算法优化
周世杰
娄渊胜
《计算机工程与科学》
CSCD
北大核心
2022
1
下载PDF
职称材料
8
基于SNM算法的大数据量中文商品清洗方法
张苗苗
苏勇
《计算机与数字工程》
2019
1
下载PDF
职称材料
9
基于聚类分组和属性综合权值的SNM改进算法
杨巧巧
郭振波
王开西
《工业控制计算机》
2017
6
下载PDF
职称材料
10
一种改进的基于RFID中间件的冗余数据清洗算法
陈旭辉
王馨
柯铭
《微电子学与计算机》
CSCD
北大核心
2013
10
下载PDF
职称材料
11
基于划分的海量数据相似重复记录检测
李莉
张晓雯
《计算机系统应用》
2019
7
下载PDF
职称材料
12
一种面向工业边缘计算应用的缓存替换算法
张雷
李琳
陈鸿龙
Daniel Bovensiepen
《计算机研究与发展》
EI
CSCD
北大核心
2021
4
下载PDF
职称材料
13
基于R-树索引的高维相似重复记录检测改进算法
宋国兴
周喜
马博
赵凡
《微电子学与计算机》
CSCD
北大核心
2017
3
下载PDF
职称材料
14
基于增量自适应的邻近排序算法优化
杨晓东
李军
王继荣
王芳
《青岛大学学报(自然科学版)》
CAS
2017
2
下载PDF
职称材料
15
面向时序的相似重复数据清洗算法优化
沈沛
毛海涛
胡文林
芮波
《计算机时代》
2022
2
下载PDF
职称材料
16
SDH网管系统简单路由查询算法的设计与实现
刘犁
张杰
杨芳南
陈旭东
《光通信研究》
北大核心
2004
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部