期刊文献+
共找到185篇文章
< 1 2 10 >
每页显示 20 50 100
基于CNN的安防数据相似重复记录检测模型
1
作者 王巍 刘阳 +1 位作者 洪惠君 梁雅静 《计算机应用与软件》 北大核心 2023年第2期17-25,共9页
安防行业的结构化数据中存在大量的相似重复记录,传统的相似重复记录检测算法的识别率很难满足安防行业的实际需求。针对这种情况,引入了卷积神经网络模型,设计两种以LeNet-5模型为基础的改进模型,一种是输入为词向量矩阵的模型,另一种... 安防行业的结构化数据中存在大量的相似重复记录,传统的相似重复记录检测算法的识别率很难满足安防行业的实际需求。针对这种情况,引入了卷积神经网络模型,设计两种以LeNet-5模型为基础的改进模型,一种是输入为词向量矩阵的模型,另一种是输入为相似度矩阵的模型。实验表明,输入为词向量矩阵的模型的精确率和召回率均达到了96%以上,输入为相似度矩阵的模型的精确率和召回率高达98%,并且K折交叉验证的结果说明模型具有较强的泛化能力。 展开更多
关键词 安防行业 数据清洗 相似重复记录检测 CNN LeNet-5
下载PDF
Excel整理重复数据记录的方法
2
作者 马红旭 《中国新通信》 2015年第19期35-35,共1页
文章讨论的问题是对具有庞大数据量的Excel电子表中出现的重复记录,提出了有效的标记和删除办法。
关键词 excel重复数据记录 标记 删除
下载PDF
删除数据库和Excel中重复记录的方法 被引量:1
3
作者 廖廷悟 邢海波 陈彪 《华南金融电脑》 2009年第10期93-93,共1页
程序员、Excel的使用者经常需要删除一些重复的行或记录。笔者通过实践中积累的经验,总结出在SQL2000与Excel中删除重复记录的方法。
关键词 excel 重复记录 删除 数据 SQL2000 程序员 使用者
下载PDF
大数据相似重复记录检测算法在试题库中的运用 被引量:1
4
作者 胡小琴 潘锦锋 《成都工业学院学报》 2023年第1期66-69,共4页
为了提高试题库中重复信息自动化检测能力,提出面向试题库建设的大数据相似重复记录检测算法。采用大数据分析方法,构建试题库大数据相似重复记录分布模型,获取随机链路中重复记录的分布区间,采用层次关系入度集特征监测的方法,分析试... 为了提高试题库中重复信息自动化检测能力,提出面向试题库建设的大数据相似重复记录检测算法。采用大数据分析方法,构建试题库大数据相似重复记录分布模型,获取随机链路中重复记录的分布区间,采用层次关系入度集特征监测的方法,分析试题库大数据相似重复记录特征结构,根据获取的统计特征量,基于空间网格聚类方法对试题库大数据的相似重复记录进行融合处理,根据处理结果,在空间坐标系中实现大数据相似重复记录的检测。仿真实验结果表明,所提算法进行试题库的大数据相似重复记录检测的错误率较低,时间开销较小。 展开更多
关键词 数据相似度 重复记录 检测算法 试题库设计 数据聚类
下载PDF
浅谈Excel中重复记录与匹配数据处理方法 被引量:1
5
作者 付芃坤 《数码设计》 2018年第8期32-32,共1页
Microsoft Excel是一款流行且实用的数据处理软件,对数据能够进行复杂的分析、计算和共享等处理。良好的用户体验、丰富直观的数据图表,满足了绝大多数数据处理的业务需要,使用好Excel可以提高我们的工作效率。下面就Excel日常使用中经... Microsoft Excel是一款流行且实用的数据处理软件,对数据能够进行复杂的分析、计算和共享等处理。良好的用户体验、丰富直观的数据图表,满足了绝大多数数据处理的业务需要,使用好Excel可以提高我们的工作效率。下面就Excel日常使用中经常遇到的重复记录的处理和数据匹配两种情况进行探讨与学习。 展开更多
关键词 重复记录 数据匹配
下载PDF
数据仓库中的相似重复记录检测方法 被引量:25
6
作者 李星毅 包从剑 施化吉 《电子科技大学学报》 EI CAS CSCD 北大核心 2007年第6期1273-1277,共5页
针对检测和消除数据仓库中的相似重复记录问题,提出了数据仓库中的相似重复记录检测方法。该方法先通过等级法计算每个字段的权值;然后,按照分组思想,选择关键字段或字段某些位将大数据集分割成许多不相交的小数据集;最后,在各个小数据... 针对检测和消除数据仓库中的相似重复记录问题,提出了数据仓库中的相似重复记录检测方法。该方法先通过等级法计算每个字段的权值;然后,按照分组思想,选择关键字段或字段某些位将大数据集分割成许多不相交的小数据集;最后,在各个小数据集中检测和消除相似重复记录,为避免漏查,再选择其他关键字段或字段某些位重复多次检测。理论分析和实验表明,该方法不仅具有好的检测精度,而且具有很好的时间效率,能够有效地解决大数据量的相似重复记录检测问题。 展开更多
关键词 相似重复记录 数据仓库 分组 等级法 数据加权
下载PDF
数据仓库ETL中相似重复记录的检测方法及应用 被引量:15
7
作者 张永 迟忠先 闫德勤 《计算机应用》 CSCD 北大核心 2006年第4期880-882,共3页
检测和消除数据仓库中的相似重复记录是数据清洗和提高数据质量要解决的主要问题之一。将位置编码技术引入到数据仓库ETL中,提出了一种相似重复记录的检测算法PCM(位置编码方法)。该算法不仅可以应用到西文字符集中,而且也成功的应用到... 检测和消除数据仓库中的相似重复记录是数据清洗和提高数据质量要解决的主要问题之一。将位置编码技术引入到数据仓库ETL中,提出了一种相似重复记录的检测算法PCM(位置编码方法)。该算法不仅可以应用到西文字符集中,而且也成功的应用到了中文字符集中,实例表明该算法具有很好的效果。 展开更多
关键词 位置编码 数据仓库 ETL 相似重复记录
下载PDF
一种面向Deep Web数据源的重复记录识别模型 被引量:3
8
作者 申德荣 刘丽楠 +2 位作者 寇月 聂铁铮 于戈 《电子学报》 EI CAS CSCD 北大核心 2010年第2期275-281,共7页
重复记录是指描述现实世界中同一实体的不同的记录信息.由于从同一个领域的不同Deep Web数据源中抽取的记录信息通常存在许多重复记录,本文针对半结构化的重复记录的识别进行研究.在已知全局模式和全局模式与各Deep Web数据源查询接口... 重复记录是指描述现实世界中同一实体的不同的记录信息.由于从同一个领域的不同Deep Web数据源中抽取的记录信息通常存在许多重复记录,本文针对半结构化的重复记录的识别进行研究.在已知全局模式和全局模式与各Deep Web数据源查询接口映射关系的基础上,提出了一种重复记录识别模型.基于从Deep Web中抽取出的半结构化的数据,采用查询探测方法确定所抽取数据所匹配的属性,通过分析抽取的实例数据确定属性重要度,结合多种相似度估算器和多种算法计算记录间的相似度,进而识别重复记录.实验表明,该重复记录识别模型在Deep Web环境下是可行且有效的. 展开更多
关键词 重复记录 深层web 数据清洗
下载PDF
一种使用双阈值的数据仓库环境下重复记录消除算法 被引量:9
9
作者 洪圆 孙未未 施伯乐 《计算机工程与应用》 CSCD 北大核心 2005年第1期168-170,216,共4页
重复记录消除是数据清理研究中一个很重要的方面,它的目的是检测并消除那些冗余的、可能对后来的OLAP和数据挖掘造成影响的数据。已有研究都是通过设定一个相似度阈值来判断两条记录是否为重复记录。过大的阈值将导致返回率下降,过小的... 重复记录消除是数据清理研究中一个很重要的方面,它的目的是检测并消除那些冗余的、可能对后来的OLAP和数据挖掘造成影响的数据。已有研究都是通过设定一个相似度阈值来判断两条记录是否为重复记录。过大的阈值将导致返回率下降,过小的阈值将导致误检率上升。文章提出了一种双阈值的重复记录消除方法,利用数据仓库环境下数据库表之间的外键联系做进一步判断,可以有效地提高判断质量,减小误检率。 展开更多
关键词 重复记录消除 数据仓库 外键参照 双阈值
下载PDF
海量数据的相似重复记录检测算法 被引量:11
10
作者 周典瑞 周莲英 《计算机应用》 CSCD 北大核心 2013年第8期2208-2211,共4页
针对海量数据下相似重复记录检测算法的低查准率和低效率问题,采用综合加权法和基于字符串长度过滤法对数据集进行相似重复检测。综合加权法通过结合用户经验和数理统计法计算各属性的权重。基于字符串长度过滤法在相似检测过程中利用... 针对海量数据下相似重复记录检测算法的低查准率和低效率问题,采用综合加权法和基于字符串长度过滤法对数据集进行相似重复检测。综合加权法通过结合用户经验和数理统计法计算各属性的权重。基于字符串长度过滤法在相似检测过程中利用字符串间的长度差异提前结束编辑距离算法的计算,减少待匹配的记录数。实验结果表明,通过综合加权法计算的权重向量更加全面、准确反映出各属性的重要性,基于字符串的长度过滤法减少了记录间的比对时间,能够有效地解决海量数据的相似重复记录检测问题。 展开更多
关键词 海量数据 相似重复记录 综合加权法 编辑距离
下载PDF
关系数据库中近似重复记录的识别 被引量:7
11
作者 佘春红 许向阳 《计算机应用研究》 CSCD 北大核心 2003年第9期36-39,共4页
数据清理转换是数据仓库中的一个重要研究领域,其技术难点之一是重复记录的识别。介绍了与重复记录识别相关的字符串匹配方法,详细讨论了识别重复记录的分区式优先队列算法、多趟邻近排序法以及邻近连接法,最后给出了实验结果。
关键词 数据清理 重复记录识别 字符串匹配 数据仓库
下载PDF
一种相似重复元数据记录检测方法 被引量:3
12
作者 王常武 韩菁华 张付志 《计算机工程》 CAS CSCD 北大核心 2009年第21期85-87,共3页
对联邦数字图书馆中重复元数据记录进行检测和管理,是保证元数据质量、提高联邦检索服务质量的关键。针对现有联邦数字图书馆中重复记录检测方法计算集中、准确度不高等缺点,提出一种快速高效的相似重复元数据记录检测方法,该方法基于... 对联邦数字图书馆中重复元数据记录进行检测和管理,是保证元数据质量、提高联邦检索服务质量的关键。针对现有联邦数字图书馆中重复记录检测方法计算集中、准确度不高等缺点,提出一种快速高效的相似重复元数据记录检测方法,该方法基于改进的N-Gram方法,适合较大规模联邦数字图书馆。模拟实验结果表明,该方法能有效提高重复检测的性能,加快重复检测的速度。 展开更多
关键词 数据 重复记录检测 N-Gram方法 相似度
下载PDF
基于数据分组匹配的相似重复记录检测 被引量:6
13
作者 周丽娟 肖满生 《计算机工程》 CAS CSCD 北大核心 2010年第12期104-106,共3页
针对数据集成中相似重复记录的识别问题,提出一种数据特征属性优选分组的算法。通过计算特征属性的方差来确定某维属性的权值,基于数据分组思想选择权值大的属性,将数据集分割成不相交的小数据集,并在各小数据集中用模糊匹配算法进行相... 针对数据集成中相似重复记录的识别问题,提出一种数据特征属性优选分组的算法。通过计算特征属性的方差来确定某维属性的权值,基于数据分组思想选择权值大的属性,将数据集分割成不相交的小数据集,并在各小数据集中用模糊匹配算法进行相似重复记录的识别。理论分析和实验结果表明,该方法识别效率和检测精度较高。 展开更多
关键词 多源数据 属性优选 数据分组匹配 相似重复记录
下载PDF
基于MapReduce模型的大数据相似重复记录检测算法 被引量:41
14
作者 宋人杰 余通 +2 位作者 陈宇红 陈宇阳 夏滨 《上海交通大学学报》 EI CAS CSCD 北大核心 2018年第2期214-221,共8页
针对大数据来源多、维度高和体量大的特点,提出一种云环境下检测大数据相似重复记录的并行算法MP-SYYT.利用汉语词法分析技术、德尔菲法以及词频-逆向文件频率算法对传统的SimHash算法进行改进,以解决算法中关键词提取速度慢、精度和权... 针对大数据来源多、维度高和体量大的特点,提出一种云环境下检测大数据相似重复记录的并行算法MP-SYYT.利用汉语词法分析技术、德尔菲法以及词频-逆向文件频率算法对传统的SimHash算法进行改进,以解决算法中关键词提取速度慢、精度和权重计算精度低的问题;利用倒排索引算法对传统SimHash算法进行优化,以提高其相似重复记录的匹配效率;利用所提MP-SYYT算法在云平台上定义Map函数和Reduce函数,并用MapReduce模型在云环境下实现了大数据相似重复记录的并行检测和直接输出;在Hadoop平台上进行实例分析,以验证MP-SYYT算法的高效性和实用性. 展开更多
关键词 云环境 数据 相似重复记录 并行检测 冗余识别
下载PDF
数据仓库中重复记录清理算法研究 被引量:4
15
作者 钟嘉庆 张义芳 卢志刚 《信息化纵横》 2009年第7期4-6,共3页
针对重复记录清理中的"排序、识别、合并"算法存在的问题进行了改进。改进后的重复记录清理算法在保证记录匹配率的情况下有效地提高了记录排序的效率;在重复记录识别时,考虑了匹配字段的文字数量、在2个字段中出现的频率、... 针对重复记录清理中的"排序、识别、合并"算法存在的问题进行了改进。改进后的重复记录清理算法在保证记录匹配率的情况下有效地提高了记录排序的效率;在重复记录识别时,考虑了匹配字段的文字数量、在2个字段中出现的频率、在记录中各字段的重要性(权重)、中文字段的语义和语义重点偏后等5个因素;合并重复记录时采用了聚类和实用算法并用的策略,有效地提高了数据仓库中重复记录清理算法的准确性和健壮性。 展开更多
关键词 数据清理 重复记录清理 重复记录识别 数据仓库
下载PDF
改进量子粒子群算法优化神经网络的数据库重复记录检测 被引量:10
16
作者 陈芬 《计算机应用与软件》 CSCD 北大核心 2014年第3期20-21,115,共3页
为了提高数据库重复记录检测效果,提出一种改进量子粒子群优化算法(IQPSO)优化BP神经网络的数据库相似重复记录检测模型(IQPSO-BPNN)。首先计算记录字段间的相似度,组成特征向量;然后采用IQPSO算法优化BP神经网络进行学习,建立最优相似... 为了提高数据库重复记录检测效果,提出一种改进量子粒子群优化算法(IQPSO)优化BP神经网络的数据库相似重复记录检测模型(IQPSO-BPNN)。首先计算记录字段间的相似度,组成特征向量;然后采用IQPSO算法优化BP神经网络进行学习,建立最优相似重复记录检测模型,最后通过仿真实验对IPSO-BPNN的性能进行测试。实验结果表明,IQPSO-BPNN大幅度减少了数据库重复记录检测时间,提高了数据库重复记录检测精度。 展开更多
关键词 数据 重复记录 神经网络 量子粒子群优化算法 时变参数
下载PDF
基于划分的海量数据相似重复记录检测 被引量:7
17
作者 李莉 张晓雯 《计算机系统应用》 2019年第3期172-178,共7页
针对目前社工库存储的海量数据,数据冗余、查询效率低下的质量问题,本文提出了一种有效的基于划分的近邻排序算法.对不同渠道采集、以不同存储方式存储的社工数据进行整合形成能以二维表形式存储的海量数据集,采用划分思想,对大数据集... 针对目前社工库存储的海量数据,数据冗余、查询效率低下的质量问题,本文提出了一种有效的基于划分的近邻排序算法.对不同渠道采集、以不同存储方式存储的社工数据进行整合形成能以二维表形式存储的海量数据集,采用划分思想,对大数据集进行分割,形成簇;采用改进的近邻排序算法对各个簇中的小数据集进行检测得到最终的相似重复记录检测结果.实验和对比分析结果表明,划分和近邻排序算法的结合使用不仅提高了海量数据相似重复记录检测的时间效率,检测准确率也有所提升. 展开更多
关键词 数据质量 数据清洗 相似重复记录 划分 SNM算法
下载PDF
数据清洗中重复记录清洗算法的研究 被引量:5
18
作者 谢文阁 佟玉军 +1 位作者 贾丹 梅红岩 《软件工程师》 2015年第9期61-62,共2页
介绍了数据清洗中的SNM算法和全文索引技术,通过引入全文索引技术对SNM算法进行了改进,以此提高了重复记录查找的速度和准确率,从而较好地提升了SNM算法的性能。
关键词 数据清洗 全文索引 重复记录 清洗算法
下载PDF
大数据环境下的相似重复记录检测方法 被引量:6
19
作者 殷秀叶 《武汉工程大学学报》 CAS 2014年第9期66-69,共4页
大数据环境下的相似重复记录影响数据统计分析结果的准确性,需要过滤相似重复记录.对相似重复记录检测的研究现状做了介绍,在此基础上提出了属性加权的思想,对属性进行加权,并根据属性权值进行排序分组;在对属性加权时,考虑到一些字段... 大数据环境下的相似重复记录影响数据统计分析结果的准确性,需要过滤相似重复记录.对相似重复记录检测的研究现状做了介绍,在此基础上提出了属性加权的思想,对属性进行加权,并根据属性权值进行排序分组;在对属性加权时,考虑到一些字段的取值是一一对应的关系,权值相同,提出了同义属性的概念,在原数据集的基础上排除部分同义属性来缩减数据集,提高重复数据检测的效率,最后给出了相似重复记录判定的方法.考虑到大数据集给重复记录检测带来的挑战,将大数据集拆分成若干小数据集,充分利用MapReduce机制进行处理,将大数据集按照权重较大的属性取值进行分组,分割成若干个map任务,分别进行处理.实验结果表明,该方法能够有效地提高相似重复记录检测的效率. 展开更多
关键词 相似重复记录 数据 同义属性
下载PDF
浅谈Excel2010重复数据的处理方法 被引量:3
20
作者 陈伟 王维 邹燕飞 《电脑知识与技术》 2015年第8期128-129,共2页
Excel是Office数据处理重要组件之一,随着互联网的普及,有大量信息经常要进行处理。在信息处理中经常会遇见很多重复数据,利用Excel 2010可以方便、高效去处理重复数据。查找重复数据可采用函数法、高级筛选法、条件格式法和数据透视表法。
关键词 excel 2010 重复数据 数据透视表
下载PDF
上一页 1 2 10 下一页 到第
使用帮助 返回顶部