期刊文献+
共找到271篇文章
< 1 2 14 >
每页显示 20 50 100
基于CNN的安防数据相似重复记录检测模型
1
作者 王巍 刘阳 +1 位作者 洪惠君 梁雅静 《计算机应用与软件》 北大核心 2023年第2期17-25,共9页
安防行业的结构化数据中存在大量的相似重复记录,传统的相似重复记录检测算法的识别率很难满足安防行业的实际需求。针对这种情况,引入了卷积神经网络模型,设计两种以LeNet-5模型为基础的改进模型,一种是输入为词向量矩阵的模型,另一种... 安防行业的结构化数据中存在大量的相似重复记录,传统的相似重复记录检测算法的识别率很难满足安防行业的实际需求。针对这种情况,引入了卷积神经网络模型,设计两种以LeNet-5模型为基础的改进模型,一种是输入为词向量矩阵的模型,另一种是输入为相似度矩阵的模型。实验表明,输入为词向量矩阵的模型的精确率和召回率均达到了96%以上,输入为相似度矩阵的模型的精确率和召回率高达98%,并且K折交叉验证的结果说明模型具有较强的泛化能力。 展开更多
关键词 安防行业 数据清洗 相似重复记录检测 CNN LeNet-5
下载PDF
大数据相似重复记录检测算法在试题库中的运用 被引量:1
2
作者 胡小琴 潘锦锋 《成都工业学院学报》 2023年第1期66-69,共4页
为了提高试题库中重复信息自动化检测能力,提出面向试题库建设的大数据相似重复记录检测算法。采用大数据分析方法,构建试题库大数据相似重复记录分布模型,获取随机链路中重复记录的分布区间,采用层次关系入度集特征监测的方法,分析试... 为了提高试题库中重复信息自动化检测能力,提出面向试题库建设的大数据相似重复记录检测算法。采用大数据分析方法,构建试题库大数据相似重复记录分布模型,获取随机链路中重复记录的分布区间,采用层次关系入度集特征监测的方法,分析试题库大数据相似重复记录特征结构,根据获取的统计特征量,基于空间网格聚类方法对试题库大数据的相似重复记录进行融合处理,根据处理结果,在空间坐标系中实现大数据相似重复记录的检测。仿真实验结果表明,所提算法进行试题库的大数据相似重复记录检测的错误率较低,时间开销较小。 展开更多
关键词 大数据相似 重复记录 检测算法 试题库设计 数据聚类
下载PDF
基于中文文本相似度评估的情感勒索话语检测系统
3
作者 林文晟 杨观赐 钟世昊 《计算机应用研究》 CSCD 北大核心 2024年第10期3073-3080,共8页
情感勒索是通过情感压力迫使周围人听从自己要求的交流方式,容易导致对方的负面情绪甚至心理问题从而影响交流效果。为了检测日常交流场景下的情感勒索话语进而改善交流效果,开发了基于中文文本相似度评估的情感勒索话语检测系统。首先... 情感勒索是通过情感压力迫使周围人听从自己要求的交流方式,容易导致对方的负面情绪甚至心理问题从而影响交流效果。为了检测日常交流场景下的情感勒索话语进而改善交流效果,开发了基于中文文本相似度评估的情感勒索话语检测系统。首先,基于Susan Forward的情感勒索理论标注收集到的数据,构建情感勒索语料库和测试集;其次,分析情感勒索的表达方式,分别基于词性和语义词设计文本相似度评估方法,进而形成基于中文文本相似度评估的情感勒索话语检测算法;然后,在构建的数据集上开展实验,该算法获得的平均recall与F 1-score分别为95.21%和79.95%,优于对比算法;最后,基于该算法开发情感勒索话语检测原型系统,系统在不同测试条件下的平均recall为87.24%,展现出良好的鲁棒性和检测性能。 展开更多
关键词 智能系统 情感勒索话语检测 文本表达方式 相似度评估
下载PDF
基于遗传神经网络的相似重复记录检测方法研究 被引量:1
4
作者 肖蕾 郭乐江 +1 位作者 胡亚慧 程敏 《舰船电子工程》 2011年第2期168-170,176,共4页
设计实现了一个相似重复记录检测系统,该系统包括预处理模块、聚类模块、字段匹配模块和记录匹配模块,支持聚类算法和字段匹配算法的定制扩充。并通过实验对比了几种著名的算法,实验结果表明该系统提高了相似重复记录检测的精确度。
关键词 遗传神经网络 相似重复记录检测系统 聚类算法 字段匹配算法
下载PDF
《临床外科杂志》采用万方数据论文相似性检测系统
5
作者 《临床外科杂志》编辑部 《临床外科杂志》 2024年第4期416-416,共1页
《临床外科杂志》编辑部采用万方数据论文相似性检测系统,并将其作为审稿的一个重要工具。论文相似性检测系统为互联网在线模式,设有强大的文献对比数据库,实时更新,具有科学性和专业性。该系统可以自动检测来稿复制率情况,有效地识别... 《临床外科杂志》编辑部采用万方数据论文相似性检测系统,并将其作为审稿的一个重要工具。论文相似性检测系统为互联网在线模式,设有强大的文献对比数据库,实时更新,具有科学性和专业性。该系统可以自动检测来稿复制率情况,有效地识别和淘汰了部分存在学术不端的论文。此举将严把学术质量关,为广大作者、读者提供一个公平、公正、权威的学术交流平台,维护本刊刊稿的严肃性和科学性。本刊对复制率超过25%的稿件不予采用。 展开更多
关键词 学术不端 学术交流平台 论文相似检测系统 万方数据 刊稿 审稿 互联网 数据库
下载PDF
一种检测多语言文本相似重复记录的综合方法 被引量:26
6
作者 俞荣华 田增平 周傲英 《计算机科学》 CSCD 北大核心 2002年第1期118-121,共4页
1.前言随着信息技术的广泛应用,如何有效利用不断激增的数据成为企业的迫切问题.数据仓库和数据挖掘技术为企业从浩瀚的数据海洋中获取有用的知识提供了一种有效的手段.然而,现实世界中的数据往往存在着大量的质量问题,从简单的数据输... 1.前言随着信息技术的广泛应用,如何有效利用不断激增的数据成为企业的迫切问题.数据仓库和数据挖掘技术为企业从浩瀚的数据海洋中获取有用的知识提供了一种有效的手段.然而,现实世界中的数据往往存在着大量的质量问题,从简单的数据输入错误到相对较复杂的数据间的语义不一致性.如果数据的质量达不到要求,那么数据挖掘这类技术产生的结果也不会理想,甚至产生错误的分析结果,从而误导决策.可见提高数据质量的重要性. 展开更多
关键词 数据仓库 数据挖掘 数据库 信息重复 多语言文本相似重复记录方法 检测
下载PDF
基于遗传神经网络的相似重复记录检测方法 被引量:13
7
作者 孟祥逢 鲁汉榕 郭玲 《计算机工程与设计》 CSCD 北大核心 2010年第7期1550-1553,共4页
为了有效解决数据清洗领域中相似重复记录的检测问题,提出了一种基于遗传神经网络的相似重复记录检测方法。该方法计算两条记录对应字段间的相似度,构建基于神经网络的检测模型,利用遗传算法对网络模型的权值进行优化,使用遗传神经网络... 为了有效解决数据清洗领域中相似重复记录的检测问题,提出了一种基于遗传神经网络的相似重复记录检测方法。该方法计算两条记录对应字段间的相似度,构建基于神经网络的检测模型,利用遗传算法对网络模型的权值进行优化,使用遗传神经网络组合多个字段上的相似度来检测相似重复记录。在不同领域数据集上的测试结果表明,该方法能够提高相似重复记录检测的准确率和检测精度。 展开更多
关键词 相似重复记录检测 神经网络 遗传算法 数据清洗 数据集成
下载PDF
基于QPSO-LSSVM的数据库相似重复记录检测算法 被引量:6
8
作者 梁雪 任剑锋 景丽 《计算机科学》 CSCD 北大核心 2012年第11期157-159,190,共4页
针对大规模数据库的相似重复记录的检测问题,提出了一种量子群优化算法(QPSO)与最小二乘支持向量机(LSSVM)相结合的相似重复记录检测方法(QPSO-LSSVM)。首先计算记录字段的相似度值;然后利用QPSO对LSSVM参数进行优化,构建相似重复记录... 针对大规模数据库的相似重复记录的检测问题,提出了一种量子群优化算法(QPSO)与最小二乘支持向量机(LSSVM)相结合的相似重复记录检测方法(QPSO-LSSVM)。首先计算记录字段的相似度值;然后利用QPSO对LSSVM参数进行优化,构建相似重复记录检测模型;最后通过具体数据集进行仿真测试实验。仿真结果表明,QPSO-LSSVM不仅提高了重复记录检测准确率,而且提高了检测效率,是一种有效的相似重复记录检测算法。 展开更多
关键词 量子粒子群优化算法 最小二乘支持向量机 相似重复记录 检测
下载PDF
基于分块和滑窗技术的相似重复记录检测算法研究 被引量:7
9
作者 陈亮 杜璐 胡康 《计算机应用与软件》 北大核心 2019年第4期262-267,共6页
相似重复记录检测对于提高数据质量有着重要意义。为了减少检测代价和提高运行效率,基于传统的窗口技术和分块技术,提出一种相似重复记录检测算法。该算法利用关键字段将数据集进行排序和分块,并利用滑动窗口技术限制分块间比对。设计... 相似重复记录检测对于提高数据质量有着重要意义。为了减少检测代价和提高运行效率,基于传统的窗口技术和分块技术,提出一种相似重复记录检测算法。该算法利用关键字段将数据集进行排序和分块,并利用滑动窗口技术限制分块间比对。设计一种多字段排序改进算法,对不同字段的分块共同聚类,优先比较重复密度大的分块对,摒弃聚类较差的分块。该算法减少了检测过程中的数据比较次数,并降低了字段好坏对算法速度的影响。理论和实验分析表明,该算法能有效地提高相似重复记录检测的准确率和时间效率。 展开更多
关键词 数据质量 相似重复记录检测 窗口技术 分块技术
下载PDF
基于MapReduce模型的大数据相似重复记录检测算法 被引量:41
10
作者 宋人杰 余通 +2 位作者 陈宇红 陈宇阳 夏滨 《上海交通大学学报》 EI CAS CSCD 北大核心 2018年第2期214-221,共8页
针对大数据来源多、维度高和体量大的特点,提出一种云环境下检测大数据相似重复记录的并行算法MP-SYYT.利用汉语词法分析技术、德尔菲法以及词频-逆向文件频率算法对传统的SimHash算法进行改进,以解决算法中关键词提取速度慢、精度和权... 针对大数据来源多、维度高和体量大的特点,提出一种云环境下检测大数据相似重复记录的并行算法MP-SYYT.利用汉语词法分析技术、德尔菲法以及词频-逆向文件频率算法对传统的SimHash算法进行改进,以解决算法中关键词提取速度慢、精度和权重计算精度低的问题;利用倒排索引算法对传统SimHash算法进行优化,以提高其相似重复记录的匹配效率;利用所提MP-SYYT算法在云平台上定义Map函数和Reduce函数,并用MapReduce模型在云环境下实现了大数据相似重复记录的并行检测和直接输出;在Hadoop平台上进行实例分析,以验证MP-SYYT算法的高效性和实用性. 展开更多
关键词 云环境 大数据 相似重复记录 并行检测 冗余识别
下载PDF
一种改进的相似重复记录检测算法 被引量:7
11
作者 郭文龙 《计算机应用与软件》 CSCD 北大核心 2014年第1期293-295,共3页
数据仓库中相似重复记录的清洗对于提高数据质量有着重要意义,传统的判重算法有SNM算法、MPN算法及KNN算法等。针对MPN算法判重精度和时间效率不高等缺陷,提出一种改进的MPN算法。根据记录属性的重要性分别设定属性权值,将属性切分为原... 数据仓库中相似重复记录的清洗对于提高数据质量有着重要意义,传统的判重算法有SNM算法、MPN算法及KNN算法等。针对MPN算法判重精度和时间效率不高等缺陷,提出一种改进的MPN算法。根据记录属性的重要性分别设定属性权值,将属性切分为原子,进一步计算原子的权值,通过判定属性相似度进而判定记录相似度,提高查准率和查全率。采用均分大数据集为若干数据子集,并行采用MPN算法进行判重,提高判重时间效率。理论和实验分析表明该方法提高了相似重复记录检测的准确率和时间效率。 展开更多
关键词 相似重复记录属性检测 MPN算法
下载PDF
基于二次模糊评判的相似重复记录检测方法 被引量:3
12
作者 黄建琼 《江苏师范大学学报(自然科学版)》 CAS 2016年第1期39-42,共4页
数据库集成时会产生大量的相似、重复记录,字段匹配算法是对其进行检测并清洗的主要方法之一.针对等级法确定属性权值主观性过强的问题,提出改进的基于二次模糊评判的检测方法.根据等级法对属性进行第一次评判,剔除等级低的部分非重要属... 数据库集成时会产生大量的相似、重复记录,字段匹配算法是对其进行检测并清洗的主要方法之一.针对等级法确定属性权值主观性过强的问题,提出改进的基于二次模糊评判的检测方法.根据等级法对属性进行第一次评判,剔除等级低的部分非重要属性;对剩余属性进行二次模糊评判,平均属性等级评判的结果,确定属性权值,然后对数据集进行分组,并在各个数据集中检测相似重复记录.理论分析和实验结果表明,该方法不仅提高了运行效率,而且可以进一步提高查重的查准率和查全率. 展开更多
关键词 相似重复记录 属性 等级 权值 检测 模糊评判
下载PDF
基于信息熵属性约简的相似重复记录检测方法 被引量:2
13
作者 陈彦萍 洪明杰 杨小宝 《计算机与数字工程》 2019年第12期2966-2972,共7页
相似记录检测已成为数据清洗的一个重要分支,也是消除数据冗余提高数据质量的一个重要途径,在数据统计、数据分析、数据仓库、人工智能和数据挖掘等领域都有实际应用。该文对目前相似记录检测方法进行了研究,针对诸多方法都存在检测精... 相似记录检测已成为数据清洗的一个重要分支,也是消除数据冗余提高数据质量的一个重要途径,在数据统计、数据分析、数据仓库、人工智能和数据挖掘等领域都有实际应用。该文对目前相似记录检测方法进行了研究,针对诸多方法都存在检测精度不足和时效慢的问题,采用K-Modes进行聚类分组的方法,通过信息熵理论来确定属性权重并约简属性维度,同时在记录匹配阶段依据属性重要程度对各聚类分组的数据逐属性进行比较,根据阈值来判断其相似性,避免整条记录参与匹配耗费时间,在完成对每个数据集的检测后最终消除相似重复记录。实验表明,该方法能有效缩小检测数据集范围和相似匹配效率,提高检测精度和时间效率,具有较高的查全率和查准率。 展开更多
关键词 相似重复记录 K-Modes聚类算法 信息熵 相似检测
下载PDF
基于Hadoop的大规模电网数据相似重复记录并行检测策略 被引量:2
14
作者 宋人杰 余通 《科技通报》 2018年第7期138-144,共7页
针对电网数据来源多、维度高、体量大的特点,提出云环境下大规模电网数据相似重复记录并行检测算法MP-MATCH;首先,引入海明距离、倒排索引算法和狄利克雷抽屉原理对Sim Hash算法改进,解决相似重复记录检测精度和效率缺失的问题;其次,基... 针对电网数据来源多、维度高、体量大的特点,提出云环境下大规模电网数据相似重复记录并行检测算法MP-MATCH;首先,引入海明距离、倒排索引算法和狄利克雷抽屉原理对Sim Hash算法改进,解决相似重复记录检测精度和效率缺失的问题;其次,基于MapReduce模型设计改进的Sim Hash算法的并行执行策略,实现云环境下大规模电网数据相似重复记录并行检测;最后,在Hadoop平台上进行实例对比分析,结果表明了算法的高效性和精确性,并具有良好的伸缩性和加速比,适用于大规模电网数据的相似重复记录并行检测。 展开更多
关键词 电网数据 相似重复记录 HADOOP 并行检测
下载PDF
相似重复记录检测研究与发展动态的知识图谱分析 被引量:1
15
作者 顾晴 董永权 胡杨 《计算机应用与软件》 北大核心 2022年第3期1-7,95,共8页
在大数据环境下,数据库中的记录数量呈指数上升,如何高效率地检测出相似重复记录是数据清洗的关键点和提高数据质量的首要任务。近十年国内外相似重复记录检测方法又涌现出相当多的高水平成果,迫切需要对新的文献加以归纳梳理。以2008—... 在大数据环境下,数据库中的记录数量呈指数上升,如何高效率地检测出相似重复记录是数据清洗的关键点和提高数据质量的首要任务。近十年国内外相似重复记录检测方法又涌现出相当多的高水平成果,迫切需要对新的文献加以归纳梳理。以2008—2019年的国内外相似重复记录检测相关文献为研究样本,结合社会网络和知识图谱对其发文量、核心机构、作者合作群、研究热点和研究趋势进行分析。分析发现,作者合作结构整体上较松散,相似重复记录各类检测方式的集成、应用领域的扩展和通用框架的研究成为热点,缺失数据值的处理、多数据源的识别、大数据量的分块处理成为相似重复记录领域的挑战。 展开更多
关键词 相似重复记录检测 知识合作 研究热点 研究趋势
下载PDF
一种针对关系数据库记录的相似重复记录检测算法 被引量:5
16
作者 马可 郑广海 《电脑知识与技术》 2018年第5期25-28,共4页
在大数据处理分析中,需要对数据记录进行相似重复记录检测并消除,可以提高数据记录的质量。邻近排序算法(SNM算法)是对数据库所有记录进行排序比对,新记录和旧记录都需要比对,而旧记录的相互比是已经做过的,这就造成了一定的计算浪费... 在大数据处理分析中,需要对数据记录进行相似重复记录检测并消除,可以提高数据记录的质量。邻近排序算法(SNM算法)是对数据库所有记录进行排序比对,新记录和旧记录都需要比对,而旧记录的相互比是已经做过的,这就造成了一定的计算浪费。在考虑尽量减少这种计算浪费的基础上,提出了一种针对关系数据库记录的相似重复记录检测算法,算法首先创建记录属性关系表,设定属性的相应权重和相似度阈值,通过属性关系表计算记录和其他记录的相似度,从而完成对相似重复记录的检测。实验表明新的算法的效率比SNM算法有一定提高。 展开更多
关键词 相似重复记录 snm算法 检测
下载PDF
基于多目标蚁群优化的单类支持向量机相似重复记录检测 被引量:12
17
作者 吕国俊 曹建军 +3 位作者 郑奇斌 常宸 翁年凤 彭琮 《兵工学报》 EI CAS CSCD 北大核心 2020年第2期324-331,共8页
为解决数据源中相似重复记录样本稀少问题,提出一种基于多目标蚁群优化的单类支持向量机相似重复记录分类检测方法。根据记录对中2条记录是否相似,将相似重复记录检测建模为二分类问题,用单类支持向量机进行分类,并且只用不相似重复记... 为解决数据源中相似重复记录样本稀少问题,提出一种基于多目标蚁群优化的单类支持向量机相似重复记录分类检测方法。根据记录对中2条记录是否相似,将相似重复记录检测建模为二分类问题,用单类支持向量机进行分类,并且只用不相似重复记录样本对进行训练;选择合适的属性相似度函数计算记录对之间的相似特征向量,将其作为单类支持向量机分类器的输入进行二分类检测;建立以查准率、查全率、特征数量综合最优为目标的多目标特征选择模型,结合训练样本为单类样本的特点,将启发式因子定义为类内散度最小化约束,设计了求解模型的多目标蚁群算法。通过将单类支持向量机算法和支持向量域描述算法、传统二分类支持向量机算法进行对比,结果验证了单类支持向量机算法的有效性和优越性。 展开更多
关键词 数据清洗 相似重复记录检测 多目标蚁群算法 特征选择 单类支持向量机 支持向量域描述
下载PDF
移动网络相似信息重复记录智能检测仿真 被引量:1
18
作者 谢毅 《计算机仿真》 北大核心 2019年第2期439-442,468,共5页
移动网络相似信息重复记录检测在专利分析系统中具有广泛的应用前景。针对当前方法存在检测耗时较长、查准率和查全率较低等问题,提出一种基于领域本体的移动网络相似信息重复记录智能检测方法,构建了一种三维的移动网络文本空间表示模... 移动网络相似信息重复记录检测在专利分析系统中具有广泛的应用前景。针对当前方法存在检测耗时较长、查准率和查全率较低等问题,提出一种基于领域本体的移动网络相似信息重复记录智能检测方法,构建了一种三维的移动网络文本空间表示模型,对移动网络中相似信息重复记录文本集合中的文本向量进行结构化描述。在此基础上,基于领域本体分别对移动网络相似信息重复记录中的词语、句子和文本进行相似度检测,得到移动网络文本中任意两个句子的相似度特征矩阵。对移动网络文本中句子相似度特征矩阵进行遍历,选取其中相似度最大的句子组合,并将该组合所属行列从矩阵中删除,再从剩余矩阵中相似度最大的句子组合筛选出来,以此类推,直到句子中的元素数目变为0,提取获得相似度最大句子组合序列,根据该序列即可实现移动网络相似信息重复记录的智能检测。仿真测试结果表明,上述方法在移动网络相似信息重复记录相似度检测准确性上更具优势,具有较高的查准率和查全率,并且检测效率较高。 展开更多
关键词 移动网络 相似信息 重复记录 智能检测
下载PDF
基于语义的相似性重复记录检测
19
作者 唐玲玲 刘思帆 《中国电子商务》 2010年第2期57-58,共2页
本文针对数据清洗中存在的记录之间语义相似性问题,提出了一种基于语义的相似性重复记录检测方法。该方法在检测重复记录时,不仅考虑记录之间的句法相似性,还考虑了他们之间的语义相似性。
关键词 数据清洗 相似 重复记录 检测
下载PDF
基于K-modes聚类分组的大数据相似重复记录检测研究 被引量:1
20
作者 张平 余顺 《安徽职业技术学院学报》 2022年第1期24-29,共6页
相似重复记录检测是数据清洗的重要环节,大数据环境下对相似重复记录检测方法的效率和精度提出了更高的要求。文章针对大数据环境下对相似重复记录检测提出了一种聚类分组检测的KCG算法。该方法首先采用改进的K-modes聚类对大数据进行... 相似重复记录检测是数据清洗的重要环节,大数据环境下对相似重复记录检测方法的效率和精度提出了更高的要求。文章针对大数据环境下对相似重复记录检测提出了一种聚类分组检测的KCG算法。该方法首先采用改进的K-modes聚类对大数据进行有效的分组,然后在各分组中采用Pair-wise比较算法检测出所有相似重复记录检测。实验分析结果表明,该方法对大数据环境下的相似重复记录检测的效率和精度有明显提高。 展开更多
关键词 相似重复记录检测 网格密度 Pair-wise KCG
下载PDF
上一页 1 2 14 下一页 到第
使用帮助 返回顶部