期刊文献+
共找到84篇文章
< 1 2 5 >
每页显示 20 50 100
一种两阶段的多媒体教育资源网页消重方法
1
作者 杨晓娟 廖晨辉 《现代教育技术》 CSSCI 2012年第9期93-96,共4页
随着开放教育资源运动开展与深入,在互联网络中形成开放的、超大规模的、世界范围内最先进的多媒体教育资源网页集群。然而使用搜索引擎检索的结果中存在大量的重复网页,导致资源获取难、利用率低的问题。文章在总结现有网页消重方法的... 随着开放教育资源运动开展与深入,在互联网络中形成开放的、超大规模的、世界范围内最先进的多媒体教育资源网页集群。然而使用搜索引擎检索的结果中存在大量的重复网页,导致资源获取难、利用率低的问题。文章在总结现有网页消重方法的基础上提出一种可行的两阶段的多媒体教育资源网页消重方法,实验证明,通过对网页文本信息及多媒体信息分开消重,能有效地提高消重的效果。 展开更多
关键词 开放教育资源 基于签名的消重方法 基于关键词的消重方法 Shingling算法
下载PDF
电子目录本体合并中的实例消重机制 被引量:5
2
作者 刘平峰 章佩璐 陈冬林 《计算机工程》 CAS CSCD 2012年第2期32-35,共4页
为解决电子目录集成中的本体实例冗余问题,提出面向本体合并的电子目录本体实例消重机制,综合考虑实例的名称、属性和关系设计实例语义相似度算法。结合字符串匹配和基于Wordnet计算名称语义相似度,综合数据类型属性和对象类型属性计算... 为解决电子目录集成中的本体实例冗余问题,提出面向本体合并的电子目录本体实例消重机制,综合考虑实例的名称、属性和关系设计实例语义相似度算法。结合字符串匹配和基于Wordnet计算名称语义相似度,综合数据类型属性和对象类型属性计算属性语义相似度,依据类的多重继承关系计算关系语义相似度。当2个实例的语义相似度大于事先设置的阈值时,需删除其中一个以降低目标本体库的冗余度。实验结果验证了该机制的有效性。 展开更多
关键词 电子目录集成 本体合并 实例消重 语义相似度
下载PDF
基于元搜索的网页消重方法研究 被引量:5
3
作者 谢蕙 秦杰 《计算机系统应用》 2008年第8期94-96,共3页
本文在对现有主流网页消重技术进行分析基础上,针对元搜索引擎技术,提出一种基于元搜索的网页消重算法。介绍了算法的具体实现步骤,并且通过实验验证了算法的有效性。
关键词 消重 特征码 元搜索引擎 网页元数据 摘要相似度
下载PDF
基于重复检测的多摘要消重方法 被引量:1
4
作者 程菲 汪建海 罗键 《计算机工程与设计》 CSCD 北大核心 2006年第23期4521-4524,4555,共5页
针对目前Web信息挖掘中存在大量页面重复的问题,从Web信息的组织角度对其中的一些关键问题进行深入分析,提出了基于关键词的部分相似页面消重算法——Web多摘要消重方法(multiabstractremoverepeat,MARR)。MARR方法对传统基于词表和倒... 针对目前Web信息挖掘中存在大量页面重复的问题,从Web信息的组织角度对其中的一些关键问题进行深入分析,提出了基于关键词的部分相似页面消重算法——Web多摘要消重方法(multiabstractremoverepeat,MARR)。MARR方法对传统基于词表和倒排文件的Web信息数据库进行改装,增加一个字段用于记录关键词所对应的摘要块号,采用文本摘要算法,按倒排文件方式索引,根据内容基于查询词目的相似程度,在检索过程中过滤或标识与查询词目相关的部分内部重复现象,以获得更合理的检索结果组织形式。MARR方法还将传统按PageRank值顺序排列改成树型组织方式,以方便用户信息发现的需要。该方法在基于三明钢铁集团MES智能信息代理的原型化Web检索系统中得到应用。 展开更多
关键词 信息检索 消重方法 文本摘要 倒排文件 树型组织
下载PDF
网络备份中重复数据消重技术研究 被引量:3
5
作者 郑轲 俞婷 《科技创新与应用》 2016年第4期61-61,共1页
随着信息化建设的深入,数据信息量呈几何级增长,为解决数据大量重复而导致存储空间浪费,文章将重点研究重复数据消重的问题。文章首先给出了数据消重技术的原理,并对数据消重类别,数据指纹和数据划分进行了阐述,接着重点分析了数据消重... 随着信息化建设的深入,数据信息量呈几何级增长,为解决数据大量重复而导致存储空间浪费,文章将重点研究重复数据消重的问题。文章首先给出了数据消重技术的原理,并对数据消重类别,数据指纹和数据划分进行了阐述,接着重点分析了数据消重领域中的变长分块算法,元数据索引和客户端与服务端交互等。 展开更多
关键词 复数据 消重 变长块 元数据 客户端 服务端
下载PDF
基于文本相似度的网页消重策略 被引量:6
6
作者 刘书一 《计算机应用与软件》 CSCD 2011年第11期228-229,278,共3页
针对在网页检索结果中经常出现内容相同或相似的问题,提出了一种通过计算网页相似度的方法进行网页消重。该算法通过提取网页特征串,特征串的提取在参考以往特征码提取的基础上,加入了文本结构特征的提取,通过比较特征串之间差异性的基... 针对在网页检索结果中经常出现内容相同或相似的问题,提出了一种通过计算网页相似度的方法进行网页消重。该算法通过提取网页特征串,特征串的提取在参考以往特征码提取的基础上,加入了文本结构特征的提取,通过比较特征串之间差异性的基础上得到网页的相似度。经与相似方法比较,结果表明,该方法减少了时间复杂度,具有较高的查全率和查准率,适于大规模网页消重。 展开更多
关键词 网页消重 网页特征码 文本相似度 编辑距离
下载PDF
基于网页内容的网页消重高效检测算法研究 被引量:1
7
作者 王祖析 《佳木斯大学学报(自然科学版)》 CAS 2010年第1期22-24,共3页
在对现有主流网页消重技术分析的基础上,提出一种基于网页内容的改进的网页消重高效检测算法.该算法通过利用网页的标签树结构选取最大的多个文本块,将这些文本块连接在一起生成一个代表该网页的MD5指纹,对指纹进行比较,确认近似网页实... 在对现有主流网页消重技术分析的基础上,提出一种基于网页内容的改进的网页消重高效检测算法.该算法通过利用网页的标签树结构选取最大的多个文本块,将这些文本块连接在一起生成一个代表该网页的MD5指纹,对指纹进行比较,确认近似网页实现消重,实验证明该方法对近似网页能进行准确的检测. 展开更多
关键词 搜索引擎 网页消重 MD5指纹 算法分析
下载PDF
DeduBS:一种基于Hash匹配的数据消重远程备份系统
8
作者 刘靖宇 杨雷 +2 位作者 赵秀平 李娟 武优西 《河北工业大学学报》 CAS 2015年第4期32-37,共6页
数据备份规模的不断增大,网络带宽成为了远程数据备份系统的瓶颈.针对这个问题,本文提出了一种基于Hash匹配的数据消重远程备份系统:DeduBS系统.DeduBS系统通过数据消重,避免了在数据备份过程中传输重复数据,有效地提高了网络传输效率.D... 数据备份规模的不断增大,网络带宽成为了远程数据备份系统的瓶颈.针对这个问题,本文提出了一种基于Hash匹配的数据消重远程备份系统:DeduBS系统.DeduBS系统通过数据消重,避免了在数据备份过程中传输重复数据,有效地提高了网络传输效率.DeduBS系统在源节点和目标节点建立Hash库存储数据块的Hash值,数据传输前通过比对Hash值判断其是否为重复数据,只传输重复数据的Hash值和非重复数据,对于重复数据接收端通过Hash库恢复数据.实验数据表明,DeduBS系统可以减少网络传输的数据量,在降低成本、节省能耗的同时,提高数据备份的效率. 展开更多
关键词 备份 数据消重 Hash值 网络传输
下载PDF
位置信息记录中基于期望最大化的名称消重算法
9
作者 孙晓玲 郑勉 +1 位作者 李伟勤 罗恩韬 《计算机科学》 CSCD 北大核心 2016年第3期238-241,251,共5页
在包含位置信息的签到记录中,每条记录仅包含名称和位置(经纬度)两个属性。传统的名称消重算法通过匹配实体的属性值或者计算实体间的名称相似性进行消重,忽略了位置信息的特殊性。为了提高位置信息记录中名称消重的质量,提出了一种基... 在包含位置信息的签到记录中,每条记录仅包含名称和位置(经纬度)两个属性。传统的名称消重算法通过匹配实体的属性值或者计算实体间的名称相似性进行消重,忽略了位置信息的特殊性。为了提高位置信息记录中名称消重的质量,提出了一种基于期望最大化的位置名称消重算法。首先,提出了一种包含核心单词和背景单词的文本名称模型,并给出了计算模型参数值的期望最大化算法。其次,在文本名称模型中引入位置信息,将整个地图划分为若干个网格,分别计算每个网格中核心单词和背景单词的分布情况,并提出了一种考虑位置的文本名称模型。最后,将位置文本名称模型用于位置信息记录中的名称消重,并给出了相应的名称消重算法。实验表明,与传统的名称消重模型相比,提出的位置名称消重模型可以更好地识别出名称中包含的核心词汇,因而在名称消重时具有更好的性能。 展开更多
关键词 签到 位置 期望最大化 名称消重
下载PDF
基于字集特征向量的网页消重改进算法
10
作者 李洪奇 冯海波 +2 位作者 张伟 杨中国 宋伟城 《计算机工程与应用》 CSCD 北大核心 2017年第2期53-57,共5页
基于MD5算法计算数字指纹的网页消重算法简单而高效,在网页消重领域应用比较广泛。但是由于MD5算法是一种严格的信息加密算法,在文章内容变动很少的情况下得出的指纹结果完全不同,导致基于这种算法的网页消重技术召回率不是很高。提出... 基于MD5算法计算数字指纹的网页消重算法简单而高效,在网页消重领域应用比较广泛。但是由于MD5算法是一种严格的信息加密算法,在文章内容变动很少的情况下得出的指纹结果完全不同,导致基于这种算法的网页消重技术召回率不是很高。提出了两种基于字集特征向量的网页消重改进算法,把文章内容映射到字集空间中去,计算字集空间距离来判断文章是否相似。提出的算法具有良好的泛化能力,段落中存在的调整语序和增删改个别字不会影响到对相似段落的识别,大大提高了网页消重算法的召回率。实验结果表明,算法的时间复杂度为O(n),空间复杂度为O(1),适合应用于大规模网页消重。 展开更多
关键词 字集向量 机器码向量 网页消重 数字指纹 MD5
下载PDF
基于AutoCAD的图线消重与连接处理及应用
11
作者 蓝晓民 王全 王盛智 《辽宁石油化工大学学报》 CAS 2018年第3期67-72,共6页
分析了AotoCAD中图线重复、重叠、间断在实际应用中存在的问题,提出了利用AutoCAD系统内嵌的VisualLISP语言编写自动消除重复、重叠、间断线的方法。经过程序处理的工程图样可以避免出现线性不符合国标要求的问题,避免人工修改图线的繁... 分析了AotoCAD中图线重复、重叠、间断在实际应用中存在的问题,提出了利用AutoCAD系统内嵌的VisualLISP语言编写自动消除重复、重叠、间断线的方法。经过程序处理的工程图样可以避免出现线性不符合国标要求的问题,避免人工修改图线的繁杂工作。对板材切割图进行消重处理,可以延长激光切割头的寿命及零件的切割精度。对计算机绘图进行消重处理,可有效地提高计算机绘图自动评分系统的识别正确率。 展开更多
关键词 AUTOCAD 图线消重 工程图样 激光切割 自动评分
下载PDF
基于神经网络的关系消重和排序运算
12
作者 高劲松 孟令奎 《华中师范大学学报(自然科学版)》 CAS CSCD 1994年第3期307-314,共8页
将神经网络用于求解关系的消重和排序.利用无学习的浅层前馈阈值神经网络可以有效地完成消重和排序运算.分析表明,这两种运算分别有7层和6层神经元即能完成.相应的时间复杂度均为O(1)。
关键词 消重 排序 关系数据库 神经网络
下载PDF
也谈消重
13
作者 胡燕 《中国档案》 CSSCI 北大核心 1997年第3期22-23,共2页
也谈消重河北大学信息管理系■胡燕随着档案鉴定理论研究的深入,有关消重问题引起越来越多的重视。笔者浏览92年以来档案界的期刊,有关文章不下二、三十篇。关于如何消重,归纳起来主要有以下几种观点:①使用系统消重法,对同一系... 也谈消重河北大学信息管理系■胡燕随着档案鉴定理论研究的深入,有关消重问题引起越来越多的重视。笔者浏览92年以来档案界的期刊,有关文章不下二、三十篇。关于如何消重,归纳起来主要有以下几种观点:①使用系统消重法,对同一系统内的档案进行综合审查,以消除同系... 展开更多
关键词 档案鉴定 档案工作 档案消重
下载PDF
近似镜像检测算法在文本消重中的应用研究 被引量:2
14
作者 梁叶 梁京章 +1 位作者 阳红 叶云 《广西大学学报(自然科学版)》 CAS CSCD 北大核心 2010年第2期320-323,共4页
文本消重是搜索引擎中的一项重要技术,能将搜集到的网页中的近似镜像网页去掉,而后再建索引提供服务,这样用户查询时就不会出现大量内容重复的网页。通过对近似镜像文本检测算法的分析和研究,提出了应用MD5指纹的近似镜像算法对文本文... 文本消重是搜索引擎中的一项重要技术,能将搜集到的网页中的近似镜像网页去掉,而后再建索引提供服务,这样用户查询时就不会出现大量内容重复的网页。通过对近似镜像文本检测算法的分析和研究,提出了应用MD5指纹的近似镜像算法对文本文档进行消重处理的方法,并将该算法在基于P2PKM的学习支持平台上的索引模块中作了测试。测试结果表明,这种算法的应用,知识包中的重复文档有了明显的减少。 展开更多
关键词 近似镜像 消重 MD5
下载PDF
基于Map/Reduce的网页消重并行算法 被引量:2
15
作者 张元丰 董守斌 +1 位作者 张凌 陈晓志 《广西师范大学学报(自然科学版)》 CAS 北大核心 2007年第2期153-156,共4页
网页消重模块是搜索引擎系统的重要组成部分,其作用是对搜索引擎的爬虫系统下载的网页进行过滤,去除重复内容的网页,从而提高搜索引擎爬虫系统的性能和检索的质量。提出了一种网页消重的并行算法以及基于Map/Reduce的实现机制,并通过实... 网页消重模块是搜索引擎系统的重要组成部分,其作用是对搜索引擎的爬虫系统下载的网页进行过滤,去除重复内容的网页,从而提高搜索引擎爬虫系统的性能和检索的质量。提出了一种网页消重的并行算法以及基于Map/Reduce的实现机制,并通过实际网站的实验验证了该消重算法的稳定性和处理大量网页时的并行性能。 展开更多
关键词 搜索引擎 网页消重 MAP/REDUCE
下载PDF
简单高效的URL消重的方法 被引量:2
16
作者 龚秋艳 陈良育 曾振柄 《计算机应用》 CSCD 北大核心 2010年第A01期49-50,53,共3页
在Web信息采集的过程中,为了避免对同一页面的重复下载,需要对URL进行消重。当URL数量变得非常庞大时,URL编码、计算和存储将会给网页消重性能造成很大的影响。通过对URL网址的观察和工程实践,提出一种简单高效的K-PickHash算法,能够快... 在Web信息采集的过程中,为了避免对同一页面的重复下载,需要对URL进行消重。当URL数量变得非常庞大时,URL编码、计算和存储将会给网页消重性能造成很大的影响。通过对URL网址的观察和工程实践,提出一种简单高效的K-PickHash算法,能够快速对绝大多数的URL生成唯一编码,同时保证较低的碰撞率。实验结果证明,计算相同数量的URL时,K-PickHfIp算法所占用的时间小于信息—摘要算法(MD5)的1/3,内存使用比MD5节省1/3,碰撞率也控制在可接受的范围。 展开更多
关键词 URL消重 K—PickHash MD5
下载PDF
改进的数据消重方法在垂直搜索引擎中的应用
17
作者 朱鸿鹏 《邵阳学院学报(自然科学版)》 2012年第2期34-36,共3页
本文对垂直搜索引擎中的数据消重方法做了仔细的分析,对单MD5算法和多重MD5算法在数据消重中的作用以实验作为依据,并将两者相结合得到的算法应用到电子产品垂直搜索引擎当中,取得了较好的数据消重效果,为索引模块的建立打下了基础.
关键词 MD5 混合算法 数据消重
下载PDF
布隆过滤器在网页消重中的应用 被引量:2
18
作者 潘昊 鄂海红 宋美娜 《软件》 2015年第12期166-170,共5页
随着互联网的发展,网络信息呈爆炸性的增长。大量的信息一方面给人们带来了更多的消息来源,而另一方面也给人们搜索有用的信息带来巨大的负担。根据2015年11月的最新数据,互联网上活动网站的数量达到了902,997,800个。因此如何更有效的... 随着互联网的发展,网络信息呈爆炸性的增长。大量的信息一方面给人们带来了更多的消息来源,而另一方面也给人们搜索有用的信息带来巨大的负担。根据2015年11月的最新数据,互联网上活动网站的数量达到了902,997,800个。因此如何更有效的消除互联网中的重复信息,让人们便捷的找到所求,已经成为现代互联网的一个重要的问题。布隆过滤器(Bloom Filter)是1970年提出的一种去重算法,它实际上是由一个很长的二进制向量和一系列随机映射函数组成的,拥有查询速度快和占用空间低的优点,然而其存在一定的误识别率。针对这个问题,本文设计了一种多维布隆过滤器算法,有效降低了传统布隆过滤器误识别率,并且通过实验,测试对比误称率和查询速度。 展开更多
关键词 算法理论 多维布隆过滤器 布隆过滤器 网页消重
下载PDF
基于语义的短文本消重算法研究 被引量:2
19
作者 蒋旦 张翔 《网络新媒体技术》 2017年第1期45-51,共7页
传统的文本消重技术局限于消除字面完全相同或者高度相似的信息,无法满足特定领域,比如新闻消重的要求。为了去除"话题重复"的新闻报导,提出一种两层短文本消重技术,在字面消重层的基础上,添加语义消重层,结合多个词向量空间... 传统的文本消重技术局限于消除字面完全相同或者高度相似的信息,无法满足特定领域,比如新闻消重的要求。为了去除"话题重复"的新闻报导,提出一种两层短文本消重技术,在字面消重层的基础上,添加语义消重层,结合多个词向量空间模型捕获文本语义特征,试图检测属于同一话题的重复新闻。实验表明,本算法较单纯的基于字面的文本消重算法,在保证不降低检测准确率的条件下,能较大提高检测召回率。其应用于"科技视界"新闻服务系统中,取得良好效果。 展开更多
关键词 文本消重 倒排索引 语义相似度 词向量
下载PDF
互联网金融新闻搜索的文本消重方法研究
20
作者 阮进 袁景瑞 梁循 《西华大学学报(自然科学版)》 CAS 2008年第2期1-3,共3页
在互联网新闻搜索引擎的研究中,去除内容相同或者相近的新闻是提高搜索引擎效率和准确度的关键技术之一。对于金融等领域的专业新闻来说,采用传统方法的消重效果不尽如人意,不适合金融专业人士对于新闻高效准确处理的需求。本文在基于... 在互联网新闻搜索引擎的研究中,去除内容相同或者相近的新闻是提高搜索引擎效率和准确度的关键技术之一。对于金融等领域的专业新闻来说,采用传统方法的消重效果不尽如人意,不适合金融专业人士对于新闻高效准确处理的需求。本文在基于金融新闻文档关键词提取技术的基础上,结合金融领域词典技术,提出了适合于专业新闻的金融新闻文本消重技术,并分析了其效率。本文的结果对于金融专业人员进行深入地金融新闻处理具有重要意义。 展开更多
关键词 互联网 金融新闻 文本消重 相似度
下载PDF
上一页 1 2 5 下一页 到第
使用帮助 返回顶部