期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于Newshingling的相似文本检测算法 被引量:1
1
作者 赵德平 蔡丽静 李鹏 《沈阳建筑大学学报(自然科学版)》 CAS 北大核心 2011年第4期771-775,共5页
目的构造一种新的文本查重算法,改变传统的Shingling网页去重算法,提高文本的相似度计算率,提高查准率和查全率.方法改变传统的Shingling算法,先删除文本中无意义的虚词,再根据语意对文本进行分片,进而利用文本相似度计算公式对文本相... 目的构造一种新的文本查重算法,改变传统的Shingling网页去重算法,提高文本的相似度计算率,提高查准率和查全率.方法改变传统的Shingling算法,先删除文本中无意义的虚词,再根据语意对文本进行分片,进而利用文本相似度计算公式对文本相似度进行计算.结果该算法提高了文本相似度计算的准确性,同时文本的查准率提高了10%左右,查全率提高了5%左右.结论实验表明,笔者所提算法实现简单、可行、具有良好的文本相似度计算效果,具有一定的优越性. 展开更多
关键词 空间向量模型 文本相似度 shingling算法 分词
下载PDF
一种基于相似度的互联网信息去重算法的设计与实现
2
作者 蓝煜 《电信交换》 2010年第3期26-32,共7页
提出一种基于文档特征相似度技术的互联网信息去重算法及其实现。通过对文档特征码的有效降维和收敛及高效存储和查找,使整个系统具有极高的处理效率。克服了相似度识别理论模型在多语种环境中特征判断准确率低、处理速度慢等缺点。通... 提出一种基于文档特征相似度技术的互联网信息去重算法及其实现。通过对文档特征码的有效降维和收敛及高效存储和查找,使整个系统具有极高的处理效率。克服了相似度识别理论模型在多语种环境中特征判断准确率低、处理速度慢等缺点。通过对大量互联网邮件和网页的测试与分析,该算法能实现近似常量的时间复杂度的互联网信息去重功能,并具有较高的判断准确率。 展开更多
关键词 相似度 全文检索 shingle算法 最小独立相关置换 降维
下载PDF
消除重复藏文网页的完整解决方案
3
作者 王海洪 戴玉刚 《科技信息》 2009年第4期21-21,23,共2页
消除重复网页是搜索引擎不可或缺的一部分,藏文搜索引擎也是如此。从信息处理的角度而言,藏文属于"复杂文字"的范畴,其编码在实际使用当中仍不统一。本论文实现了统一的藏文编码并选择合适的Shingle粒度,提出了消除重复藏文... 消除重复网页是搜索引擎不可或缺的一部分,藏文搜索引擎也是如此。从信息处理的角度而言,藏文属于"复杂文字"的范畴,其编码在实际使用当中仍不统一。本论文实现了统一的藏文编码并选择合适的Shingle粒度,提出了消除重复藏文网页的完整解决方案。经过试验其效果能够满足藏文搜索引擎消除重复网页的需求。 展开更多
关键词 消除重复 藏文网页 统一藏文编码 shingle算法
下载PDF
一种两阶段的多媒体教育资源网页消重方法
4
作者 杨晓娟 廖晨辉 《现代教育技术》 CSSCI 2012年第9期93-96,共4页
随着开放教育资源运动开展与深入,在互联网络中形成开放的、超大规模的、世界范围内最先进的多媒体教育资源网页集群。然而使用搜索引擎检索的结果中存在大量的重复网页,导致资源获取难、利用率低的问题。文章在总结现有网页消重方法的... 随着开放教育资源运动开展与深入,在互联网络中形成开放的、超大规模的、世界范围内最先进的多媒体教育资源网页集群。然而使用搜索引擎检索的结果中存在大量的重复网页,导致资源获取难、利用率低的问题。文章在总结现有网页消重方法的基础上提出一种可行的两阶段的多媒体教育资源网页消重方法,实验证明,通过对网页文本信息及多媒体信息分开消重,能有效地提高消重的效果。 展开更多
关键词 开放教育资源 基于签名的消重方法 基于关键词的消重方法 shingling算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部