期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
4
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于Newshingling的相似文本检测算法
被引量:
1
1
作者
赵德平
蔡丽静
李鹏
《沈阳建筑大学学报(自然科学版)》
CAS
北大核心
2011年第4期771-775,共5页
目的构造一种新的文本查重算法,改变传统的Shingling网页去重算法,提高文本的相似度计算率,提高查准率和查全率.方法改变传统的Shingling算法,先删除文本中无意义的虚词,再根据语意对文本进行分片,进而利用文本相似度计算公式对文本相...
目的构造一种新的文本查重算法,改变传统的Shingling网页去重算法,提高文本的相似度计算率,提高查准率和查全率.方法改变传统的Shingling算法,先删除文本中无意义的虚词,再根据语意对文本进行分片,进而利用文本相似度计算公式对文本相似度进行计算.结果该算法提高了文本相似度计算的准确性,同时文本的查准率提高了10%左右,查全率提高了5%左右.结论实验表明,笔者所提算法实现简单、可行、具有良好的文本相似度计算效果,具有一定的优越性.
展开更多
关键词
空间向量模型
文本相似度
shingl
ing
算法
分词
下载PDF
职称材料
一种基于相似度的互联网信息去重算法的设计与实现
2
作者
蓝煜
《电信交换》
2010年第3期26-32,共7页
提出一种基于文档特征相似度技术的互联网信息去重算法及其实现。通过对文档特征码的有效降维和收敛及高效存储和查找,使整个系统具有极高的处理效率。克服了相似度识别理论模型在多语种环境中特征判断准确率低、处理速度慢等缺点。通...
提出一种基于文档特征相似度技术的互联网信息去重算法及其实现。通过对文档特征码的有效降维和收敛及高效存储和查找,使整个系统具有极高的处理效率。克服了相似度识别理论模型在多语种环境中特征判断准确率低、处理速度慢等缺点。通过对大量互联网邮件和网页的测试与分析,该算法能实现近似常量的时间复杂度的互联网信息去重功能,并具有较高的判断准确率。
展开更多
关键词
相似度
全文检索
shingle算法
最小独立相关置换
降维
下载PDF
职称材料
消除重复藏文网页的完整解决方案
3
作者
王海洪
戴玉刚
《科技信息》
2009年第4期21-21,23,共2页
消除重复网页是搜索引擎不可或缺的一部分,藏文搜索引擎也是如此。从信息处理的角度而言,藏文属于"复杂文字"的范畴,其编码在实际使用当中仍不统一。本论文实现了统一的藏文编码并选择合适的Shingle粒度,提出了消除重复藏文...
消除重复网页是搜索引擎不可或缺的一部分,藏文搜索引擎也是如此。从信息处理的角度而言,藏文属于"复杂文字"的范畴,其编码在实际使用当中仍不统一。本论文实现了统一的藏文编码并选择合适的Shingle粒度,提出了消除重复藏文网页的完整解决方案。经过试验其效果能够满足藏文搜索引擎消除重复网页的需求。
展开更多
关键词
消除重复
藏文网页
统一藏文编码
shingle算法
下载PDF
职称材料
一种两阶段的多媒体教育资源网页消重方法
4
作者
杨晓娟
廖晨辉
《现代教育技术》
CSSCI
2012年第9期93-96,共4页
随着开放教育资源运动开展与深入,在互联网络中形成开放的、超大规模的、世界范围内最先进的多媒体教育资源网页集群。然而使用搜索引擎检索的结果中存在大量的重复网页,导致资源获取难、利用率低的问题。文章在总结现有网页消重方法的...
随着开放教育资源运动开展与深入,在互联网络中形成开放的、超大规模的、世界范围内最先进的多媒体教育资源网页集群。然而使用搜索引擎检索的结果中存在大量的重复网页,导致资源获取难、利用率低的问题。文章在总结现有网页消重方法的基础上提出一种可行的两阶段的多媒体教育资源网页消重方法,实验证明,通过对网页文本信息及多媒体信息分开消重,能有效地提高消重的效果。
展开更多
关键词
开放教育资源
基于签名的消重方法
基于关键词的消重方法
shingl
ing
算法
下载PDF
职称材料
题名
基于Newshingling的相似文本检测算法
被引量:
1
1
作者
赵德平
蔡丽静
李鹏
机构
沈阳建筑大学理学院
沈阳建筑大学信息与控制工程学院
出处
《沈阳建筑大学学报(自然科学版)》
CAS
北大核心
2011年第4期771-775,共5页
基金
辽宁省教育厅基金项目(L2010449)
文摘
目的构造一种新的文本查重算法,改变传统的Shingling网页去重算法,提高文本的相似度计算率,提高查准率和查全率.方法改变传统的Shingling算法,先删除文本中无意义的虚词,再根据语意对文本进行分片,进而利用文本相似度计算公式对文本相似度进行计算.结果该算法提高了文本相似度计算的准确性,同时文本的查准率提高了10%左右,查全率提高了5%左右.结论实验表明,笔者所提算法实现简单、可行、具有良好的文本相似度计算效果,具有一定的优越性.
关键词
空间向量模型
文本相似度
shingl
ing
算法
分词
Keywords
VSM
text similarity
shingl
ing algorithm
segmentation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种基于相似度的互联网信息去重算法的设计与实现
2
作者
蓝煜
机构
电信科学技术第十研究所
出处
《电信交换》
2010年第3期26-32,共7页
文摘
提出一种基于文档特征相似度技术的互联网信息去重算法及其实现。通过对文档特征码的有效降维和收敛及高效存储和查找,使整个系统具有极高的处理效率。克服了相似度识别理论模型在多语种环境中特征判断准确率低、处理速度慢等缺点。通过对大量互联网邮件和网页的测试与分析,该算法能实现近似常量的时间复杂度的互联网信息去重功能,并具有较高的判断准确率。
关键词
相似度
全文检索
shingle算法
最小独立相关置换
降维
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
消除重复藏文网页的完整解决方案
3
作者
王海洪
戴玉刚
机构
西北民族大学中国民族信息技术研究院
西北民族大学中国民族语言文字信息技术重点实验室
出处
《科技信息》
2009年第4期21-21,23,共2页
文摘
消除重复网页是搜索引擎不可或缺的一部分,藏文搜索引擎也是如此。从信息处理的角度而言,藏文属于"复杂文字"的范畴,其编码在实际使用当中仍不统一。本论文实现了统一的藏文编码并选择合适的Shingle粒度,提出了消除重复藏文网页的完整解决方案。经过试验其效果能够满足藏文搜索引擎消除重复网页的需求。
关键词
消除重复
藏文网页
统一藏文编码
shingle算法
分类号
TP391 [自动化与计算机技术—计算机应用技术]
TP393.092 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
一种两阶段的多媒体教育资源网页消重方法
4
作者
杨晓娟
廖晨辉
机构
山东师范大学传媒学院
江西省对外联络办公室
出处
《现代教育技术》
CSSCI
2012年第9期93-96,共4页
基金
山东省高等学校科技计划项目"面向中国文化贸易领域基于语义本体的垂直搜索系统关键技术研究课题"(课题编号:J12LN20)
山东省科技攻关项目"基于本体的Flash内容管理和搜索引擎系统的研究与开发"(课题编号:2008GG30001007)资助
文摘
随着开放教育资源运动开展与深入,在互联网络中形成开放的、超大规模的、世界范围内最先进的多媒体教育资源网页集群。然而使用搜索引擎检索的结果中存在大量的重复网页,导致资源获取难、利用率低的问题。文章在总结现有网页消重方法的基础上提出一种可行的两阶段的多媒体教育资源网页消重方法,实验证明,通过对网页文本信息及多媒体信息分开消重,能有效地提高消重的效果。
关键词
开放教育资源
基于签名的消重方法
基于关键词的消重方法
shingl
ing
算法
Keywords
open educational resources
elimination of duplicated web pages based on fingerprint
elimination of duplicated web pagesbased on keywords
shingl
ing algorithm
分类号
G40-057 [文化科学—教育学原理]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于Newshingling的相似文本检测算法
赵德平
蔡丽静
李鹏
《沈阳建筑大学学报(自然科学版)》
CAS
北大核心
2011
1
下载PDF
职称材料
2
一种基于相似度的互联网信息去重算法的设计与实现
蓝煜
《电信交换》
2010
0
下载PDF
职称材料
3
消除重复藏文网页的完整解决方案
王海洪
戴玉刚
《科技信息》
2009
0
下载PDF
职称材料
4
一种两阶段的多媒体教育资源网页消重方法
杨晓娟
廖晨辉
《现代教育技术》
CSSCI
2012
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部