期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
一种基于相似度的互联网信息去重算法的设计与实现
下载PDF
职称材料
导出
摘要
提出一种基于文档特征相似度技术的互联网信息去重算法及其实现。通过对文档特征码的有效降维和收敛及高效存储和查找,使整个系统具有极高的处理效率。克服了相似度识别理论模型在多语种环境中特征判断准确率低、处理速度慢等缺点。通过对大量互联网邮件和网页的测试与分析,该算法能实现近似常量的时间复杂度的互联网信息去重功能,并具有较高的判断准确率。
作者
蓝煜
机构地区
电信科学技术第十研究所
出处
《电信交换》
2010年第3期26-32,共7页
关键词
相似度
全文检索
shingle算法
最小独立相关置换
降维
分类号
TP391 [自动化与计算机技术—计算机应用技术]
引文网络
相关文献
节点文献
二级参考文献
0
参考文献
0
共引文献
0
同被引文献
0
引证文献
0
二级引证文献
0
1
王昌红.
360网盘的文件去重[J]
.电脑知识与技术(经验技巧),2015,0(1):25-25.
2
倪云霞,刘以安.
自适应加权在智能交通系统中的应用[J]
.中国科技博览,2010(2):289-289.
3
房佳鹏,冯国会.
基于参数测量的液压系统故障诊断方法[J]
.冶金设备管理与维修,2017,35(1):33-35.
被引量:2
4
张晓颜,韩斌,周世友.
离散余弦变换在火焰识别中的应用[J]
.核电子学与探测技术,2009,29(6):1319-1323.
被引量:2
5
汉口人家.
听好歌,不再重复[J]
.网友世界,2010(1):31-31.
6
沉默的石头.
一劳永逸排除重复音乐[J]
.电脑迷,2009(22):68-68.
7
苏秀芝.
基于标题与文本相似度的网页正文提取算法[J]
.科技创新与应用,2016,6(25):57-58.
被引量:1
8
百度推出新闻和图片两大技术化搜索引擎[J]
.中国传媒科技,2003(8):21-21.
9
李纲,毛进,陈璟浩.
基于语义指纹的中文文本快速去重[J]
.现代图书情报技术,2013(9):41-47.
被引量:5
10
王海洪,戴玉刚.
消除重复藏文网页的完整解决方案[J]
.科技信息,2009(4):21-21.
电信交换
2010年 第3期
职称评审材料打包下载
相关作者
内容加载中请稍等...
相关机构
内容加载中请稍等...
相关主题
内容加载中请稍等...
浏览历史
内容加载中请稍等...
;
用户登录
登录
IP登录
使用帮助
返回顶部