基于SVM的重复网页检测算法
摘要
互联网中存在大量重复网页,降低了用户体验并使搜索变得复杂化。为解决这些问题,把相似网页的比较转换成二元分类问题,使用监督学习算法构造判别函数,避免人为设定相似度阈值所带来的误差;通过SVM训练出的判别函数检测网页对,以此检测网页是否重复。
出处
《软件导刊》
2015年第3期57-58,共2页
Software Guide
参考文献9
-
1N SHIVAKUMAR , H GARCIA-MOLINA. Scare: a copy ddec- tion mechanism for digital documents[M]. In Dtal Library,1995.
-
2N SHIVAKUMAR, H GARCIA MOLINA. Finding near-replicas of documents and servers on the Web[M]. In Proceedings of Web- DB. London, UK, 1999: 204-212.
-
3贺海军,王建芬,周青,曹元大.基于决策支持向量机的中文网页分类器[J].计算机工程,2003,29(2):47-48. 被引量:19
-
4张刚,刘挺,郑实福,等.大规模网页快速去重算法[C].哈尔滨工业大学信息检索研究室论文集,2003(1).
-
5吴平博,陈群秀,马亮.基于特征串的大规模中文网页快速去重算法研究[J].中文信息学报,2003,17(2):28-35. 被引量:41
-
6彭渊,赵铁军,郑德权,等.基于特征句抽取的网页去重研究[C].第八届全国计算语言学联合学术会议(JSCL-2005),2005(8).
-
7陈鑫.基于行块分布函数的通用网页正文抽取算法[EB/OL].http://code.google.corn/p/cx-extractor/,2009.
-
8赵作鹏,尹志民,王潜平,许新征,江海峰.一种改进的编辑距离算法及其在数据处理中的应用[J].计算机应用,2009,29(2):424-426. 被引量:51
-
9王映龙,杨炳儒,宋泽锋,陈卓,唐建军.基因序列相似程度的LCS算法研究[J].计算机工程与应用,2007,43(31):45-47. 被引量:14
二级参考文献17
-
1章成志.基于多层特征的字符串相似度计算模型[J].情报学报,2005,24(6):696-701. 被引量:40
-
2[1]T.W. Yan and H. Garcia- Molina. Duplicate removal in information dissemination. In Proceedings of the 21st International Conference on Very Large Data Bases(VLDB' 95) ,66 - 77,San Francisco,Ca., USA,September 1995. Morgan Kaufmann Publishers, Inc.
-
3[2]Narayanan Shivakumar and Hector Garcia- Molina. SCAM: a copy detection mechanism for digital documents. In Proceedings of 2nd International Conference in Theory and Practice of Digital Libraries (DL'95) ,Austin, Texas,June 1995.
-
4[3]T. Yan and H. Garcia- Molina. The sift information dissemination system. In ACM TODS,2000.
-
5[4]J.W. Kirriemuir & P. Willett Identification of duplicate and near - duplicate full - text records in database search outputs using hierarchic cluster analysis,in Program-automated library and information,(1995)29(3) :241-256.
-
6[5]Buckley C. ,Cardie C. ,Mardis S. ,Mitra M. ,Pierce D. ,Wagstaff K. ,Walz J. ,The Smart/Empire TIPSTER IR System, TIPSTER Phase Ⅲ Proceedings,Morgan Kaufmann,San Francisco,CA,2000.
-
7Yazdani N,Ozsoyoglu Z M.Sequence matching of images[C]//Proceedings of the IEEE International Conference on Multimedia Computing and Systems,Volume Ⅱ, 1996:53-62.
-
8Hunt J W,Szymanski T G.A fast algorithm for computing longest common subsequences[J].Communications of the ACM, 1977,20(5): 350-353.
-
9Sutinen E,Tarhio J.Approximate string matching with ordered qgrams[J].Nordic Journal of Computing, 2004, 11 (4) : 321-343.
-
10Setubal,Meidanis J.Introduction to computation molecular biology. University of Campinas,Brazil, 1997.
共引文献120
-
1张莉.网页自动分类技术概念分析[J].娄底职业技术学院学报(职教与经济研究),2007(2):58-62.
-
2谢蕙,秦杰.基于元搜索的网页消重方法研究[J].计算机系统应用,2008,17(8):94-96. 被引量:5
-
3姚新波,马治坤.基于特征串的网页去重算法[J].科技信息,2008(28). 被引量:3
-
4曹传东,郭理.一种基于文本抽取的网页正文去重算法[J].科技信息,2009(1):102-103. 被引量:1
-
5张明,龙鹏飞.基于聚类、粗糙集和支持向量机的故障诊断[J].微机发展,2004,14(8):38-40. 被引量:2
-
6张宗福.一种基于LCS的微博相似页面检测方法[J].集成技术,2013,2(3):5-9.
-
7张常志,牟澄,黄小红,马严.基于GPU的LCS算法加速机制研究与实现[J].通信学报,2013,34(S2):9-13.
-
8谢瑶兵.基于特征串的网页文本并行去重算法[J].微电子学与计算机,2015,32(2):69-72. 被引量:2
-
9高洁,吉根林.文本分类技术研究[J].计算机应用研究,2004,21(7):28-30. 被引量:36
-
10张莉,康耀红,王曙光,张春元.中文网页自动分类现状的研究[J].福建电脑,2004,20(5):3-4. 被引量:1
-
1叶成绪,杨萍,刘少鹏.基于主题词的微博热点话题发现[J].计算机应用与软件,2016,33(2):46-50. 被引量:11
-
2刘维,陈崚.最长公共子序列的快速算法及其并行实现[J].计算机应用,2006,26(6):1422-1424. 被引量:6
-
3赵福生.求最长公共子串的两类解法比较[J].现代计算机,2011,17(20):30-31.
-
4王世昌.字符串匹配的自动机方法[J].计算机应用,1996,16(4):26-28. 被引量:1
-
5冯凯,王小华,谌志群.基于动态规划的汉语句子相似度算法[J].计算机工程,2013,39(2):220-224. 被引量:8
-
6王开云.两种基于双向比较的最长公共子串算法[J].中国工程物理研究院科技年报,2013(1):167-170. 被引量:2
-
7李健豪,章品正.相似单词查找方法研究与实现[J].微计算机信息,2012(9):417-418. 被引量:3
-
8张力,赵宗涛,慕晓冬,刘鑫昌.Petri网模型与程序流程图的比较及应用研究[J].计算机技术与发展,2006,16(6):150-153. 被引量:4
-
9符于江.基于内容特征码的重复网页检测方法探析[J].科技信息,2012(26):162-163.
-
10小黔.快速关闭相似网页[J].网友世界,2006(17):33-33.