期刊文献+

基于改进SVM算法的聚焦爬虫设计与实现

Design and Implementation of Focused Search Engine Based on Improved SVM Algorithm
下载PDF
导出
摘要 聚焦爬虫在搜索引擎中有着至关重要的作用。为解决传统聚焦爬虫抓取特定领域的网页信息效率低下问题,在分析传统聚焦爬虫算法的基础上,提出了一种基于改进的支持向量机(SVM)的聚焦爬虫算法。该算法针对聚焦爬虫中网页特征提取问题,采用一种基于不确定性度量UM(Uncertainty Measure)值的权重特征提取方法对聚焦爬虫算法进行优化。实验结果显示,此特征提取方法大大提高了爬虫的速率,同时查全率和查准率也有提升。 Search Engine have a vital role in search engines. In order to solve the problem that the traditional Search Engine crawles the inefficient webpage information in specific fields, an improved Search Engine algorithm based on improved Support Vector Machine (SVM) is proposed based on the analysis of traditional Search Engine algorithm. The algorithm is used to optimize the Search Engine algorithm based on the weight feature extraction method based on Uncertainty Measure (UM). The experimental results show that this feature extraction method greatly improves the rate of reptiles, and the recall and precision are improved.
作者 乔平安 田晶晶 任静 QIAO Pingan;TIAN Jingjing;REN Jing(Xi'an University of Posts and Telecommunications,Xi'an 710061)
机构地区 西安邮电大学
出处 《计算机与数字工程》 2019年第9期2145-2149,2154,共6页 Computer & Digital Engineering
基金 陕西省教育厅专项科研计划“电信运营大数据背景下的用户上网行为分析系统关键技术研究与实践”(编号:16JK1689)资助
关键词 聚焦爬虫 特征提取 UM SVM 速率 search engine feature extraction UM SVM rate
  • 相关文献

参考文献13

二级参考文献99

共引文献278

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部