-
题名基于市场匹配的多Agent智能爬虫系统
- 1
-
-
作者
刘佳
杜亚军
-
机构
西华大学计算机与软件工程学院
-
出处
《西华大学学报(自然科学版)》
CAS
2016年第1期67-72,共6页
-
基金
国家自然科学基金(61271413
61472329)
-
文摘
在网络文字、图像视频、音频数量日益增长的网络世界中,网络爬虫爬取结果变得越来越差,主要表现在爬取网页的精确率低、召回率低和重复率高等方面。为解决这些问题,结合市场匹配基本原理和网络爬虫的特点,提出一种基于市场匹配算法的多Agent智能爬虫系统。基于市场匹配算法,设计了多Agent智能爬虫系统,以雅虎一级目录12个主题为测试数据对网络爬虫爬取网页的精确率、召回率和重复率进行了分析。结果表明,与未使用市场匹配算法的系统相比较,基于市场匹配算法的多Agent智能爬虫系统的精确率提高了9%、召回率提高了8%、重复率降低了5%,其爬虫性能有较大改善。
-
关键词
市场匹配算法
多AGENT
智能爬虫
-
Keywords
market-matching algorithm
muhi-Agent
intelligent crawler
-
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
-
-
题名社区网络爬虫的设计与实现
被引量:10
- 2
-
-
作者
郭涛
黄铭钧
-
机构
哈尔滨工业大学计算机科学与技术学院
-
出处
《智能计算机与应用》
2012年第4期65-67,共3页
-
文摘
社区互联网是以用户创造内容为主的新型互联网,具有很高的统计价值,由于权限和数据更新频繁等限制,传统的网络爬虫很难获取这一部分数据,设计并实现了一种可以自动登录并可以根据更新频率快慢智能抓取数据的爬虫,不同于以往爬虫以页面为粒度,该爬虫以人为最小粒度,并以人与人之间的关系为抓取依据,在获取这类数据上有很好的性能。
-
关键词
社区互联网
智能爬虫
数据挖掘
-
Keywords
Social Network
Smart Web Crawler
Data Mining
-
分类号
TP31
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于Lucene的校园信息搜索引擎的设计与实现
被引量:2
- 3
-
-
作者
杨单
-
机构
中南民族大学管理学院
-
出处
《中南民族大学学报(自然科学版)》
CAS
2013年第4期97-101,共5页
-
基金
湖北省教育厅科学技术研究项目(QZY11009)
中南民族大学自然科学基金资助项目(YZQ10001)
-
文摘
利用Lucene开源全文本搜索技术框架建立了校园搜索引擎,设计并实现了资源采集、信息检索、数据检索等模块,完成了一个基于Lucene的搜索引擎的应用,改进后的基于Lucene的校园搜索引擎能满足校园用户的需要并提升了搜索的准确性.
-
关键词
智能网络爬虫
多线程
搜索引擎
-
Keywords
intelligent web spider
multi-threading
search engine
-
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
TP311.1
[自动化与计算机技术—计算机软件与理论]
-