-
题名基于Web的专用爬虫的研究
- 1
-
-
作者
夏道勋
谢晓尧
-
机构
贵州省信息与计算科学重点实验室
贵州大学计算机科学与技术学院
-
出处
《贵州师范大学学报(自然科学版)》
CAS
2009年第3期92-95,共4页
-
文摘
网络爬虫是全文搜索引擎系统的核心模块,它实现对站内信息的检索和特定Web信息的搜索。然而,万维网规模越来越巨大,产生了专业爬虫。主要研究了怎样建立一个有效的专用爬虫,它可以自动发现和下载用户感兴趣的页面。包括的内容:超文本分类器、提取器、爬虫的基本功能、数据存储及核心算法。
-
关键词
专用爬虫
WEB内容挖掘
超文本分类器
提取器
-
Keywords
specialized spider
web mnning
hypertext classifier
distiller
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名微博社会网络重要用户节点筛选及舆情引导
被引量:10
- 2
-
-
作者
谢天保
张晓雯
仵凯博
-
机构
西安理工大学经济与管理学院
西安理工大学计算机科学与工程学院
-
出处
《计算机科学》
CSCD
北大核心
2014年第S1期400-405,共6页
-
文摘
首先通过研究网络爬虫以及新浪微博的开放平台,设计实现新浪微博专用爬虫,获取研究数据。其次,通过实验得到重要用户节点指标,提出贝叶斯-PageRank算法筛选重要用户节点,并实验验证重要用户节点的有效性。最后通过对重要用户节点的监测实现网络舆情发现并给出相关舆情引导策略。
-
关键词
微博社会网络
专用网络爬虫
重要用户节点筛选
舆情引导
-
Keywords
Micro-blog social network,Private network crawler,Important user node screening,Public opinion guiding
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-