-
题名Web论坛数据源增量爬虫的研究
被引量:5
- 1
-
-
作者
蔡欣宝
郭若飞
赵朋朋
崔志明
-
机构
苏州大学智能信息处理及应用研究所
-
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第9期285-287,共3页
-
基金
国家自然科学基金资助项目(60673092)
2008年江苏省重大科技支撑与自主创新基金资助项目(BE2008044)
-
文摘
针对Web论坛站点结构复杂、内容更新快等特点,提出一种针对论坛的增量信息采集算法,使用站点地图重建技术及网页更新频繁度估计方法,根据站点地图选择有效的链接,按照网页更新频度确定网页的采集频度。实验结果表明,该方法是有效的。
-
关键词
WEB论坛
增量爬虫
站点地图
泊松模型
-
Keywords
Web forum
incremental crawler
site map
Poisson model
-
分类号
TP311.52
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于版块的论坛增量搜集策略
被引量:2
- 2
-
-
作者
杜言琦
马军
-
机构
山东大学计算机科学与技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2010年第3期62-68,共7页
-
基金
国家自然科学基金资助项目(60970047)
山东省科技攻关资助项目(2007GG10001002
+1 种基金
2008GG10001026)
山东省自然科学基金资助项目(Y2008G19)
-
文摘
该文研究论坛的增量搜集问题。由于在论坛中同一主题通常分布在多个页面上,而传统增量搜集技术的抓取策略通常是基于单个页面,因此这些技术并不适于对论坛增量搜集。该文通过对许多论坛中版块变化规律的统计分析,提出了基于版块的论坛增量搜集策略。该策略将属于同一版块的所有页面看做一个整体,以它做为抓取的基本单位。同时该策略利用版块权重和局部时间规律确定抓取频率和抓取时间点。实验结果表明本策略对新增和新回复帖子的平均召回率为99.3%,并且与平均调度方法相比系统总延迟最高可减小42%。
-
关键词
计算机应用
中文信息处理
增量搜集
论坛爬虫
延迟
-
Keywords
computer application
Chinese information processing
incremental crawl
forum crawler
delay
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于网络论坛的股市分析方法
被引量:1
- 3
-
-
作者
吴晶
陈仪香
刘道明
-
机构
华东师范大学上海市高可信计算重点实验室
光大证券股份有限公司研究所
-
出处
《计算机工程》
CAS
CSCD
2012年第13期254-256,259,共4页
-
基金
国家"973"计划基金资助项目(2011CB302802)
国家自然科学基金资助项目(61021004)
上海市自然科学基金资助项目(10ZR1410000)
-
文摘
为更好地揣摩大众股民的心理及情感,提出一种基于网络论坛的股市分析方法。根据python实现相应的网络爬虫,利用该爬虫获取网络论坛中的所有帖子,对每日新帖子的数量进行统计分析,针对每个帖子中的文本内容设计分析工具,以进行情感分析,并将这些情感结果进行统计。实验结果表明,通过对比同一时期内的中国股市走势图,该方法能对其进行较为准确的分析。
-
关键词
网络爬虫
股市分析
情感分析
网络论坛
-
Keywords
Internet crawler
stock market analysis
sentiment analysis
Intemet forum
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名基于旅游博客和论坛提高旅游产品质量的模型研究
被引量:2
- 4
-
-
作者
张军洲
连云凯
-
机构
桂林旅游高等专科学校
-
出处
《旅游论坛》
2012年第2期84-86,共3页
-
文摘
分析了旅游博客和论坛对旅游产业的影响,以及通过软件自动方式使用旅游博客和论坛分析的优势,并给出了实现的步骤,分析了其中的核心问题,给出解决方法,从而为旅游管理者改善旅游产品提供方向。
-
关键词
旅游博客和论坛
网络爬虫
旅游产品质量
文本提取
-
Keywords
tourism Blog and forum
web crawlers
tourism products quality
text extraction
-
分类号
F592
[经济管理—旅游管理]
F274
[经济管理—企业管理]
F224
[经济管理—国民经济]
-