-
题名基于网络爬虫和改进的LCS算法的网站更新监测
被引量:2
- 1
-
-
作者
周孝锞
郭克华
-
机构
中南大学信息科学与工程学院
高维信息智能感知与系统教育部重点实验室
-
出处
《计算机应用与软件》
2017年第1期222-229,共8页
-
基金
国家自然科学基金项目(61202341)
高维信息智能感知与系统教育部重点实验室创新基金项目(JYB201502)
+3 种基金
科技部国家国际科技合作专项项目(2013DFB10070)
湖南省创新平台专项项目(2012GK4106)
中南大学创新驱动计划
中南大学升华育英计划
-
文摘
互联网时代,信息爆炸式增长,用户需要方便及时地获取自己所需的信息。传统的搜索引擎和以RSS为代表的订阅具有一些缺陷,难以满足用户高质量需求。在此基础上,利用网络爬虫和文本对比,提出一种新型网站更新监测与订阅的通用方法。该方法将先后抓取的网页内容分析处理后,进行文本对比,检测更新内容,将结果以结构化形式返回给用户查看。实验表明,该方法解决了RSS订阅受订阅源限制的缺点,实现了用户添加任意网站,在高校、企业、新闻、电影、博客、论坛等网站的监测方面具有较好的效果。
-
关键词
网络爬虫
网页去噪
网站订阅
文本对比
更新监测
-
Keywords
Web crawler
Noise reduction in web pages
Website subscription
Text contrast
Update detection
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-