期刊文献+

基于主题网络爬虫的程序设计资源库建设研究 被引量:2

下载PDF
导出
摘要 目前,在国内高校中程序设计课程的资源库建设工作尚未普及,大多数教学资源存在较为严重的老旧、重复等问题,难以满足师生日益增长的对大量新颖教学资源的需求。针对现在流行的网络爬虫框架进行分析和选择,在现有框架的基础上设计了一种适合资源库建设的爬虫系统,利用爬虫的自动化特性完成教学资源库的内容获取及入库工作。同时,选用Scrapy-redis对爬虫进行拓展,利用Redis实现对目标网站资源的分布式爬取,提高获取资源的速度。选用SimHash算法对爬取到的资源内容进行相似度判别,过滤掉相似度过高的资源,完成对资源库的增量更新,提高获取到的资源的质量。经测试,研究的系统初步满足资源库建设的自动化需求,能够获取有效的教学资源。
作者 郑洪源
出处 《大学教育》 2019年第9期76-79,共4页 University Education
  • 相关文献

参考文献3

二级参考文献8

共引文献28

同被引文献20

引证文献2

二级引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部