期刊文献+

网站资源信息宜动采集技术

下载PDF
导出
摘要 本文结合公司信息化技术成果之一单位门户网站的建设情况,详细阐述了一种网站资源自动采集技术,该技术可根据指定的url种子实时定向自动采集相关资源信息至本地相应栏目下,每个固定栏目的采集规则可根据相关脚本语言语法规则人工配置,做到按需配置,极大地减轻了网站信息发布人员的工作量。
作者 马浩铭
出处 《湖北农机化》 2020年第12期27-28,共2页
  • 相关文献

参考文献1

二级参考文献10

  • 1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报(自然科学版),2005,45(S1):1743-1747. 被引量:70
  • 2刘晨曦,吴扬扬.一种基于块分析的网页去噪音方法[J].广西师范大学学报(自然科学版),2007,25(2):149-152. 被引量:8
  • 3王倩倩,段震,张燕平.基于交叉覆盖算法的文本分类[J].计算机技术与发展,2007,17(6):113-115. 被引量:5
  • 4Gupta S, Kaiser G, Neistadt D, et al. DOM- Based Content Extraction of HTML Documents[C]//Proceeding of the 12th International Conference on World Wide Web. New York: ACM Press,2003 : 207 - 214.
  • 5CAI Deng, YU Shi - peng, Wen Ji - rong, et al. Extracting Content Structure for Web Pages based on Visual Representation[C]//Proceeding of the 5th Asia Pacific Web Conference. Berlin: Springer - Verlag, 2003: 406 - 417.
  • 6Zheng Shuyi, Song Ruihua, Wen Ji - Rong. Template - Independent News Extraction Based on Visua/Consistency[ C]//The 22nd Conference on Artificial Intelligence. Vancouver: AAAI Press, 2007:1507 - 1511.
  • 7WANG Jiying, Lochovsky F H. Data- rich Section Extraction from HTML Pages [ C ] ff Proceedings of 3rd International Conference on Web Information Systems Engineering. Singapore: IEEE Computer Society, 2002:1 - 10.
  • 8搜狐研发中心.搜狗文本分类语料库[EB/OL].2008.http://www.sogou.oom/labs/dl/c.html.
  • 9刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29. 被引量:132
  • 10吴平博,陈群秀,马亮.基于特征串的大规模中文网页快速去重算法研究[J].中文信息学报,2003,17(2):28-35. 被引量:41

共引文献6

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部