网站资源信息宜动采集技术

下载PDF

导出

摘要本文结合公司信息化技术成果之一单位门户网站的建设情况,详细阐述了一种网站资源自动采集技术,该技术可根据指定的url种子实时定向自动采集相关资源信息至本地相应栏目下,每个固定栏目的采集规则可根据相关脚本语言语法规则人工配置,做到按需配置,极大地减轻了网站信息发布人员的工作量。

作者马浩铭

机构地区新疆质信通工程检测技术有限公司

出处《湖北农机化》 2020年第12期27-28,共2页

关键词网站资源信息自动采集

分类号 TP393.092 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1张春元,康耀红,伍小芹.Web新闻自动采集发布系统的设计与实现[J].计算机技术与发展,2009,19(9):250-252. 被引量：7

二级参考文献10

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2刘晨曦,吴扬扬.一种基于块分析的网页去噪音方法[J].广西师范大学学报（自然科学版）,2007,25(2):149-152. 被引量：8
3王倩倩,段震,张燕平.基于交叉覆盖算法的文本分类[J].计算机技术与发展,2007,17(6):113-115. 被引量：5
4Gupta S, Kaiser G, Neistadt D, et al. DOM- Based Content Extraction of HTML Documents[C]//Proceeding of the 12th International Conference on World Wide Web. New York: ACM Press,2003 : 207 - 214.
5CAI Deng, YU Shi - peng, Wen Ji - rong, et al. Extracting Content Structure for Web Pages based on Visual Representation[C]//Proceeding of the 5th Asia Pacific Web Conference. Berlin: Springer - Verlag, 2003: 406 - 417.
6Zheng Shuyi, Song Ruihua, Wen Ji - Rong. Template - Independent News Extraction Based on Visua/Consistency[ C]//The 22nd Conference on Artificial Intelligence. Vancouver: AAAI Press, 2007:1507 - 1511.
7WANG Jiying, Lochovsky F H. Data- rich Section Extraction from HTML Pages [ C ] ff Proceedings of 3rd International Conference on Web Information Systems Engineering. Singapore: IEEE Computer Society, 2002:1 - 10.
8搜狐研发中心.搜狗文本分类语料库[EB/OL].2008.http://www.sogou.oom/labs/dl/c.html.
9刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29. 被引量：132
10吴平博,陈群秀,马亮.基于特征串的大规模中文网页快速去重算法研究[J].中文信息学报,2003,17(2):28-35. 被引量：41

共引文献6

1杨光熠.热点新闻的采集与发布[J].黑龙江科技信息,2010(14):174-174.
2何光虹,赵英凯,李彦文.网络信息监测采集技术在中医药情报研究中的应用[J].医学信息,2011,24(17):5603-5604. 被引量：1
3陈建国.基于Web结构的网站新闻采集系统的设计与实现[J].井冈山大学学报（自然科学版）,2012,33(2):54-57. 被引量：3
4张丽丽.高校图书馆读者决策采购模式的风险及规避策略[J].图书馆学研究,2013(23):30-33. 被引量：8
5武海东,何晓阳,张精理.医学学术信息自动采集系统的设计与实现[J].现代图书情报技术,2014(11):73-78.
6魏小锐,谢满.基于移动平台的校园即时新闻资讯系统的设计与实现[J].东莞理工学院学报,2015,22(1):57-62.

1杜媛春,苏晓英,王盛,王洁利.医院图书馆微信公众平台的构建模式思考[J].中医药管理杂志,2020,28(11):56-57. 被引量：1
2陈雨婷,刘旭红,刘秀磊.面向招投标领域的远程监督实体关系抽取研究[J].计算机工程与应用,2020,56(17):243-250. 被引量：5
3冯晓娟,米湘成,肖治术,曹垒,吴慧,马克平.中国生物多样性监测与研究网络建设及进展[J].中国科学院院刊,2019,34(12):1389-1398. 被引量：43
4吴昊.智能变电站继电保护检修作业安全风险管控策略[J].数码设计,2020,9(8):147-147.

湖北农机化

2020年第12期

浏览历史

内容加载中请稍等...

网站资源信息宜动采集技术

参考文献1

二级参考文献10

共引文献6

相关作者

相关机构

相关主题

浏览历史