期刊文献+

网络数据资源自动获取技术研究与应用 被引量:3

A new technology and application of Internet information automatic acquisition
下载PDF
导出
摘要 人类社会现已进入了一个信息大爆发的新时代,如何利用计算机新技术从互联网上自动获取特定主题信息并实时提供服务,成为信息技术研究领域的热点之一。在网络爬虫、数据抽取、文本智能分类等关键技术研究及实现的基础上,研制集成了全球油气行业动态信息系统PetroDIS。该系统在信息获取、信息分类、网页构建等多方面做到了自动化,极大地提高了信息收集效率。 Human society has stepped into a new era of the proliferation of massive information. Automatic obtaining of information about particular subject and providing real-time services with new computer technologies have become a hot spot of information technology research. The development of PetroDIS is based on the research of key technologies including web crawler, data extraction, and intelligent text categorization. By enabling the automation in information acquisition, information classification, webpage construction and other aspects, the system greatly improves the efficiency of information collection.
出处 《信息技术》 2013年第12期23-26,共4页 Information Technology
基金 国家油气重大专项"全球剩余油气资源研究及油气资产快速评价技术(二期)"(2011ZX05028-004) 中国石油天然气股份有限公司重大专项"资源评价研究"(2012 E-050104)
关键词 网络爬虫 网页分析 智能分类 自适应神经网络 油气行业动态信息系统 Web crawler webpage analysis intelligent classification adaptive neural network petroleum dynamic information system
  • 相关文献

参考文献6

二级参考文献12

  • 1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报(自然科学版),2005,45(S1):1743-1747. 被引量:70
  • 2荆涛,左万利.基于可视布局信息的网页噪音去除算法[J].华南理工大学学报(自然科学版),2004,32(z1):84-87. 被引量:21
  • 3刘冲,张海玥,张卫东,周秀中,林少凡.配置Tomcat使Apache服务器支持Java动态网页编程[J].计算机应用,2001,21(z1):109-110. 被引量:9
  • 4张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量:57
  • 5常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量:24
  • 6王晓军,等.JSP动态网站开发基础教程与实验指导[M].北京:清华大学出版社,2008.
  • 7GUPTA S,KAISER G,NEISTADT D,et al.DOM-based content extraction of HTML documents[C]//Proceeding of the 12th International Conference on World Wide Web.New York:ACM Press,2003:207-214.
  • 8LIN Shian-hua,HO Jan-ming.Discovering informative content blocks from Web documents[C]//Proceeding of the 8th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.New York:ACM Press,2002:588-593.
  • 9CAI Deng,YU Shi-peng,WEN Ji-rong,et al.Extracting content structure for Web pages based on visual representation[C]//Proceeding of the 5th Asia Pacific Web Conference.Berlin:Springer-Verlag,2003:406-417.
  • 10CHANG Chih-chung,LIN Chih-jen.LIBSVM:a library for support vector machines[EB/OL].[2006-11-17].http://www.csie.ntu.edu.tw/~cjlin/libsvm/.

共引文献77

同被引文献21

引证文献3

二级引证文献6

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部