期刊文献+

Web内容抽取及其数据管理方法 被引量:16

Web Content Extraction & Its Data Management Method
原文传递
导出
摘要 随着Internet及其相关技术的飞速发展 ,WWW已成为最大的信息集散地 .无论对企业还是个人 ,Web逐渐成为最主要的信息来源 .然而由于网站数量过多以及由此带来的信息泛滥 ,使得有用信息的获取越来越困难 .搜索引擎只能提供信息的查找范围 ,而具体的内容还要靠详细搜查 .而且网页信息都是非结构化或半结构化的 ,无法直接利用分析工具进行分析 .所以有必要提供一种网页内容自动抽取及使网页数据结构化的方法 。 With the development of Internet and its relative technology, the WWW has become the largest information area. For the enterprise or the individual, Web becomes the main information source gradually. However, because of too many web sites and the information overflow resulting from this, it is more and more difficult to obtain useful information. Search engines only provide the scope of the searching information, and the concrete information must be looked up carefully by oneself. Because Web information is non strutured or semi structured, the analysis tool can't be used to analyze it directly. So it is necessary to advance a method of extracting the Web content automatically and structuring the Web data to simplify the process of obtaining information and facilitate the information analysis. This paper will describe this in detail.
出处 《复旦学报(自然科学版)》 CAS CSCD 北大核心 2001年第2期177-183,共7页 Journal of Fudan University:Natural Science
关键词 数据抽取 网页包装 规则表达式 模式匹配 INTERNET WWW Web数据集成系统 数据管理 网页数据结构化 data extraction Web wrapper regular expression semi structured pattern matching
  • 相关文献

参考文献2

  • 1Lee T,ACM Conference on Information and Knowlege Management,1998年
  • 2Hammer J,Proc Workshop on Management of Semistructured Data,1997年

同被引文献74

引证文献16

二级引证文献50

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部