期刊文献+

基于语料的Web页面抽取器的研究与实现 被引量:4

Research and Implementation of Web Page Extrator Based on Corpus
下载PDF
导出
摘要 主要介绍了面对万维网上各种各样的诸如文本、声音、图形和图像等语料信息,如何按照用户的实际需求将其中对用户有用的信息抽取出来,从而实现对现有语料信息的一种有效分离。重点介绍了Web信息簇聚性的特点和语料库的设计,以及语料库的实际工作原理。 This thesis mainly discusses how to extract the useful information of corpus according to the user's actual requirement from the World Wide Web where there are all kinds of information of corpus such as text,sound,image and picture,etc.By using this method,people can realize the useful extraction from the current existing information of corpus. It emphases the fascination specialty of information in the World Wide Web and the actual working principle of the database of corpus.
出处 《计算机工程》 CAS CSCD 北大核心 2003年第6期34-35,152,共3页 Computer Engineering
关键词 Web页面抽取器 万维网 信息抽取 语料库 Web;Corpus;HTML;XML
  • 相关文献

参考文献1

  • 1Char1esFG Pau1P 张利译.XML实用技术[M].北京:清华大学出版社,1999..

同被引文献20

  • 1李洋.基于Web的信息抽取研究[J].吉林工程技术师范学院学报,2007,23(12):70-71. 被引量:2
  • 2王亮,朱征宇.基于扩展标记图的Web信息抽取器[J].计算机工程,2005,31(8):159-161. 被引量:2
  • 3贡正仙,朱巧明,李培峰.基于相似页面的Web信息抽取系统的实现[J].计算机应用,2006,26(8):1983-1986. 被引量:3
  • 4陈华,梁循,杨健.面向专题的智能化中文搜索引擎[J].广西师范大学学报(自然科学版),2007,25(2):103-106. 被引量:2
  • 5Cohen W, Hurst M, Jensen L. A flexible learning system for wrapping tables and lists in HTML documents [ C ]//Proceedings of the Eleventh International World Wide Web Conference. 2002:232-241.
  • 6Blei D, Bagnell J, McCal-lumA. Learning with scope, with application to information extraction and classification[ C ]// Proceedings of the Eighteenth Conference on Uncertainty in Artificial Intellig-ence. 2002:53-60.
  • 7Wong T L,Lam W. A probabilistic approach for adapting wrapper and discovering new attributes [ C ]// Proceedings of the Fourth IEEE International Conference on Data Mining. 2004:257-264.
  • 8Crescenzi V, Mecca G, Merialdo P. ROADRUNNER: Towards automatic data extraction from large Web sites [ C ]// Proceedings of the 27th Very Large Databases Conference. 2001:317-328.
  • 9Laender H F, Ribeim-Neto B A, da Silva A S, et al. A brief survey of Web data extraction tools[ J]. SIGMOD Record,2002,31 (2) : 84-93.
  • 10何召卫,陈俊亮.基于本体关系匹配的信息抽取[J].计算机工程,2007,33(21):207-209. 被引量:13

引证文献4

二级引证文献12

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部