摘要
介绍Web表格的特点与结构、Web表格信息抽取及其过程,分析Web表格信息抽取的4个关键技术:Web表格定位、Web表格结构识别、Web表格内容整合和抽取结果表示,以及Web表格信息抽取的应用。最后指出目前国内外该项研究的不足之处及未来发展方向。
This paper firstly introduces the characteristics and structure of Web tables and describes the process of information extraction over Web tables. Then four key technologies are analysed, including Web table detection, Web table structure recognition, Web table interpretation and presentation of table extraction. It also analyses the application of the research and points out the problems in current researches, and finally presents a prospect of its future.
出处
《现代图书情报技术》
CSSCI
北大核心
2008年第3期24-31,共8页
New Technology of Library and Information Service
关键词
WEB表格
信息抽取
表格定位
表格结构识别
表格内容整合
Web tables Information extraction Web table detection Web table structure recognition Web table interpretation