期刊文献+

模板化的Web列表页面信息自动抽取方法的研究 被引量:1

Research on Automatic Extraction of Information from Templated Web List Pages
下载PDF
导出
摘要 提出一种模板化的Web列表页面信息自动抽取方法,并对其实现的关键技术进行了阐述,包括页面预处理,Web列表页面中数据区域、数据记录的定位方法。同时提出一种有效的对DOM子树进行属性对齐和标注的方式,并给出相关算法。实验结果表明,该方法能够自动寻找并抽取Web列表页面的主要信息,具有较高的查全率和查准率。 Presents a method of automatic extraction of information on templated web list pages. Describes its key technoligies, including web page pre-processing operation,the location of the main data areas and the data records areas. Proposes an effective approach to align and mark data attributes of DOM subtree and gives the correlate algorithm. Experimental results shows this method can automatically locates and extracts the main information of Web list pages and achieves high recall and precision.
作者 王琛
出处 《现代计算机(中旬刊)》 2013年第8期77-80,共4页 Modern Computer
基金 江苏建筑职业技术学院院级科研项目(No.JYA310-14)
关键词 WEB信息抽取 列表页面 DOM 网页去噪 数据属性对齐 Web Information Extraction List Pages DOM Web Noise Removing Alignment of Data Attributes
  • 相关文献

参考文献6

  • 1RAGGETF D. Clean up Your Web Pages with HP's HTML Tidy[J]. Computer Networks and ISDN Systems,199g(30):730- 732.
  • 2Valter Crescenzi, Giansalvatore Mecca, Paolo Merialdo. Ro- adrunner: Towards Automatic Data Extraction from Large Web Sites. In Proceeding of 27th International Conference on Very Large Data Bases, 2001:134-139.
  • 3Levenshtein V I. Binary Codes Capable of Correcting Dele- tions, Insertions, and Reversals [J]. Soviet Physics Doklady, 1996(10):707 -710.
  • 4Tai K., The Tree-to-Tree Correction Problem[J]. Journal of ACM, 1979, 26(3):422-433.
  • 5Wuu Yang. Identifying Syntactic Differences between Two Programs. Software-Practice and Experience,1991, 21 (7): 739-755.
  • 6V. Raghavan, P. Bollmann, G. S. Jung. A Critical Investiga- tion of Recall and Precision as Measures of Retrieval System Performance. ACM Transactions on Information Systems, 1989, 7 (3):205-229.

同被引文献4

引证文献1

二级引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部