模板化的Web列表页面信息自动抽取方法的研究被引量：1

Research on Automatic Extraction of Information from Templated Web List Pages

下载PDF

导出

摘要提出一种模板化的Web列表页面信息自动抽取方法,并对其实现的关键技术进行了阐述,包括页面预处理,Web列表页面中数据区域、数据记录的定位方法。同时提出一种有效的对DOM子树进行属性对齐和标注的方式,并给出相关算法。实验结果表明,该方法能够自动寻找并抽取Web列表页面的主要信息,具有较高的查全率和查准率。 Presents a method of automatic extraction of information on templated web list pages. Describes its key technoligies, including web page pre-processing operation,the location of the main data areas and the data records areas. Proposes an effective approach to align and mark data attributes of DOM subtree and gives the correlate algorithm. Experimental results shows this method can automatically locates and extracts the main information of Web list pages and achieves high recall and precision.

作者王琛

机构地区江苏建筑职业技术学院信息传媒与艺术学院

出处《现代计算机（中旬刊）》 2013年第8期77-80,共4页 Modern Computer

基金江苏建筑职业技术学院院级科研项目(No.JYA310-14)

关键词 WEB信息抽取列表页面 DOM 网页去噪数据属性对齐 Web Information Extraction List Pages DOM Web Noise Removing Alignment of Data Attributes

分类号 TP391.4 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1RAGGETF D. Clean up Your Web Pages with HP's HTML Tidy[J]. Computer Networks and ISDN Systems,199g(30):730- 732.
2Valter Crescenzi, Giansalvatore Mecca, Paolo Merialdo. Ro- adrunner: Towards Automatic Data Extraction from Large Web Sites. In Proceeding of 27th International Conference on Very Large Data Bases, 2001:134-139.
3Levenshtein V I. Binary Codes Capable of Correcting Dele- tions, Insertions, and Reversals [J]. Soviet Physics Doklady, 1996(10):707 -710.
4Tai K., The Tree-to-Tree Correction Problem[J]. Journal of ACM, 1979, 26(3):422-433.
5Wuu Yang. Identifying Syntactic Differences between Two Programs. Software-Practice and Experience,1991, 21 (7): 739-755.
6V. Raghavan, P. Bollmann, G. S. Jung. A Critical Investiga- tion of Recall and Precision as Measures of Retrieval System Performance. ACM Transactions on Information Systems, 1989, 7 (3):205-229.

同被引文献4

1赵志滨,贾岩峰,姚兰,鲍玉斌.含有丰富结构化数据的Web页面分类技术的研究[J].计算机研究与发展,2013,50(S1):53-60. 被引量：5
2李贵,陈成,李征宇,韩子扬,孙平,孙焕良.基于标签路径的Web结构化数据自动抽取[J].计算机科学,2013,40(06A):141-144. 被引量：3
3牛敏,米石云,张倩.网络数据资源自动获取技术研究与应用[J].信息技术,2013,37(12):23-26. 被引量：3
4郭东峰.数据抽取中领域网页的特征分析[J].民营科技,2014(7):108-108. 被引量：1

引证文献1

1吕永国,杨斌,彭之军.基于PHP的网页信息抽取研究[J].科技广场,2015(5):29-32. 被引量：1

二级引证文献1

1吴水平,关桂霞,焦健楠,王雪琪,柯子博,褚金奎,晏磊.基于SAE云平台的仿生偏振导航测量误差分析[J].全球定位系统,2016,41(2):43-49. 被引量：3

1吴扬扬,陈锻生.识别和抽取Web列表中的关系信息[J].计算机科学,2004,31(6):86-88. 被引量：3
2Adobe Photoshop CS3：创建具有专业级标准的图像[J].数码印刷,2007(7):16-16.
3William Sheldon,沈重威(译).Visual Studio 2005＋SQL Server 2005：相得益彰，更进一步[J].Windows IT Pro Magazine（国际中文版）,2005(10):78-81.
4揭示你的SQL Server用户帐号[J].Windows IT Pro Magazine（国际中文版）,2006(10):72-72.
5刘高军,刘妍妍,付晓玲.基于分割线和区域特征的页眉页脚判别方法[J].北方工业大学学报,2013,25(1):17-24.
6赵志靖.基于编辑距离的无序词表的对齐和定位[J].智能计算机与应用,2016,6(4):5-8.
7赵红梅,刘群,张瑞强,吕雅娟,隅田英一郎,吴翠玲.汉英词语对齐规范[J].中文信息学报,2009,23(3):65-87. 被引量：1
8赵中华,杨肄明,张猛.汽车车模覆盖件逆向工程中数据重构和优化[J].昆明理工大学学报（理工版）,2009,34(4):19-21.
9为奥运喝彩为中国加油[J].办公自动化（办公设备与耗材）,2008(9):13-13.
10陈俊斌.谈谈如何优化固态硬盘[J].计算机与网络,2015,41(16):63-65.

现代计算机（中旬刊）

2013年第8期

浏览历史

内容加载中请稍等...

模板化的Web列表页面信息自动抽取方法的研究被引量：1

参考文献6

同被引文献4

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

模板化的Web列表页面信息自动抽取方法的研究 被引量：1

参考文献6

同被引文献4

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

模板化的Web列表页面信息自动抽取方法的研究被引量：1