摘要
本文提出了一种新的适用于Web信息抽取的HTML页面清洗压缩算法。该算法充分利用了HTML页面树中各标签的相对位置信息。实验表明,该算法能够有效地处理页面中的语法错误,并实现对页面冗余数据的压缩,具有良好的实用价值和应用前景。
出处
《福建电脑》
2009年第1期60-61,共2页
Journal of Fujian Computer
共引文献4
-
1黄奇,李伟,接晓莉.网络半结构化信息资源的描述[J].图书情报工作,2002,46(2):70-72. 被引量:4
-
2仇伟涛,范家铭,李丹.一种基于HBase的高效半结构化数据查询策略[J].福建电脑,2014,30(11):107-110. 被引量:1
-
3王宝会,邢景轩,高远.运用FastDFS和Drill构建海量BIM族数据存储和查询平台[J].土木建筑工程信息技术,2016,8(6):23-28. 被引量:3
-
4潘洁珠.半结构化数据及其数据模型[J].安徽教育学院学报,2003,21(6):32-33. 被引量:1
同被引文献7
-
1Sandip Debnath, Prasenjit Mitra, Nirmal Pal, et al. Automatic identification of informative sections of web pages[J]. IEEE transactions on knowledge and data engineering, 2005, 17 (9): 1233-1246.
-
2Jiying Wang, Fred H Lochovsky. Data-rich section extraction from HTML pages[C]//Proceedings of the 3rd International Conference on Web Information Systems Engineering (WISE'02), 2002: 313-322.
-
3Lan Yi, Bing Liu, Xiaoli Li. Eliminating noisy information in web pages for data mining[C]//Proc Ninth ACM SIGKDD Int'l Conf. Knowledge Discovery and Data Mining, 2003: 296-305.
-
4Lan Yi, Bing Liu. Web Page Cleaning for web mining through feature weighting [C]//Proeeedings of Eighteenth International Joint Conference on Artifieial Intelligenee. Aeapulco, Mexico, 2003 : 9- 15.
-
5Ji He, Ah-Hwee Tan, Chew-Lim Tan, et al. On quantitative evaluation of clustering systems [J]. Information Retriveal And Clustering, 2002:105-134.
-
6Wuu Yang. Identifying syntactic differences between two programs [J]. Software-practice and Experience, 1991,21 (7): 739-755.
-
7Raghavan V V,Wang G S,Bollmann P. A critical investigation of recall and precision as measures of retrieval system performance [J]. ACM Trans Information Systems, 1989 (3): 205-229.
-
1吴永琢.用VB构建Internet的应用[J].中国科技信息,2006(02A):75-75.
-
2罗娟,方锐,朱秋萍.Web与数据库技术[J].计算机工程,1998,24(8):42-44. 被引量:45
-
3王湘群.HTML页面与Domino/Notes文档数据的互换及其应用[J].微计算机应用,2006,27(4):419-421. 被引量:2
-
4徐红梅.用java实现数据的压缩[J].福建电脑,2006,22(12):194-194.
-
5对JavaScript应用编译技术[J].程序员,2011(2):23-23.
-
6王诺,袁立敏.浅析C语言程序调试过程及编程常见错误[J].硅谷,2009,2(13).
-
7曹文君,费晓明.一个基于规则的程序语法错误诊断系统[J].计算机研究与发展,1989,26(1):24-30. 被引量:1
-
8张坤,赵璐.Visual Basic在计算机网络编程中的应用研究[J].今日科苑,2009(12):172-172.
-
9段玉立.浅谈VB在计算机网络中的应用[J].黑龙江科技信息,2010(16):63-63.
-
10唐群力.VB在INTERNET中的应用[J].南昌教育学院学报,2003,18(4):62-64.