基于确定性树自动机技术的信息抽取研究
摘要
针对当前网页结构信息抽取技术存在的不足,提出一种基于确定性树自动机的信息抽取技术。该方法的核心思想是充分利用HTML文档的树状结构,将HTML文档转换成二叉树的形式,依据树自动机对待抽取网页的接收和拒绝状态进行数据的抽取。
出处
《才智》
2011年第36期213-214,共2页
Ability and Wisdom
参考文献5
-
1王磊,蒋建中,郭军利.基于扩展DOM树的Web页面信息抽取[J].计算机应用与软件,2007,24(6):137-139. 被引量:12
-
2陈琼,苏文健.基于网页结构树的Web信息抽取方法[J].计算机工程,2005,31(20):54-55. 被引量:24
-
3王茹,宋瀚涛,陆玉昌.基于树自动机的网页数据抽取[J].北京理工大学学报,2004,24(9):790-793. 被引量:6
-
4李效东,顾毓清.基于DOM的Web信息提取[J].计算机学报,2002,25(5):526-533. 被引量:101
-
5Kosala R.Information extraction by tree automata inference. . 2003
二级参考文献39
-
1Florescu D, Levy A Y, Mendelzon A. Database techniques for the World-Wide Web: A Survery. In: ACM The SIGMOD Record, 1998.59-74
-
2Atzeni P, Mecca G, Merialdo P. To weave the Web. In: Proc the 23rd International Conference on Very Large Data Bases. Athens, Greece, 1997. 206-215
-
3Pemberton S et al. XHTML 1.0: The extensible hyperText markup language. In: http://www.w3.org/MarkUp/
-
4Cattell R G G. The Object Database Standard ODMG-93. San Mateo,California: Morgan Kaufmann Publishers,1994
-
5Mitchell T. Machine Learning. New York: McGraw Hill, 1997
-
6Wall L et al. Programming Perl(3rd Edition). O'Reilly & Associates,2000
-
7Birbeck M et al. Professional XML. Wrox Press Inc, 2000
-
8Liu L, Pu C, Han W. XWRAP: An XML-enabled wrapper construction system for web information sources. In: Proc International Conference on Data Engineering (ICDE), San diego, California, 2000. 611-621
-
9Chamberlin D, Robie J, Florescu D. Quilt: An XML query language for heterogeneous data sources. In: Proc International Workshop on the Web and Databases (WebDB'2000), Dallas, Texas, 2000. 53-62
-
10Sahuguet A, Azavant F. Building light-weight wrappers for legacy web datasources using w4f. In: Proc International Conference on Very Large Databases, Edinburgh, Scotland, 1999. 738-741
共引文献132
-
1王丽,唐建雄.基于DOM和网页模板的Web信息抽取[J].电脑知识与技术(过刊),2007(18):1617-1619. 被引量:1
-
2杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量:9
-
3欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报(自然科学版),2005,45(S1):1743-1747. 被引量:70
-
4孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报(理学版),2009,41(1):44-47. 被引量:3
-
5王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138. 被引量:8
-
6王茹,宋瀚涛,陆玉昌.基于树自动机的网页数据抽取[J].北京理工大学学报,2004,24(9):790-793. 被引量:6
-
7孟宪福,狄慧.基于Agent和XML的Web页面信息抽取研究与设计[J].计算机工程与设计,2004,25(8):1411-1414. 被引量:6
-
8李向阳,张亚非.一种网上图书信息抽取方法[J].情报学报,2004,23(6):655-660. 被引量:6
-
9张清军,朱才连.基于主动学习的Web页面信息抽取[J].情报学报,2004,23(6):667-671. 被引量:5
-
10LIXiang-yang,ZHANGYa-fei,LUJian-jiang,XUBao-wen.A Classification Method for Web Information Extraction[J].Wuhan University Journal of Natural Sciences,2004,9(5):823-827. 被引量:2
-
1朱燕.树自动机理论在XML中的应用[J].燕山大学学报,2006,30(6):530-533. 被引量:1
-
2陈忠胜.网页结构优化的讨论[J].电子世界,2014(7):164-164. 被引量:1
-
3刘明华.在程序中发送Email[J].电脑,1999(5):72-73.
-
4弋改珍.Linux中基于Apache个人网站的配置[J].价值工程,2012,31(9):138-138.
-
5于成龙.中文网页信息抽取技术及分类算法研究[J].山东理工大学学报(自然科学版),2011,25(3):108-110.
-
6董洵.WIN9X注册表揭密[J].电脑,1999(2):52-54.
-
7域名的命名[J].开放系统世界,2004(3):73-73.
-
8何代其.在ASP.NET中开发树状结构[J].商情,2012(47):134-134.
-
9崔春,龚捷.Web信息抽取研究综述[J].电脑知识与技术,2011,7(4):2279-2280. 被引量:2
-
10符名安.HTML文档的主要功能及应用技巧[J].微小型计算机开发与应用,1998(4):17-19.