基于确定性树自动机技术的信息抽取研究

原文传递

导出

摘要针对当前网页结构信息抽取技术存在的不足,提出一种基于确定性树自动机的信息抽取技术。该方法的核心思想是充分利用HTML文档的树状结构,将HTML文档转换成二叉树的形式,依据树自动机对待抽取网页的接收和拒绝状态进行数据的抽取。

作者张敏

机构地区四平市粮食稽查支队

出处《才智》 2011年第36期213-214,共2页 Ability and Wisdom

关键词树自动机信息抽取 HTML

参考文献5

1Florescu D, Levy A Y, Mendelzon A. Database techniques for the World-Wide Web: A Survery. In: ACM The SIGMOD Record, 1998.59-74
2Atzeni P, Mecca G, Merialdo P. To weave the Web. In: Proc the 23rd International Conference on Very Large Data Bases. Athens, Greece, 1997. 206-215
3Pemberton S et al. XHTML 1.0: The extensible hyperText markup language. In: http://www.w3.org/MarkUp/
4Cattell R G G. The Object Database Standard ODMG-93. San Mateo,California: Morgan Kaufmann Publishers,1994
5Mitchell T. Machine Learning. New York: McGraw Hill, 1997
6Wall L et al. Programming Perl(3rd Edition). O'Reilly & Associates,2000
7Birbeck M et al. Professional XML. Wrox Press Inc, 2000
8Liu L, Pu C, Han W. XWRAP: An XML-enabled wrapper construction system for web information sources. In: Proc International Conference on Data Engineering (ICDE), San diego, California, 2000. 611-621
9Chamberlin D, Robie J, Florescu D. Quilt: An XML query language for heterogeneous data sources. In: Proc International Workshop on the Web and Databases (WebDB'2000), Dallas, Texas, 2000. 53-62
10Sahuguet A, Azavant F. Building light-weight wrappers for legacy web datasources using w4f. In: Proc International Conference on Very Large Databases, Edinburgh, Scotland, 1999. 738-741

1王丽,唐建雄.基于DOM和网页模板的Web信息抽取[J].电脑知识与技术（过刊）,2007(18):1617-1619. 被引量：1
2杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
3欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
4孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
5王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138. 被引量：8
6王茹,宋瀚涛,陆玉昌.基于树自动机的网页数据抽取[J].北京理工大学学报,2004,24(9):790-793. 被引量：6
7孟宪福,狄慧.基于Agent和XML的Web页面信息抽取研究与设计[J].计算机工程与设计,2004,25(8):1411-1414. 被引量：6
8李向阳,张亚非.一种网上图书信息抽取方法[J].情报学报,2004,23(6):655-660. 被引量：6
9张清军,朱才连.基于主动学习的Web页面信息抽取[J].情报学报,2004,23(6):667-671. 被引量：5
10LIXiang-yang,ZHANGYa-fei,LUJian-jiang,XUBao-wen.A Classification Method for Web Information Extraction[J].Wuhan University Journal of Natural Sciences,2004,9(5):823-827. 被引量：2

才智

2011年第36期

内容加载中请稍等...