基于DTA的信息抽取技术研究

ON INFORMATION EXTRACTION TECHNIQUE BASED ON DTA

下载PDF

导出

摘要针对现有基于网页结构信息抽取技术的不足,提出一种基于确定性树自动机DTA(deterministic tree automaton)的信息抽取技术。其核心思想是通过将HTML文档转换成二叉树的形式,然后依据树自动机对待抽取网页的接收和拒绝状态进行数据的抽取。该方法充分利用了HTML文档的树状结构。依托树自动机将传统的以单一结构途径的信息抽取与文法推理两者相结合。经实验证明与同类抽取方法相比在准确率、召回率以及抽取所需时间上均有所提高。 In light of the deficiency of existing information extraction techniques based on webpage structure, in this paper we propose an information extraction technique based on deterministic tree automata （DTA）. The core idea of it is to transform the HTML document to binary tree, and then extract the data according to the acceptance and rejection state of DTA on its webpage extraction. The method makes the full use of tree structure of HTML documents and combines conventional information extraction in single structure route with grammar inference relying on DTA. Experimental results shows that the approach with DTA improves the precision, recall rate and time of extraction comparing with other similar extraction methods.

作者谭鹏许张来顺滕婕

机构地区解放军信息工程大学电子技术学院华东师范大学

出处《计算机应用与软件》 CSCD 2009年第12期228-230,250,共4页 Computer Applications and Software

关键词树自动机信息抽取 HTML Tree automata Information extraction HTML

分类号 TP391 [自动化与计算机技术—计算机应用技术] TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1Xiaofeng Meng, Hongjun Lu Ilaiyan, Wang Mingzhe Gu. SG-WRAP: a schema-guided wrapper generator [ C ]//18th lnternation Conference, 2002:331 - 332.
2李效东,顾毓清.基于DOM的Web信息提取[J].计算机学报,2002,25(5):526-533. 被引量：101
3Arnaud Sahuguet,Fabien Azavant. Building Light-weight Wrappers for Legacy Web Data-sources Using W4F [C]//International Conference on Very Large Databases, Edinburgh, Scot and, 1999:738 - 741.
4王磊,蒋建中,郭军利.基于扩展DOM树的Web页面信息抽取[J].计算机应用与软件,2007,24(6):137-139. 被引量：12
5陈琼,苏文健.基于网页结构树的Web信息抽取方法[J].计算机工程,2005,31(20):54-55. 被引量：24
6Ricojuan J, Calera Rubio J, CatTasco R. Probabilistic k-testable tree-languages [ C ]//Proceedings of 5^th' international Colloquium, ICGI 2000,Lisbon( Portugal ), volume 1891 of Lecture Notes in Computer Science, pages 221 -228. Springer,2000.
7Kosala R. Information extraction by tree automata inference [ D ]. Belgium : Katholieke University ,2003.
8王茹,宋瀚涛,陆玉昌.基于树自动机的网页数据抽取[J].北京理工大学学报,2004,24(9):790-793. 被引量：6

二级参考文献39

1Florescu D, Levy A Y, Mendelzon A. Database techniques for the World-Wide Web: A Survery. In: ACM The SIGMOD Record, 1998.59-74
2Atzeni P, Mecca G, Merialdo P. To weave the Web. In: Proc the 23rd International Conference on Very Large Data Bases. Athens, Greece, 1997. 206-215
3Pemberton S et al. XHTML 1.0: The extensible hyperText markup language. In: http://www.w3.org/MarkUp/
4Cattell R G G. The Object Database Standard ODMG-93. San Mateo,California: Morgan Kaufmann Publishers,1994
5Mitchell T. Machine Learning. New York: McGraw Hill, 1997
6Wall L et al. Programming Perl(3rd Edition). O'Reilly & Associates,2000
7Birbeck M et al. Professional XML. Wrox Press Inc, 2000
8Liu L, Pu C, Han W. XWRAP: An XML-enabled wrapper construction system for web information sources. In: Proc International Conference on Data Engineering (ICDE), San diego, California, 2000. 611-621
9Chamberlin D, Robie J, Florescu D. Quilt: An XML query language for heterogeneous data sources. In: Proc International Workshop on the Web and Databases (WebDB'2000), Dallas, Texas, 2000. 53-62
10Sahuguet A, Azavant F. Building light-weight wrappers for legacy web datasources using w4f. In: Proc International Conference on Very Large Databases, Edinburgh, Scotland, 1999. 738-741

共引文献132

1王丽,唐建雄.基于DOM和网页模板的Web信息抽取[J].电脑知识与技术（过刊）,2007(18):1617-1619. 被引量：1
2杨桢,赵燕平,朱东华.基于正则表达式的信息抽取系统在国防技术监测中的应用[J].北京理工大学学报,2006,26(z1):74-78. 被引量：9
3欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
4孙皓,董守斌.基于标签密度的自适应正文提取方法[J].郑州大学学报（理学版）,2009,41(1):44-47. 被引量：3
5王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138. 被引量：8
6王茹,宋瀚涛,陆玉昌.基于树自动机的网页数据抽取[J].北京理工大学学报,2004,24(9):790-793. 被引量：6
7孟宪福,狄慧.基于Agent和XML的Web页面信息抽取研究与设计[J].计算机工程与设计,2004,25(8):1411-1414. 被引量：6
8李向阳,张亚非.一种网上图书信息抽取方法[J].情报学报,2004,23(6):655-660. 被引量：6
9张清军,朱才连.基于主动学习的Web页面信息抽取[J].情报学报,2004,23(6):667-671. 被引量：5
10LIXiang-yang,ZHANGYa-fei,LUJian-jiang,XUBao-wen.A Classification Method for Web Information Extraction[J].Wuhan University Journal of Natural Sciences,2004,9(5):823-827. 被引量：2

1谭鹏许,谭晓贞,张来顺.基于无秩树自动机的信息抽取技术研究[J].计算机工程与设计,2009,30(23):5506-5509. 被引量：1
2冯贵良,杨洁,李忠哗.一种基于影响度的可伸缩的决策树算法[J].河北北方学院学报（自然科学版）,2008,24(4):55-57.
3Broadcom发布DTA单芯片解决方案[J].数字通信世界,2008(9):81-81.
4吴小红,陶杰.电子标签辅助拣货系统的设计[J].微电子技术,2003,31(3):34-36.
5申利民,唐勇.基于CFA和DTA的逆编译方法[J].小型微型计算机系统,1998,19(3):19-23. 被引量：7
6魏绍贤.MPP是万亿次计算机的主要结构途径[J].航空计算技术,1996,26(2):1-3.
7专用于RGB、VGA、DTA和HDTV的Belden微型高分辨率分量视频电缆[J].广播与电视技术,2005,32(3):149-149.
8胡奖荣,陆倜.工作流模式的研究[J].北京机械工业学院学报,1997,12(2):46-50.
9Crook.,D 曲谦.高性能图象处理体系结构的发展趋势[J].电子计算机,1999(5):45-51.
10余笑波,张堃,林木良,林少琨.热分析数据处理系统的研究开发[J].现代科学仪器,2002,19(1):37-40. 被引量：1

计算机应用与软件

2009年第12期

浏览历史

内容加载中请稍等...

基于DTA的信息抽取技术研究

参考文献8

二级参考文献39

共引文献132

相关作者

相关机构

相关主题

浏览历史