基于树结构的Web表格信息抽取方法被引量：1

Information Extraction Method over Web Tables Based on Tree

下载PDF

导出

摘要针对目前国内外多种信息抽取方法中存在不同程度的局限性,提出一种基于DOM树和二叉树结构的Web表格信息抽取方法.该方法提供了以Web表格为信息抽取对象的、支持抽取方式选择的Web表格信息抽取工具.该工具将Html文档解析成DOM树,再将DOM树构建成一棵含有文本信息的二叉树,最后通过遍历二叉树实现对Web表格信息的抽取. Aiming at the limitations in different degrees in various information extraction methods at home and abroad at present,an information extraction method over we b-tables based on DOM tree and binary tree was put forward.The method provided a web-table information extraction tool which the web-table was used as inform ation extraction objects and the choice of extraction modes was supported.The t ool parsed Html documents into DOM tree,then constructed a DOM tree into a bina ry tree containing texts,finally the information extraction of web-table was a chieved by traversing a binary tree.

作者孙全红张贞贞

机构地区华北水利水电学院

出处《华北水利水电学院学报》 2011年第3期108-110,共3页 North China Institute of Water Conservancy and Hydroelectric Power

基金河南省教育厅科技攻关项目(2011B510008)

关键词表格信息 HTML文档 DOM树二叉树 table information Html document DOM tree binary tree

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献3

1蒲筱哥.基于Web的信息抽取技术研究综述[J].现代情报,2007,27(10):215-219. 被引量：18
2王治和.表格信息抽取引擎的设计与实现[J].计算机科学,2006,33(10):126-127. 被引量：4
3邹涛,黄源,张福炎.基于WWW的文本信息挖掘[J].情报学报,1999,18(4):291-295. 被引量：47

二级参考文献43

1李向阳,苗壮.自由文本信息抽取技术[J].情报科学,2004,22(7):815-821. 被引量：23
2邓尚民,孙玉伟.信息抽取系统的研究现状[J].现代图书情报技术,2006(3):55-58. 被引量：23
3吴振慧.Web信息抽取的研究[J].电脑知识与技术,2006(12):21-21. 被引量：1
4杨明福.计算机网络[M].北京:电子工业出版社,1999.123-127.
5Lawrence S, Giles C L. Searching the world wide web [J]. Science, 1998, 280 (4): 98-100,
6Grishman R, Sundheim B. message Understanding Conference on Computational Linguistics COLING - 96, 1996 - 08.
7http://www.cymfony.com/index.html[EB]. 2007. 5
8http://www.bhasha.com/[EB].2007.5.
9http://www.linguamaties.com/index.html [EB].2007. 5.
10http://www.revsolutions.com/index.html [EB]. 2007. 5.

共引文献66

1宋瑞祺.Web文本数据挖掘关键技术及其在网络检索中的应用[J].山西财经大学学报（高等教育版）,2007(S1). 被引量：1
2徐妙君,顾沈明.面向Web的文本挖掘技术研究[J].控制工程,2003,10(z1):44-46. 被引量：4
3贺国旗,张强.基于用户模型的文献检索研究[J].雁北师范学院学报,2002,18(5):29-32. 被引量：1
4张艳英,吕子军.基于网络环境的信息挖掘及信息服务[J].图书馆学研究,2002(11):68-70. 被引量：1
5杨璐光,雷宁光,朱晨光.互联网信息挖掘技术及其实现[J].哈尔滨铁道科技,2006(1):17-19. 被引量：1
6任成义.基于网页的知识元挖掘[J].图书情报工作,2010,54(S1):278-281.
7李泽文.基于Web的数据挖掘技术[J].现代计算机,2004,10(7):29-33. 被引量：10
8赖俊,周琳,张学平.基于Web挖掘的主题式搜索引擎的设计[J].军事通信技术,2004,25(3):67-70.
9彭文利,田晓,万蓬勃,周越.基于网络的皮革制品设计信息资源的研究[J].中国皮革,2004,33(20):131-133. 被引量：2
10钟茂生.面向用户兴趣的网页信息过滤系统研究[J].科技广场,2004(10):23-24. 被引量：1

同被引文献12

1CASTRO J L, DELGADO M, MEDINA J. Intelligent surveillance system with integration of heterogeneous information for intru- sion detection [J]. Exp Sys Appl, 2011,38(9) :11182-11192.
2LUO Z H, WU J T. The integration of directional information and local region information for accurate image segmentation[J]. Pat Recong Lett, 2011,32 (15) : 1990-1997.
3DAVID G, IGOR A. Accuracy and performance of the state-based and liveliness measures of information integration [ J ]. Cons Cogn, 2011,20(4) :1403-1424.
4ZHOU L N, AMMAR S M, ZHANG D S. Mobile persona informationl management agent: supporting natural language interface and application integration [ J ]. Inform Proe Manage, 2012,48 ( 1 ) : 23 -31.
5SHI L, ROSSITZA S. User-oriented ontology-based clustering of stored memories [ J]. Expert Sys Appl, 2012,39 (10) :9730- 9742.
6CARMEN M, ALBERT V D H, DANIEL S. An approximation to the computational theory of perceptions using ontologies [ J ]. Expert Sys Appl, 2012,39 (10) :9494-9503.
7JEF P, PETER V P. Measuring integration of information and communication technology in education : An item response mod- eling approach[ J]. Comput Edu, 2012,58 (4) : 1247-1259.
8HSIEH S H, LIN H T, CHIN W, et al. Enabling the development of base domain ontology through extraction of knowledge from engineering domain handbooks [ J ]. Adv Engin Inform, 2011,25 (2) :288-296.
9万年红.面向服务的自适应云资源信息集成软件架构[J].计算机应用,2012,32(1):170-174. 被引量：7
10岳洋,曾广平.一种面向构件的行为语义模型及其应用研究[J].计算机应用研究,2012,29(5):1751-1755. 被引量：4

引证文献1

1李俊州,茹秀娟.采用Ontology和树的语义冲突消除法[J].湖南师范大学自然科学学报,2013,36(3):18-23. 被引量：1

二级引证文献1

1成全,蒋世辉.面向用户需求的多源在线健康社区信息多层级融合框架研究[J].情报理论与实践,2022,45(3):103-109. 被引量：3

1张志强,李天柱,张波,陈少飞,郝亚南.基于文档结构的信息抽取规则的描述语言比较研究[J].河北大学学报（自然科学版）,2004,24(2):212-218.
2王治和.表格信息抽取引擎的设计与实现[J].计算机科学,2006,33(10):126-127. 被引量：4
3陈宇,于洋,王峥.遍历二叉树的非递归算法[J].金色年华（下）,2010(9):160-160.
4龙玉国,冯玉才.遍历二叉树的一种改进算法[J].计算机工程与应用,1989,25(9):9-12.
5李斌.浅谈web信息抽取[J].大众科技,2010,12(4):48-49.
6李彦.遍历二叉树的递归与非递归算法浅析[J].电脑知识与技术,2011,7(8X):5941-5942. 被引量：1
7申加华.二叉树的遍历[J].电脑知识与技术（过刊）,2011,17(10X):7249-7249. 被引量：1
8叶品菊,吴斌,胡远望,陈耳.直观显示二叉树结构的算法[J].江南大学学报（自然科学版）,2008,7(1):60-63. 被引量：2
9费洪晓,杨彦.一种改进的线索二叉树结构[J].电脑与信息技术,1999,7(2):16-18.
10唐培,徐拾义.基于软件内建自测试的测试用例研究[J].计算机应用与软件,2006,23(10):45-46. 被引量：1

华北水利水电学院学报

2011年第3期

浏览历史

内容加载中请稍等...

基于树结构的Web表格信息抽取方法被引量：1

参考文献3

二级参考文献43

共引文献66

同被引文献12

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于树结构的Web表格信息抽取方法 被引量：1

参考文献3

二级参考文献43

共引文献66

同被引文献12

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于树结构的Web表格信息抽取方法被引量：1