Web表格信息抽取研究综述被引量：11

A Survey of the Research on Information Extraction over Web Tables

下载PDF

导出

摘要介绍Web表格的特点与结构、Web表格信息抽取及其过程,分析Web表格信息抽取的4个关键技术:Web表格定位、Web表格结构识别、Web表格内容整合和抽取结果表示,以及Web表格信息抽取的应用。最后指出目前国内外该项研究的不足之处及未来发展方向。 This paper firstly introduces the characteristics and structure of Web tables and describes the process of information extraction over Web tables. Then four key technologies are analysed, including Web table detection, Web table structure recognition, Web table interpretation and presentation of table extraction. It also analyses the application of the research and points out the problems in current researches, and finally presents a prospect of its future.

作者赵洪肖洪薛德军师庆辉

机构地区中国学术期刊(光盘版)电子杂志社

出处《现代图书情报技术》 CSSCI 北大核心 2008年第3期24-31,共8页 New Technology of Library and Information Service

关键词 WEB表格信息抽取表格定位表格结构识别表格内容整合 Web tables Information extraction Web table detection Web table structure recognition Web table interpretation

分类号 TP393.09 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献39

1Gatterbauer W, Bohunsky P. Table Extraction Using Spatial Reasoning on the CSS2 Visual Box Model [ C ]. In :Proceedings of the 21st National Conference on Artificial Intelligence (AAAI 2006) , Washington : AAAI Press,2006 : 1313 - 1318.
2Douglas S, Hurst M. Layout and Language: List and Tables in Technical Documents [ C ]. In: Proceedings of ACL SIGPARSE Workshop on Punctuation in Computational Linguistics, New Jersey : Association for Computational Linguistics, 1996 : 19 - 24.
3Hu J, Kashi R S, Lopresti D, et al. Evaluating the Performance of Table Processing Algorithms [ J ]. International Journal on Document Analysis and Recognition,2002,4 ( 3 ) : 140 - 153.
4Ng H T, Kim C Y, Koo J L T. Learning to Recognize Tables in Free Texts [ C ]. In:Proceedings of the 37 th Annual Meeting of the Association for Computional Linguistics, New Jersey: Association for Computational Linguistics, 1999 :443 - 450.
5Wang Y, Haralick R, Phillips I. Document Zone Content Classification and Its Performance Evaluation [ J ]. Pattern Recognition, 2006,39(1) :57 -73.
6Wang Y, Phillips I T, Robert R M, et al. Table Structure Understanding and Its Performance Evaluation [ J ]. Pattern Recognition, 2004,37(7) :1479 - 1497.
7McCallum A, Freitag D, Pereira F. Maximun Entropy Markov Modals for Information Extraction and Segmentation [ C ]. In : Proceeding of the 17th International Conference on Machine Learning, 2002:591 - 598.
8Pinto D, McCallum A, Wei X, et al. Table Extraction Using Conditional Random Fields [ C ]. In : Proceedings of the ACM SIGIR, 2003:235 - 242.
9Hammer J, Garcia M H, Cho J, et al. Extracting Semi - structured Information From the Web[ C]. In:Proceedings of the Workshop on Management of Semistructured Data, 1997 : 18 - 25.
10Lim S, Ng Y. An Automated Approach for Retrieving Heirarchical Data from HTML Tables [ C ]. In: Proceedings of the 8th International Conference on Informaiton and Knowledge Management ( CIKM' 99), 1999:466 - 474.

二级参考文献28

1[16]Hobbs J,Appelt D,Bear J et al.FASTUS:A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text[C].In:Roche,Schabes eds. Finite State Devices for Natural Language Processing, MIT Press,Cambridge MA, 1996
2[17]Appelt D E.Introduction to Information Extraction[J].AI COMMUNICATIONS, 1999; 12(3)
3[18]Yangarber R.Scenario Customization for Information Extraction[D].Ph D Thesis.New York University,2001-01
4[19]Cowie J, Lehnert W.Information Extraction[J].Communications of the ACM, 1996;39(1)
5[20]Grishman R Adaptive information extraction and sublangu age analysis[C].In:Proceedings of IJCAI-2001 Workshop on Adaptive Text Extraction and Mining,2001
6[1]Applet D E,Israel D J.Introduction to Information Extraction Technology. A Tutorial for IJCAI-99,1999
7[2]Gaizauskas R,Wilks Y.Information Extraction:Beyond Document Retrieval[J].Journal of Documentation, 1997
8[3]Sager N.Natural Language Information Processing. Reading,Massachusetts:Addison Wesley, 1981
9[4]Dejong G.An Overview of the FRUMP System[C].In:LEHNERT W,RINGLE M h eds. Strategies for Natural Language Processing,Lawrence Erlbaum, 1982:149～176
10[5]Grishman R,Sundheim B.Message Understanding Conference-6:A Brief History[C].In :Proceedings of the 16h International Conference on Computational Linguistics(COLING-96),1996-08

共引文献192

1沈芳婷,于艳华,李志强,李劼.基于Attention-Comprehension OpenTag的人物属性抽取算法[J].新一代信息技术,2022,5(6):1-5.
2王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
3叶正,林鸿飞,苏绥,刘菁菁.基于支持向量机的人物属性抽取[J].计算机研究与发展,2007,44(z2):271-275. 被引量：11
4岳国伟,梁永全.基于Agent的Web页面结构化信息抽取[J].计算机研究与发展,2007,44(z2):344-349.
5张向喆,王明辉,赵洪波,王起山,潘玉春.生物医学文本中命名实体识别研究[J].上海交通大学学报（农业科学版）,2010,28(2):132-139. 被引量：6
6李万辉,林瑞明,张文德.台湾科技文献信息抽取与检索平台的设计与实现[J].图书馆学研究（应用版）,2010(6):71-75.
7宋远君,赵铭远,马静.基于本体的无人机情报获取与分析系统研究[J].计算机科学,2012,39(S3):215-219. 被引量：1
8李海涛.纯文本文档处理技术的研究与应用[J].现代图书情报技术,2004(10):33-35. 被引量：2
9马彦波,张蕾.一种创建事件模式的新方法[J].微机发展,2005,15(1):20-23. 被引量：2
10陈科,贾焰,杨树强,王永恒.汉语短文话题提取系统中SDTF*PDF算法的研究[J].计算机应用,2005,25(1):14-16. 被引量：1

同被引文献104

1应自炉,赵毅鸿,宣晨,邓文博.多特征融合的文档图像版面分析[J].中国图象图形学报,2020,0(2):311-320. 被引量：7
2曹罗生.Internet浏览翻译系统数字与数词表达形式的识别技术[J].佛山科学技术学院学报（自然科学版）,2004,22(3):31-34. 被引量：1
3温有奎 ,温浩 ,徐端颐 ,潘龙法 .基于创新点的知识元挖掘[J].情报学报,2005,24(6):663-668. 被引量：37
4施荣.基于网络环境的情报研究工作及其能力建设[J].现代情报,2006,26(3):133-135. 被引量：7
5温有奎,温浩,徐端颐,潘龙法.基于知识元的文本知识标引[J].情报学报,2006,25(3):282-288. 被引量：64
6陈洁梅.浅议基于XML的知识管理系统[J].信息技术与信息化,2006(5):94-96. 被引量：3
7李艳霞,孙羽菲,张玉志.受限表格识别系统的研究[J].计算机工程与应用,2006,42(31):161-163. 被引量：6
8周秀会.知识元搜索引擎:CNKI知识搜索平台[J].现代情报,2007,27(5):220-222. 被引量：18
9NKOS[ EB/OL]. [2007 - 12 - 10]. http://nkos. slis. kent. edu.
10Dspace Project [ EB/OL]. [ 2008 - 03 - 20 ]. http ://www. dspace. org/live.

引证文献11

1谈春梅,段卫华,曹松强.网络专题知识库关键技术的研究与实现[J].现代图书情报技术,2009(4):70-74. 被引量：4
2秦振海,谭守标,徐超.基于Web的表格信息抽取研究[J].计算机技术与发展,2010,20(2):217-220. 被引量：6
3史存会,罗文华,林鸿飞.文本挖掘技术在互联网赌博案情分析中的应用[J].计算机工程与应用,2011,47(28):113-116. 被引量：3
4马艳红,胡学钢,吴共庆.基于链接路径搜索的URL属性集成方法[J].计算机工程,2013,39(1):76-79.
5吴超,郑彦宁,化柏林.数值信息抽取研究进展综述[J].中国图书馆学报,2014,40(2):107-119. 被引量：10
6崔文浩,张伟,张利国.科技文献中表格信息的存储及检索方法研究[J].图书馆学刊,2015,37(11):65-68.
7李杨,朱月琴,李朝奎,肖克炎,范建福,李秋平.面向海量地质文档的表格信息快速抽取方法研究[J].中国矿业,2017,26(9):98-103. 被引量：3
8赵洪,肖洪,相生昌.基于海量事实数据和协同机制的情报集成平台设计与实现[J].信息系统工程,2018,31(4):109-111. 被引量：1
9肖洪,赵洪,毋晓霞.基于知识挖掘与协同融合的情报研究方法[J].情报理论与实践,2018,41(10):15-19. 被引量：10
10赵洪,王芳.大规模异构的政府统计报表信息抽取与集成融合研究[J].情报学报,2020,39(9):938-948. 被引量：7

二级引证文献41

1朱林,吴兆文,程志刚.重点学科信息资源保障整合创新[J].图书馆学研究,2010(4):51-54. 被引量：3
2黄国超,王衍波,黄开国.基于XSLT的XML文档信息隐藏方法研究[J].计算机技术与发展,2011,21(10):246-249.
3戴慧敏,朱艳辉.WEB就业信息抽取技术研究[J].电脑知识与技术,2013,9(4):2298-2300. 被引量：1
4杨彬.基于文本挖掘的网络赌博取证系统的设计与研究[J].福建警察学院学报,2014,28(6):36-40.
5杨京,王芳,白如江.基于研究水平的单篇学术论文创新力评价研究——以碳纳米管材料领域为例[J].情报理论与实践,2017,40(9):105-111. 被引量：14
6李杨,朱月琴,李朝奎,肖克炎,范建福,李秋平.面向海量地质文档的表格信息快速抽取方法研究[J].中国矿业,2017,26(9):98-103. 被引量：3
7谯冉,张小兵.跨境网络赌博犯罪分析与预防对策——以近年来H省打击网络赌博犯罪为例[J].山东警察学院学报,2017,29(5):101-108. 被引量：16
8郭少卿,乐小虬.科技论文中数值指标实际取值识别[J].数据分析与知识发现,2018,2(1):21-28. 被引量：4
9程月.大数据资源中用户需求信息定向提取仿真[J].计算机仿真,2018,35(5):422-425. 被引量：4
10黄容,何杨煜琪,王忠义,李春雅.数字图书馆数值知识元检索系统设计[J].图书情报工作,2018,62(14):125-132. 被引量：10

1袁鸿雁.基于本体的Web表格信息抽取技术的研究[J].青岛大学学报（自然科学版）,2010,23(2):47-51. 被引量：3
2张群会.表格数据自动识别技术研究[J].西安科技学院学报,2000,20(4):353-355. 被引量：4
3廖涛,刘宗田,孙荣.Web表格定位技术的研究与实现[J].计算机科学,2009,36(9):227-230. 被引量：9
4刘真,吴泉源.非限定表格信息提取系统的研究[J].计算机学报,1995,18(11):808-813. 被引量：3
5张兴兰,刘岩.Web实体表格结构识别研究[J].软件导刊,2016,15(6):1-5. 被引量：1
6秦振海,谭守标,徐超.基于Web的表格信息抽取研究[J].计算机技术与发展,2010,20(2):217-220. 被引量：6
7贺岩,崔喆.基于加权无向图的表格分割方法[J].计算机应用,2004,24(S1):175-177.
8葛宇.分栏Word表格，全方位看齐![J].电脑爱好者,2008,0(11):58-58.
9达文姣,孙传庆,任志国,岳秋菊.链式多堆栈的实现技术[J].自动化与仪器仪表,2014(10):99-99.
10张延龙,王俊勇.多传感器数据融合技术概述[J].舰船电子工程,2013,33(2):41-44. 被引量：20

现代图书情报技术

2008年第3期

浏览历史

内容加载中请稍等...

Web表格信息抽取研究综述被引量：11

参考文献39

二级参考文献28

共引文献192

同被引文献104

引证文献11

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

Web表格信息抽取研究综述 被引量：11

参考文献39

二级参考文献28

共引文献192

同被引文献104

引证文献11

二级引证文献41

相关作者

相关机构

相关主题

浏览历史

Web表格信息抽取研究综述被引量：11