自动获取HTML表格语义层次结构方法被引量：9

Automatically extraction of semantic hierarchical structures from HTML tables

导出

摘要针对目前方法不能处理复杂表格或嵌套表格等缺点,提出了自动获取超文本标记语言(HTML)表格的语义层次结构的方法。该方法以表格的4种基本类型为基础,使用内容树表示表格的语义层次结构。方法主要包含3个步骤:识别HTML表格的属性单元格和值单元格;将表格拆分为基本表格;为拆分后的基本表格构造内容树,获取表格的语义层次结构。实验结果证明该方法能自动处理嵌套表格和复杂表格,复杂性不高,精度较好。 Existing approaches for extracting information from hyper text markup language （HTML） tables are incapable of processing complicated or nested tables. This paper presents an approach for extracting semantic hierarchical structures from complex HTML tables based on the four basic types of tables with a content tree used to depict the semantic hierarchical structure of the HTML table. The approach differentiates the attribute cells and value cells in the HTML table and divides the HTML table into basic tables to then construct content trees to extract the semantic hierarchical structure from the HTML table. Tests demonstrate that the approach can automatically analyze complex, nested tables with accurate results.

作者范莉娅肖田元

机构地区清华大学自动化系国家CIMS工程技术研究中心

出处《清华大学学报（自然科学版）》 EI CAS CSCD 北大核心 2007年第10期1586-1590,共5页 Journal of Tsinghua University(Science and Technology)

基金国家"八六三"高技术项目(2004AA414020)

关键词行标题表格列标题表格行列标题表格内容树 row-wise table column-wise table row-column-wise table content tree

分类号 TP319 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1Yoshida M, Torisawa K, Tsujii J. Extracting attributes and their values from web pages [C]// Antonacopoulos A, Hu Jianying. Web Document Analysis : Challenges and Opportunities. Singapore : World Scientific Publishing, 2003:179 - 200.
2Lim Seungjin, Ng Yiukai. retrieving hierarchical data Proceedings of the Eighth Information and Knowledge ACM, 1999: 466-474. An automated approach for from HTML tables [C] // International Conference on Management. Kansas City:
3LIU Jiexue, AO Zhuoyun, Park H H, et al. An XML approach to semantically extract data from HTML tables [C]// Database and Expert Systems Applications, DEXA 2005, Lecture Notes in Computer Science 3588. Heidelberg: Springer Berlin, 2005:696-705.
4Kim Yeonseok, Lee Kyongho. Extracting table information from the Web [C] // Document Analysis Systems VI. 6th International Workshop, DAS 2004, Lecture Notes in Computer Science 3163, 2004:438 - 441.
5Tanaka M, Ishida T. Ontology extraction from tables on the web [C] // Proceedings of the International Symposium on Applications on Internet in SAINT-06. Washington: IEEE Computer Society, 2006: 284- 290.
6Hsiao Shuling, Chou Shihchun, Chang Luping. Information extraction from HTML tables base on domain ontology [C]// International Conference on Information and Knowledge Engineering-IKE' 03. Las Vegas: CSREA Press, 2003 : 70 - 78.
7LI Shijun, PENG Zhiyong, LIU Mengchi. Extraction and integration information in HTML tables [C] // Fourth International Conference on Computer and Information Technology. Nanjing, China, 2004: 315-320.
8Yoshida M, Torisawa K, Tsujii J. Extracting ontologies from world wide web via HTML tables [C] //Proceedings of the Pacific Association for Computational Linguistics. Kitakyushu, Japan, 2001 : 332 - 341.

同被引文献55

1蒋祖华,严隽琪,蔡洪.代数式公式类知识管理系统的研究和实践[J].计算机集成制造系统,2004,10(7):744-750. 被引量：3
2胡东东,孟小峰.一种基于树结构的Web数据自动抽取方法[J].计算机研究与发展,2004,41(10):1607-1613. 被引量：21
3王志琪,王永成.HTML文件的文本信息预处理技术[J].计算机工程,2006,32(5):46-48. 被引量：12
4谢佳,王克峰.XML在数据交换中的应用[J].现代电子技术,2006,29(9):108-109. 被引量：2
5李明,张为群.基于标记树的WEB页面净化技术研究[J].西南师范大学学报（自然科学版）,2006,31(5):128-131. 被引量：3
6林科锵,左志宏,林琳.Web表格信息抽取的研究[J].通讯和计算机（中英文版）,2005,2(8):27-31. 被引量：1
7张瑞,李石君.网上表格数据到XML的自动转换[J].计算机工程与应用,2007,43(2):190-192. 被引量：5
8杨卫东,王清明,施伯乐.针对XML流数据的复杂Twig Pattern查询处理[J].软件学报,2007,18(4):893-904. 被引量：9
9袁新颜.简析XML与HTML的结合[J].电脑知识与技术,2007(4):263-264. 被引量：1
10李双跃,龙红能,殷国富,姜华.基于特征的制造工艺资源建模与检索方法研究[J].计算机集成制造系统,2007,13(6):1061-1065. 被引量：17

引证文献9

1贾长云,程永上.HTML表格向XML的智能转换[J].计算机工程,2009,35(14):32-34. 被引量：3
2刘守群,朱明,谭晓彬.一种基于树匹配的网页语义块挖掘算法[J].小型微型计算机系统,2009,30(8):1541-1545. 被引量：7
3曾广朴,陶维安.基于信息量的Web表格信息抽取方法[J].西南师范大学学报（自然科学版）,2010,35(4):159-163. 被引量：2
4钱程,阳小兰.HTML到XML转换研究[J].计算机与现代化,2011(8):39-41. 被引量：2
5杜茂康,李韶华,刘苗.基于MEDL模型的HTML向XML的转换方法[J].重庆邮电大学学报（自然科学版）,2012,24(6):788-791.
6史瑞芳.自动获取HTML表格语义层次结构的方法[J].电子技术与软件工程,2015(22):181-182.
7张家锐,张涵.基于结构特征和元模型的中文表格语义分析方法[J].计算机应用与软件,2016,33(3):90-95.
8赵洪,王芳.大规模异构的政府统计报表信息抽取与集成融合研究[J].情报学报,2020,39(9):938-948. 被引量：7
9王天龙,陈泳,刘梦飞.复杂工艺参数决策知识建模与应用[J].上海交通大学学报,2021,55(10):1237-1245. 被引量：3

二级引证文献24

1聂卉,黄贵鹏.树编辑距离在Web信息抽取中的应用与实现[J].现代图书情报技术,2010(5):29-34. 被引量：8
2曾广朴,陶维安.基于信息量的Web表格信息抽取方法[J].西南师范大学学报（自然科学版）,2010,35(4):159-163. 被引量：2
3杜茂康,李韶华,刘苗.基于MEDL模型的HTML向XML的转换方法[J].重庆邮电大学学报（自然科学版）,2012,24(6):788-791.
4卢远征,叶晓彤.XML的DOM树结构在WEB挖掘中的应用[J].四川理工学院学报（自然科学版）,2013,26(3):64-67. 被引量：2
5李志义,沈之锐.基于自然标注的网页信息抽取研究[J].情报学报,2013,32(8):853-859. 被引量：3
6黄武冠,朱明,尹文科.基于DOM树和视觉特征的网页信息自动抽取[J].计算机工程,2013,39(10):309-312. 被引量：5
7李超建,朱晓姝.一种基于XML的中间转码模型设计与仿真[J].微电子学与计算机,2013,30(10):161-164. 被引量：1
8王海燕,杨鹤标.基于ANTLR的SQL语法分析策略与实现[J].计算机应用与软件,2013,30(11):68-70. 被引量：4
9林菊英.基于关系数据库表的双亲结构树实现及基本运算研究[J].福建电脑,2013,29(12):93-95.
10张兴兰,刘岩.Web实体表格结构识别研究[J].软件导刊,2016,15(6):1-5. 被引量：1

1张月琳,姚卓英.FoxBASE数据库转换为HTML表格[J].中国计算机用户,1997(6):54-56.
2袁鸿雁.基于本体的HTML表格识别技术的研究[J].长春工程学院学报（自然科学版）,2010,11(1):108-110.
3史瑞芳.自动获取HTML表格语义层次结构的方法[J].电子技术与软件工程,2015(22):181-182.
4张月琳,姚卓英.FoxBASE数据库转换为HTML表格[J].中国计算机用户,1997(16):54-56.
5密海英.谈网页布局及布局网页的方法[J].商业文化（学术版）,2008,0(12):304-304.
6秦振海,谭守标,徐超.基于Web的表格信息抽取研究[J].计算机技术与发展,2010,20(2):217-220. 被引量：6
7杜戎平.用Java语言实现Excel表格数据到HTML表格数据的转换[J].电脑编程技巧与维护,2014(23):62-64.
8范莉娅,肖田元.从HTML表格自动构建局部本体方法的研究[J].计算机集成制造系统,2007,13(9):1780-1786. 被引量：1
9荆天培.对图书资料存储方式自动转换的探讨[J].决策与信息,2016(14):217-217.
10龚清蕾.做张嵌套表格[J].电脑爱好者,2002(1):35-35.

清华大学学报（自然科学版）

2007年第10期

浏览历史

内容加载中请稍等...

自动获取HTML表格语义层次结构方法被引量：9

参考文献8

同被引文献55

引证文献9

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

自动获取HTML表格语义层次结构方法 被引量：9

参考文献8

同被引文献55

引证文献9

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

自动获取HTML表格语义层次结构方法被引量：9