基于DOM树的非规范化表格信息定位技术被引量：2

Location Technology of Non-standardized Table Based on DOM Tree

下载PDF

导出

摘要 Web表格信息提取已经成为构建本体的重要内容之一,它能自动将本体所需的属性名和属性值提取出来,节省大量人工劳动。关于非规范化表格信息提取的研究比较少,对本体构建造成大量信息缺失。提供一种基于启发式规则的非规范化表格信息定位算法,其对定位非规范化表格准确率较高。 The information extraction of web table has become the important task of construct ontology. It extracts attrib- ute name and value for ontology automatically so that large volume human task can be saved. There are few studies for in- formation extraction of non-standardized table in the domestic and overseas. The above phenomenon causes information- missing in the process of building ontology. The present paper proposed a heuristic and inerratic location algorithm of non- standardized table which can provide a much higher accuracy rate for locating informal table.

作者张兴兰刘岩

机构地区北京工业大学计算机学院

出处《软件导刊》 2016年第7期10-13,共4页 Software Guide

关键词本体非规范化表格 DOM树 Ontology Non-standardized Table DOM Tree

分类号 TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献6

1HURST M. Classifying table elements in HTML[-EB/OL~. ht- tp://www2002, org/CDROM/poster/115/index, html.
2WANG Y, HU J. A machine learning--based approach for table detection on the Web ~ C~//Proceeding of the 1 lth International Conference on WWW, 2002 : 242-250.
3CUI TAO. Schema matching and data extraction over HTML ta- blesFD]. USA~ Brigham Young University,2003.
4CHEN H. Mining tables from large scale HTML texts[-C~. Pro- ceedings of the 18th International Conference on Computational Linguistics, 2000 : 166-172.
5CHEN H H,TSAI S C, TSAI J H. Mining tables from large scale html texts [C]. In the 18th International Conference on Computa- tional Linguistics(COLING), 2000 : 166-172.
6GAIZAUSKAS ROBERT, YORICK WILKS. Information ex- traction: beyond document retrieval[J~. Journal of Documenta tion,1998,54(1) :70-105.

同被引文献13

1秦振海,谭守标,徐超.基于Web的表格信息抽取研究[J].计算机技术与发展,2010,20(2):217-220. 被引量：6
2张兵,汤进,罗斌.基于超链接和DOM结构树的网页标题实时抽取方法[J].计算机与现代化,2015(8):84-88. 被引量：2
3唐明,朱磊,邹显春.基于Word2Vec的一种文档向量表示[J].计算机科学,2016,43(6):214-217. 被引量：144
4孟川,武小年.基于文本特征值的正文抽取方法[J].桂林电子科技大学学报,2017,37(2):106-110. 被引量：2
5李红灵,邹建鑫.基于SVM和文本特征向量提取的SQL注入检测研究[J].信息网络安全,2017(12):40-46. 被引量：12
6冯健,张莹.基于文档对象模型结构聚类的钓鱼网页检测方法[J].科学技术与工程,2018,18(23):81-89. 被引量：3
7林怀逸,刘箴,柴玉梅,刘婷婷,柴艳杰.基于词向量预训练的不平衡文本情绪分类[J].中文信息学报,2019,33(5):132-142. 被引量：7
8刘博文,王雨琪,林果园.基于结构化文档的钓鱼网站检测算法[J].计算机工程与设计,2019,40(10):2791-2798. 被引量：3
9周艳平,李金鹏,宋群豹.一种基于SVM及文本密度特征的网页信息提取方法[J].计算机应用与软件,2019,36(10):251-255. 被引量：13
10王卫红,梁朝凯,闵勇.基于可视块的多记录型复杂网页信息提取算法[J].计算机科学,2019,46(10):63-70. 被引量：13

引证文献2

1王宝亮,陈伟宁,潘文采.融合DOM树结构向量的行为类别标签预测模型[J].计算机仿真,2022,39(9):257-262. 被引量：1
2马佳芸,杨林峰.基于多特征融合的网页表格数据提取方法[J].工业控制计算机,2022,35(11):81-83.

二级引证文献1

1陈俊生,彭莉芬.一种用于Web UI自动化测试脚本修复的网页元素重定位方法[J].长春师范大学学报,2023,42(8):54-59. 被引量：1

1赵庆亮,穗志方.一种基于WWW的Ontology属性值自动提取方法[J].中文信息学报,2008,22(6):69-74. 被引量：1
2马彦东.利用Auto LISP程序转换Auto CAD实体[J].科技资讯,2011,9(13):57-57. 被引量：2
3张兴兰,刘岩.Web实体表格结构识别研究[J].软件导刊,2016,15(6):1-5. 被引量：1
4施伟荣.灭火指挥数据挖掘研究[J].微电子学与计算机,2016,33(4):141-143. 被引量：1
5余小平,吴晟,李凯.基于统计特性的DDoS攻击防御系统的设计[J].科技广场,2008(10):84-87.

软件导刊

2016年第7期

浏览历史

内容加载中请稍等...

基于DOM树的非规范化表格信息定位技术被引量：2

参考文献6

同被引文献13

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于DOM树的非规范化表格信息定位技术 被引量：2

参考文献6

同被引文献13

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于DOM树的非规范化表格信息定位技术被引量：2