一种基于树匹配的网页语义块挖掘算法被引量：7

Algorithm for Webpage Semantic Blocks Mining Using Tree Match Method

下载PDF

导出

摘要在互联网中,网页等半结构化文本通常由不同的语义区块组合而成,定位和挖掘这类区块对网页内容理解、页面结构分析等有着重要的作用.然而由于不同网页在结构和内容上都存在着较大的区别,准确的从不同的网页中定位特定的结构区域是一个相对复杂的任务.主要提出一种基于树匹配的方法用来挖掘网页中的语义区块,并通过剪枝等策略优化算法.实验表明该方法能有效提高F值,同时算法的性能有较大改善. In the WWW, many web documents are combined with various semantic regions. Discovery and mining such regions has a significant effort for web page analysis, user browser experience improvement, etc. But because of the difference of web page structure and content among large amounts of web pages, it is hard to detect such common regions effectively and correctly, traditional matching methods such as regular expression are not suitable for this problem. This paper proposes a region detection method based on tree match algorithm. As is shown according the experiments, the method this paper described improves F-Measure value, besides this method also reduces computation cost.

作者刘守群朱明谭晓彬

机构地区中国科学技术大学安徽省网络传播系统与控制重点实验室

出处《小型微型计算机系统》 CSCD 北大核心 2009年第8期1541-1545,共5页 Journal of Chinese Computer Systems

基金国家"八六三"高技术研究发展计划基金项目(2006AA01Z449)资助国家"八六三"高技术研究发展计划基金项目(2008AA01Z408)资助

关键词编辑距离树匹配数据挖掘剪枝 tree edit distance algorithm data mining pruning

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1范莉娅,肖田元.自动获取HTML表格语义层次结构方法[J].清华大学学报（自然科学版）,2007,47(10):1586-1590. 被引量：9
2杨卫东,王清明,施伯乐.针对XML流数据的复杂Twig Pattern查询处理[J].软件学报,2007,18(4):893-904. 被引量：9

二级参考文献9

1高军,杨冬青,唐世渭,王腾蛟.基于树自动机的XPath在XML数据流上的高效执行[J].软件学报,2005,16(2):223-232. 被引量：33
2Yoshida M, Torisawa K, Tsujii J. Extracting attributes and their values from web pages [C]// Antonacopoulos A, Hu Jianying. Web Document Analysis : Challenges and Opportunities. Singapore : World Scientific Publishing, 2003:179 - 200.
3Lim Seungjin, Ng Yiukai. retrieving hierarchical data Proceedings of the Eighth Information and Knowledge ACM, 1999: 466-474. An automated approach for from HTML tables [C] // International Conference on Management. Kansas City:
4LIU Jiexue, AO Zhuoyun, Park H H, et al. An XML approach to semantically extract data from HTML tables [C]// Database and Expert Systems Applications, DEXA 2005, Lecture Notes in Computer Science 3588. Heidelberg: Springer Berlin, 2005:696-705.
5Kim Yeonseok, Lee Kyongho. Extracting table information from the Web [C] // Document Analysis Systems VI. 6th International Workshop, DAS 2004, Lecture Notes in Computer Science 3163, 2004:438 - 441.
6Tanaka M, Ishida T. Ontology extraction from tables on the web [C] // Proceedings of the International Symposium on Applications on Internet in SAINT-06. Washington: IEEE Computer Society, 2006: 284- 290.
7Hsiao Shuling, Chou Shihchun, Chang Luping. Information extraction from HTML tables base on domain ontology [C]// International Conference on Information and Knowledge Engineering-IKE' 03. Las Vegas: CSREA Press, 2003 : 70 - 78.
8LI Shijun, PENG Zhiyong, LIU Mengchi. Extraction and integration information in HTML tables [C] // Fourth International Conference on Computer and Information Technology. Nanjing, China, 2004: 315-320.
9Yoshida M, Torisawa K, Tsujii J. Extracting ontologies from world wide web via HTML tables [C] //Proceedings of the Pacific Association for Computational Linguistics. Kitakyushu, Japan, 2001 : 332 - 341.

共引文献16

1杨卫东,王清明,施伯乐.XML流数据查询结果的缓存管理[J].软件学报,2008,19(8):2080-2088. 被引量：3
2郭红,沈煌.一种复杂XML Twig查询处理算法[J].小型微型计算机系统,2008,29(11):2012-2015. 被引量：3
3金百东.ERP复合查询显示组件设计与实现[J].自动化技术与应用,2008,27(12):59-62.
4李应勇,汪文彬,宋武.XML信息查询优化研究[J].琼州学院学报,2009,16(2):22-24.
5贾长云,程永上.HTML表格向XML的智能转换[J].计算机工程,2009,35(14):32-34. 被引量：3
6杨卫东,施伯乐.XML流管理研究综述[J].计算机研究与发展,2009,46(10):1721-1728. 被引量：8
7曾广朴,陶维安.基于信息量的Web表格信息抽取方法[J].西南师范大学学报（自然科学版）,2010,35(4):159-163. 被引量：2
8江锦华,吴羽,胡天磊,陈刚.基于路径连接的XML复杂小枝模式查询处理[J].浙江大学学报（工学版）,2011,45(1):1-8. 被引量：1
9钱程,阳小兰.HTML到XML转换研究[J].计算机与现代化,2011(8):39-41. 被引量：2
10姚全珠,郭祯,房美君.改进的基于小枝模式的匹配算法——cTwigStack[J].计算机应用,2011,31(10):2782-2785.

同被引文献59

1Crescenzi V, Mecca G, Merialdo P. Wrapping - oriented Classification of Web Pages [ C ]. In : Proceedings of the 2002 ACM Symposium on Applied Computing. New York : ACM Press, 2002 : 1105-1112.
2Crescenzi V, Mecca G, Merialdo P. RoadRunner: Towards Auto-matic Data Extraction from Large Web Sites [ C ]. In : Proceedings of the 27th International Conference on Very Large Data Base. San Francisco, CA, USA : Morgan Kaufman Publishers Inc. , 2001 : 109-118.
3Reis D C, Golgher P B, Silva A S, et al. Automatic Web News Extraction Using Tree Edit Distance [ C ]. In: Proceedings of the 13th International Conference on World Wide Web. New York, NY, USA:ACM,2004:502-511.
4Zheng S Y, Wu D, Song R H, et al. Joint Optimization of Wrapper Generation and Template Detection[ EB/OL]. [ 2009 -11 - 05 ]. http ://www. cse. psu. edu/- shzheng/sigkdd - 2007. pdf.
5Tai K C. The Tree - to - Tree Editing Correction Problem [ J ]. Journal of the ACM, 1979,26(3) :422 -433.
6Yang W. Identifying Syntactic Differences Between Two Programs [ EB/OL]. [2009 - 11 -05 ]. http://eprints, kfupm, edu. sa/ 44597/1/44597. pdf.
7乔少杰唐常杰陈瑜等.基于树编辑距离的层次聚类算法.计算机科学与探索,2007,1(3):282-292.
8Crescenzi V, Mecca G, Merialdo P. Wrapping-oriented Classification of Web Pages E C ]//Proceedings of the2002ACM Symposium on Applied Computing. New York: ACM Press, 2002: 1108-1112.
9Crescenzi V, Mecca G, Merialdo P. RoadRunner : Towards Auto-matic Data Extraction from Large Web Sites [ C ]// Proceedings of the27th International Conference on Very Large Data Base. San Francisco, CA, USA: Morgan Kaufman Publishers Inc. , 2001: 109-118.
10Reis D C, Golgher P B, Silva A S, et al. Automatic Web News Extraction Using Tree Edit Distance [ C ]// Proceedings of the 13th International Conference on World Wide Web. New York, NY, USA: ACM, 2004: 502-511.

引证文献7

1聂卉,黄贵鹏.树编辑距离在Web信息抽取中的应用与实现[J].现代图书情报技术,2010(5):29-34. 被引量：8
2李志义,沈之锐.基于自然标注的网页信息抽取研究[J].情报学报,2013,32(8):853-859. 被引量：3
3黄武冠,朱明,尹文科.基于DOM树和视觉特征的网页信息自动抽取[J].计算机工程,2013,39(10):309-312. 被引量：5
4王海燕,杨鹤标.基于ANTLR的SQL语法分析策略与实现[J].计算机应用与软件,2013,30(11):68-70. 被引量：4
5林菊英.基于关系数据库表的双亲结构树实现及基本运算研究[J].福建电脑,2013,29(12):93-95.
6薛斌,胡建鹏.基于动态检测与静态分析的自动评分方法研究[J].智能计算机与应用,2021,11(8):177-182.
7李志义,沈之锐.基于重复模式识别的网页信息抽取研究[J].情报科学,2019,37(3):88-92. 被引量：6

二级引证文献25

1王浩.彩色图像视觉目标区域轨迹点跟踪方法[J].周口师范学院学报,2020(2):129-133.
2黄亮,赵泽茂,梁兴开.基于编辑距离的Web数据挖掘[J].计算机应用,2012,32(6):1662-1665. 被引量：16
3于亚君,姜瑛.一种XML的树匹配改进方法[J].计算机工程与应用,2012,48(20):177-181. 被引量：4
4李志义,沈之锐.基于自然标注的网页信息抽取研究[J].情报学报,2013,32(8):853-859. 被引量：3
5黄武冠,朱明,尹文科.基于DOM树和视觉特征的网页信息自动抽取[J].计算机工程,2013,39(10):309-312. 被引量：5
6朱毅华,张超群,曾通,吴龙凤,徐玛丽,王东波,李晓晖.基于子树相似度计算的网页评论提取算法研究[J].现代图书情报技术,2013(11):52-59. 被引量：5
7陈媛媛,聂规划,刘平峰,欧阳由.Web文档本体模型与实例析取算法研究[J].情报杂志,2014,33(4):144-147.
8伊政,徐武平,徐爱萍.一种基于结构分析的网页主题区域发现方法[J].计算机工程与应用,2015,51(6):227-230. 被引量：1
9常丽君,钱钢.面向不规则列表的网页数据抽取技术的研究[J].计算机应用研究,2015,32(9):2651-2654. 被引量：1
10何锋,谷锁林,陈彦辉.基于编辑距离相似度的文本校验技术研究与应用[J].飞行器测控学报,2015,34(4):389-394. 被引量：12

1潘小燕,孙承杰,刘远超,王晓龙.半结构化文本中的表格识别技术研究[J].微计算机信息,2008,24(18):198-199. 被引量：1
2陈雄,都云程,李渝勤,施水才.基于页面结构分析的论坛主题信息定位方法研究[J].微计算机信息,2010,26(27):168-170.
3林昌平,郑皎凌.基于DOM规范的网页分析技术研究[J].成都信息工程学院学报,2007,22(z1):113-117. 被引量：2
4孙师尧,妙全兴.基于改进HMM的半结构化文本信息抽取算法研究[J].电子科技,2014,27(10):111-114. 被引量：5
5邵堃,杨春磊,钱立宾,方帅.基于模式匹配的结构化信息抽取[J].模式识别与人工智能,2014,27(8):758-768. 被引量：6
6杨春磊,刘念唐,林雨,邵堃.面向领域的Web文本结构化分析[J].合肥工业大学学报（自然科学版）,2013,36(3):309-314. 被引量：2
7封化民,刘飚,刘艳敏,方勇,宋国森.含有位置坐标树的Web页面分析和内容提取框架[J].清华大学学报（自然科学版）,2005,45(S1):1767-1771. 被引量：8
8曹进军.基于PATTree的半结构化文本信息抽取范式研究[J].情报杂志,2007,26(7):55-58. 被引量：2
9刘艳敏,刘飚,封化民,宋国森,方勇.Web页面主题信息抽取研究与实现[J].计算机工程与应用,2006,42(21):146-148. 被引量：11
10戚前方,张俊卿,宋秋红.Internet信息处理技术[J].中国民航学院学报,2004,22(B06):163-167.

小型微型计算机系统

2009年第8期

浏览历史

内容加载中请稍等...

一种基于树匹配的网页语义块挖掘算法被引量：7

参考文献2

二级参考文献9

共引文献16

同被引文献59

引证文献7

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

一种基于树匹配的网页语义块挖掘算法 被引量：7

参考文献2

二级参考文献9

共引文献16

同被引文献59

引证文献7

二级引证文献25

相关作者

相关机构

相关主题

浏览历史

一种基于树匹配的网页语义块挖掘算法被引量：7