自动抽取web数据的树对齐算法

Automatic web data extraction based on tree alignment

下载PDF

导出

摘要针对从模板生成的网页中自动抽取web数据的问题,提出了一种新的树对齐算法.该算法能够确定输入网页的最大匹配结构.经过一系列的对齐操作之后,多棵树被合并成为一棵记录着合并前多个网页上的统计信息的合并树,树对齐算法可以发现合并树中的重复模式,在最可能内容块上构建包装器,并按照重复模式从网页上抽取数据.实验结果表明,该算法的抽取结果具有较高的准确性和良好的稳定性. This paper proposed a new tree alignment algorithm for determining the optimal matching structure of the input web pages, in order to extract web data automatically. Based on the alignment, the trees were merged into one union tree whose nodes record statistical information obtained from multiple web pages. The algorithm detects repeating patterns on the union tree, and a wrapper built on the most probable content block and the repeating patterns extracts data from web pages. Experimental results showed that the proposed algorithm achieves high extraction accuracy and has steady performance.

作者景寒星陈少红俞琨

机构地区华东师范大学计算中心

出处《华东师范大学学报（自然科学版）》 CAS CSCD 北大核心 2010年第5期96-102,共7页 Journal of East China Normal University(Natural Science)

关键词数据抽取包装器树对齐 data extraction wrapper tree alignment

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1刘兵.Web数据挖掘[M].北京:清华大学出版社,2009.
2CHANG C H,KAYED M,GIRGIS M R,et al.A survey of web information extraction systems[J].IEEE Transactions on Knowledge and Data Engineering,2006,18(10):1411-1428.
3徐云风,蒋文蓉.Web页面信息抽取的分析与研究[C]//第十一届中国Java技术及应用交流大会文集.北京:[出版者不详]:2008.
4CRESCENZI V,MECCA G,MERIALDO P.Roadrunner:Towards automatic data extraction from large web.sites[C]// Proc of the 26th Intl Conference on Very Large Database Systems.Rome:[s.n.],2001:109-118.
5ARASU A,HECTOR G M.Extracting structured data from web pages[CJ// Proc of the 2003 ACM SIGMOD Intl Conference on Management of Data.San Diego:[s.n.],2003:337-348.?.
6ZHAI Y,LIU B.Web data extraction based on partial tree alignment[C]// Proc of the 14th Intl World Wide Web Conference(WWW'05).Chiba:[s.n.],2005:76-85.
7ZIGORIS P,EADS D,ZHANG Y.Unsupervised learning of tree alignment models for information extraction[C]// Proc of the 6th IEEE Intl Conference on Data Mining-Workshops.Hong Kong:[s.n.],2006:45-49.
8REIS D C,GOLGHER P B,SILVA A S,et al.Automatic web news extraction using tree edit distance[C]//Proc of the 13th Intl Conference on World Wide Web.New York:[s.n.],2004:502-511.
9韩家炜.数据挖掘:概念与技术[M].北京:机械工业出版社,2007:188-198.

共引文献44

1龙青云,胡巧多.基于决策树挖掘算法的智能型会员营销[J].计算机与现代化,2007(8):29-32.
2龙青云,胡巧多.商务智能的框架及其关键技术分析[J].商场现代化,2007(11S):77-78. 被引量：3
3袁新昌,陈建中.商务智能技术在社保领域的应用研究[J].计算机与现代化,2009(6):171-174. 被引量：6
4胡新平.医疗数据挖掘中的隐私保护[J].医学信息学杂志,2009,30(8):1-4. 被引量：5
5王康,颜雪松,金建,占志刚.一种改进的遗传K-均值聚类算法[J].计算机与数字工程,2010,38(1):18-20. 被引量：12
6窦玉萌.基于网络协作标注的标签消歧方法述评[J].现代图书情报技术,2010(3):27-32. 被引量：5
7金珏.一种面向电子商务的Web数据挖掘模型[J].软件工程师,2010(7):58-60. 被引量：1
8刘亦君.基于无线路由器的广告发布系统的设计与实现[J].科技广场,2010(7):114-116.
9詹国华,韦伟.一种Web自适应界面的设计方法[J].杭州师范大学学报（自然科学版）,2011,10(2):163-167. 被引量：2
10夏天.基于扩展标记树的网页正文抽取[J].广西师范大学学报（自然科学版）,2011,29(1):133-137. 被引量：2

1侯秀红,郜方方.基于内容的发布订阅系统综述[J].电脑开发与应用,2014,27(10):10-13. 被引量：2
2李达,潘志斌,李敬源,高峰,贺菲菲.基于一维相位相关的改进图像三维重建算法![J].微电子学与计算机,2013,30(1):73-76. 被引量：2
3游素亚,柳健,彭复员,万发贯.一种基于小波变换的多分辨率立体匹配算法[J].华中理工大学学报,1994,22(5):89-94.
4陈益新,陈思培,张桂林.一种实时并行图象匹配结构的设计[J].数据采集与处理,1995,10(3):187-191. 被引量：1
5张圣栋,沈锐.发布/订阅系统中基于属性分组的匹配结构[J].计算机工程,2011,37(23):8-9. 被引量：2
6王奇敏,李训根,赵海斌.基于FPGA的正则表达式匹配引擎设计[J].电子世界,2013(1):119-121.
7孙松涛,何炎祥,蔡瑞,李飞,贺飞艳.面向微博情感评测任务的多方法对比研究[J].山东大学学报（理学版）,2014,49(11):43-50.
8余武荣,周军,周源华.采用小波变换的立体匹配:一种基于相位的方法[J].信号处理,1999,15(4):321-324. 被引量：1
9吴正洋,李吉桂.基于OWL-S的三层服务匹配模型[J].计算机工程,2006,32(16):261-263. 被引量：2
10张伟,薛一波,嵩天.支持多正则表达式匹配的硬件结构[J].清华大学学报（自然科学版）,2009(10):1704-1707. 被引量：5

华东师范大学学报（自然科学版）

2010年第5期

浏览历史

内容加载中请稍等...

自动抽取web数据的树对齐算法

参考文献9

共引文献44

相关作者

相关机构

相关主题

浏览历史