Web网页中动态数据区域的识别与抽取被引量：8

Dynamical Data Regions Identification and Extraction in Web Pages

下载PDF

导出

摘要采用基于HTML标记树的数据块查找方法挖掘Web网页中的数据区域,在此基础上结合网页聚类和跨网页数据区域匹配自动识别一个网页中的动态数据区域。实验结果表明,该方法能够提高Web网页中动态数据区域识别的召回率和准确率。 This paper presents an improved approach for finding data blocks in the HTML tag tree to mine the data regions embedded in a Web page. A policy of combining the Web page clustering and cross-page data region analysis is proposed to identify the dynamical Web data regions. Experimental results show the effectiveness of given approach.

作者黄健斌姬红兵孙鹤立

机构地区西安电子科技大学电子工程学院西安交通大学计算机科学与技术系

出处《计算机工程》 CAS CSCD 北大核心 2007年第11期53-55,58,共4页 Computer Engineering

基金西安电子科技大学博士生创新基金资助项目(A06047)

关键词 Web数据区域抽取动态数据区域识别跨网页分析 Web data regions extraction Dynamical data regions identification Cross-page analysis

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1陈琼,苏文健.基于网页结构树的Web信息抽取方法[J].计算机工程,2005,31(20):54-55. 被引量：24
2Lin S H,Ho J M.Discovering Informative Content Blocks from Web Documents[C]//Proceedings of the 8^th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining.2002:588-593.
3Valiente G.Tree Edit Distance and Common Subtrees[R].Universitat Politecica de Catalunya,Barcelona,Spain,Research Report LSI-02-20-R,2002.
4Wang J Y,Lochovsky F.Data-rich Section Extraction from HTML Pages[C]//Proceedings of the 3^rd International Conference on Web Information Systems and Engineering.2002:313-322.
5Zhai Y,Liu B.Web Data Extraction Based on Partial Tree Alignment[C]//Proceedings of the 14^th International World Wide Web Conference.2005:76-85.

二级参考文献5

1Laender H F, Ribeiro-Neto B A, A S da Silva, et al.A Brief Survey of Web Data Extraction Tools.SIGMOD Record, 2002, 31(2): 84-93
2Sahuguet A, Azavan F.Building Intelligent Web Applications Using Lightweight Wrappers.Data and Knowledge Engineering, 2001,36 (3), 283-316
3Crescenzi V, Mecca G, Merialdo P.RoadRunner: Towards Automatic Data Extraction from Large Web Sites.Rome, Italy: In: Proceeding of the 26th International Conference on Very Large Database Systems, 2001:109-118
4Liu L, Pu C, Han W.XWRAP: An XML-enable Wrapper Construction System for Web Information Sources.San Diego, California: In: Proceedings of the 16th IEEE International Conference on Data Engineering, 2000: 611-621
5李晶,陈恩红.Web信息抽取[J].计算机科学,2003,30(6):78-81. 被引量：17

共引文献23

1宋明秋,张瑞雪.基于HTML树的网页结构相似度研究[J].情报学报,2011,30(2):160-165. 被引量：2
2赵洋,马建斌,刘博,王春山.基于Internet的农业信息资源采集系统[J].农机化研究,2008,30(10):139-141.
3陈圣俭,孙明涛.基于B/S架构的Web网页结构检测应用研究[J].现代电子技术,2009,32(2):135-138. 被引量：2
4胡国晴,李建华.一种基于可信度分析的Web页面新属性发现方法[J].计算机技术与发展,2009,19(1):56-59. 被引量：3
5任玉,樊勇,郑家恒.基于分块的网页主题文本抽取[J].广西师范大学学报（自然科学版）,2009,27(1):141-144. 被引量：5
6谭鹏许,张来顺,滕婕.基于DTA的信息抽取技术研究[J].计算机应用与软件,2009,26(12):228-230.
7谭鹏许,谭晓贞,张来顺.基于无秩树自动机的信息抽取技术研究[J].计算机工程与设计,2009,30(23):5506-5509. 被引量：1
8赵刚,郭东伟,李丹.基于序列比对的动态Web信息抽取算法[J].吉林大学学报（理学版）,2010,48(3):421-426.
9王毅.基于web的信息抽取方法研究[J].科技与生活,2010(13):11-11.
10王楠.一种实现Web数据到XML文档的转换算法[J].大连海事大学学报,2010,36(3):76-78.

同被引文献56

1欧健文,董守斌,蔡斌.模板化网页主题信息的提取方法[J].清华大学学报（自然科学版）,2005,45(S1):1743-1747. 被引量：70
2王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
3吴扬扬,陈锻生.识别和抽取Web列表中的关系信息[J].计算机科学,2004,31(6):86-88. 被引量：3
4王睿,张能立,万歆.一种基于JFree Chart的Web统计图表[J].微机发展,2005,15(3):117-120. 被引量：15
5陈琼,苏文健.基于网页结构树的Web信息抽取方法[J].计算机工程,2005,31(20):54-55. 被引量：24
6王敬普,林亚平,周顺先,岳文.基于包装器模型的文本信息抽取[J].计算机应用,2006,26(3):655-658. 被引量：8
7刘琰,罗军勇,王清贤,常斌.Internet信息采集技术研究[J].计算机应用与软件,2006,23(4):13-16. 被引量：1
8刘艳敏,刘飚,封化民,宋国森,方勇.Web页面主题信息抽取研究与实现[J].计算机工程与应用,2006,42(21):146-148. 被引量：11
9梁海燕,赵嵩正.基于JSP技术工程项目甘特图的设计与实现[J].计算机应用与软件,2006,23(8):43-44. 被引量：12
10王治和.表格信息抽取引擎的设计与实现[J].计算机科学,2006,33(10):126-127. 被引量：4

引证文献8

1赵洋,马建斌,刘博,王春山.基于Internet的农业信息资源采集系统[J].农机化研究,2008,30(10):139-141.
2李宏伟,张志远.Web实体提取在垂直搜索中的应用研究[J].新技术新工艺,2008(12):62-65.
3王燕,吴灏,毛天宇.基于K-中心点聚类算法的论坛信息识别技术研究[J].计算机工程与设计,2009,30(1):210-212. 被引量：3
4王利,刘宗田,王燕华,廖涛.基于内容相似度的网页正文提取[J].计算机工程,2010,36(6):102-104. 被引量：20
5缪霖,邱会中.Web页面自顶向下的正文信息定位算法[J].计算机工程,2010,36(13):76-78. 被引量：2
6王存昕,蒋文蓉.针对淘宝商家客户管理系统的研究与开发[J].上海第二工业大学学报,2011,28(2):165-170. 被引量：2
7孔燕燕,施化吉.基于相似URL的深层网数据区域识别[J].计算机工程,2012,38(2):48-50. 被引量：1
8王宇龙,赖华,余正涛,洪旭东,刘书龙.融合结构和内容特征提取多类型网页文本要素[J].山西大学学报（自然科学版）,2016,39(3):386-391. 被引量：1

二级引证文献28

1何忠秀,王霜,安礼成.基于向量空间的网页内容相似度计算方法研究[J].计算机与现代化,2010(9):53-55. 被引量：4
2陆余良,郭浩.Web安全测试中URL参数重写检测框架[J].计算机工程,2010,36(23):133-135. 被引量：3
3张晓宇,吴向前,张平洋.农业网站中垃圾网页过滤方法的研究[J].网络安全技术与应用,2011(1):55-57. 被引量：2
4夏天.基于扩展标记树的网页正文抽取[J].广西师范大学学报（自然科学版）,2011,29(1):133-137. 被引量：2
5夏天.Web数据的深度定向采集[J].山东大学学报（理学版）,2011,46(5):34-38. 被引量：1
6杨文涛,赵娟,南凯.一种文献元数据搜索与共享系统[J].计算机工程,2011,37(23):37-39.
7梁正友,欧杰,俞闽敏.基于图文有效信息量的网页正文定位[J].计算机工程,2011,37(23):276-278. 被引量：2
8蔡李,单艳,薛化建,苏国平.维吾尔文网页正文抽取系统的研究与实现[J].计算机工程与设计,2012,33(2):551-555. 被引量：3
9卢修配,齐向伟,艾斯卡尔.维吾尔文网络舆情研究现状及几个关键问题[J].新疆师范大学学报（自然科学版）,2012,31(2):86-88. 被引量：5
10仲兆满,李存华,刘宗田,戴红伟.面向Web新闻的事件多要素检索方法[J].软件学报,2013,24(10):2366-2378. 被引量：11

1吴多智,陈益全.响应式网页设计案例实现与分析[J].安徽电子信息职业技术学院学报,2016,15(2):14-17. 被引量：7
2赵强.主题爬虫的关键技术[J].现代计算机,2014,20(2):19-22.
3林昌平,郑皎凌.基于DOM规范的网页分析技术研究[J].成都信息工程学院学报,2007,22(z1):113-117. 被引量：2
4毛莉娜,唐林燕,王晓军.基于网页分析的可视化系统[J].广东技术师范学院学报,2015,36(11):34-38.
5王伟.网络数据采集[J].电子制作,2014,22(6X):173-174. 被引量：1
6李斌.IP变更提示器的设计与实现[J].电脑编程技巧与维护,2012(15):74-75.
7朱家稷 ,闫宏飞 .一种Web多维分析模型及应用[J].情报学报,2004,23(5):553-560. 被引量：1
8李昌清,李艳霞,李胜利,王剑.基于动态异构的Web信息集成网页分析方法[J].计算机应用研究,2007,24(12):204-206. 被引量：7
9张俊玲,耿光刚,延志伟,李晓东.基于网页信息和分词的中文机构名全称和简称提取方法[J].计算机应用研究,2017,34(4):972-976. 被引量：3
10李卫东,王井阳,王瑞江.基于三大检索的科技文献统计分析系统的设计与实现[J].河北省科学院学报,2009,26(2):14-18.

计算机工程

2007年第11期

浏览历史

内容加载中请稍等...

Web网页中动态数据区域的识别与抽取被引量：8

参考文献5

二级参考文献5

共引文献23

同被引文献56

引证文献8

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

Web网页中动态数据区域的识别与抽取 被引量：8

参考文献5

二级参考文献5

共引文献23

同被引文献56

引证文献8

二级引证文献28

相关作者

相关机构

相关主题

浏览历史

Web网页中动态数据区域的识别与抽取被引量：8