一种自动抽取Web信息方法的设计与实现被引量：3

Design and Implementation of an Automatic Web Extraction Method

下载PDF

导出

摘要针对目前Web信息抽取技术实现复杂、维护困难以及抽取速度慢的问题,本文根据Web页面的特点,提出一种新的Web抽取策略。此策略在处理Web页面时降低了处理Web页面的结构的复杂性,提高了Web信息抽取的速度。并根据策略建立了该Web信息自动抽取方法的模型,此模型首先分析页面的结构,根据结构快速生成抽取规则,构建规则库;并对页面抽取的内容进行分析,构建资源库。基于此模型的方法能自主学习,实现自动抽取,这在很大程度上减少了人工参与,并能获得比较好的抽取结果。 Aiming at the complex implementation, the maintenance of difficult and slow extraction of the Web information extraction technology at present, according to the features of Web pages, a new Web extraction strategy is proposed. When you deal with the Web pages, the strategy can reduce the complexity of the structure, and then the speed of Web information extraction in- creases. Based on the strategy a Web information extraction model is given. Using this model, the needed information can be extracted, at the same time the structure of Web pages is summarized and the rules are generated quickly, then the Rules Library is set up. And the page contents which have been extracted are analyzed, and then resources library is constructed. The model which based on the method has the ability to learn by itself and extracts the information automatically, and also it can reduce the artificial participation in a large degree, so the extracted result is relatively good.

作者胡国晴李建华

机构地区中南大学信息科学与工程学院

出处《计算机与现代化》 2009年第1期38-40,48,共4页 Computer and Modernization

关键词 WEB信息抽取 Web抽取策略自主学习抽取规则 Web information extraction Web extraction strategy autonomous learning extraction rule

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献8

1Cohen W, Hurst M, Jensen L. A flexible learning system for wrapping tables and lists in HTML documents [ C ]//Proceedings of the Eleventh International World Wide Web Conference. 2002:232-241.
2贡正仙,朱巧明,李培峰.基于相似页面的Web信息抽取系统的实现[J].计算机应用,2006,26(8):1983-1986. 被引量：3
3Blei D, Bagnell J, McCal-lumA. Learning with scope, with application to information extraction and classification[ C ]// Proceedings of the Eighteenth Conference on Uncertainty in Artificial Intellig-ence. 2002:53-60.
4Wong T L,Lam W. A probabilistic approach for adapting wrapper and discovering new attributes [ C ]// Proceedings of the Fourth IEEE International Conference on Data Mining. 2004:257-264.
5Crescenzi V, Mecca G, Merialdo P. ROADRUNNER: Towards automatic data extraction from large Web sites [ C ]// Proceedings of the 27th Very Large Databases Conference. 2001:317-328.
6王亮,朱征宇.基于扩展标记图的Web信息抽取器[J].计算机工程,2005,31(8):159-161. 被引量：2
7Laender H F, Ribeim-Neto B A, da Silva A S, et al. A brief survey of Web data extraction tools[ J]. SIGMOD Record,2002,31 (2) : 84-93.
8陆剑江,钱培德.基于语料的Web页面抽取器的研究与实现[J].计算机工程,2003,29(6):34-35. 被引量：4

二级参考文献16

1李文奇,张忠能.页面包装器自动生成的改进算法[J].计算机工程与应用,2004,40(22):113-115. 被引量：3
2张志刚,陈静,李晓明.一种HTML网页净化方法[J].情报学报,2004,23(4):387-393. 被引量：57
3常育红,姜哲,朱小燕.基于标记树表示方法的页面结构分析[J].计算机工程与应用,2004,40(16):129-132. 被引量：24
4王茹,宋瀚涛,陆玉昌.网页数据自动抽取系统[J].计算机工程与应用,2004,40(19):135-138. 被引量：8
5朱征宇,王亮,赵银春,程代杰.基于扩展标记图的网页信息重组技术[J].计算机科学,2004,31(5):56-60. 被引量：3
6Char1esFG Pau1P 张利译.XML实用技术[M].北京：清华大学出版社,1999..
7HTML Tidy. http://www.w3.org/MarkUp/#tidy.
8NEWSBOT[EB/OL].http://newsbot.msnbc.msn.com/about.aspx,2005.
9CRESCENZI V,MECCA G.RoadRunner:Towards Automatic Data Extraction from large Web Sites[A].Proceedings of the 27th VLDB Conference[C].2001.
10REIS DC,GOLGHER PB,SILVA AS,et al.Automatic Web news extraction using tree edit distance[A].Proceedings of the 13th International Conference on WWW2004[C].2004.504-505.

共引文献6

1黄永文,李广建.数字图书馆中的ETL应用研究综述[J].现代图书情报技术,2007(12):1-5. 被引量：6
2王锟.WEB文档信息抽取方法研究[J].福建电脑,2008,24(3):133-133. 被引量：1
3霍滨焱.最小节点信息树抽取规则及可视化生成方法[J].应用科技,2009,36(7):37-40.
4殷妮哿.Internet中的多媒体快速查询[J].电脑开发与应用,2009,22(9):30-32.
5黄锋,吴华瑞.一种自适应的Web信息抽取规则自动生成方法[J].广西师范大学学报（自然科学版）,2010,28(1):127-130. 被引量：5
6李健,马延周.支持DOM模板可视化配置的网页抽取方法[J].现代计算机,2018,24(7):56-60. 被引量：4

同被引文献14

1杨秀波,李延红.在线作业管理系统关键功能设计[J].中山大学学报（自然科学版）,2002,41(z1):80-84. 被引量：17
2谭莹宇,李亦明,罗响.ASP.NET的网站新闻管理系统设计与实现[J].计算机与现代化,2006(10):66-68. 被引量：6
3卓流艺,李晓霞,郭力.XML技术在化学深层网数据提取中的应用[J].计算机与应用化学,2006,23(11):1137-1141. 被引量：9
4卢成均.通用集中式文档管理系统的设计与实现[J].计算机工程与设计,2006,27(24):4792-4796. 被引量：3
5Stephen Walther.ASP.NET技术内幕[M].马朝晖译.北京:机械工业出版社,2002:8.
6Boneh D, Franklin M. Identity-based encryption from tile well pairing[ C ]//Advances in Cryptology, CRYPTO 2001, Lecture Notes in Computer Science,2001,2139:213-229.
7李继攀,黄国平.VisualC#2008开发技术实例说解[M].北京:电子工业出版社,2008:497-509.
8Michael K.Bergvan. The Deep Web: Surfacing Hidden Value. Accessible at http://brightplanet.com,July 2000.
9张海藩.软件工程导论[M].北京:清华大学出版社,2012.
10明日科技.C#开发经验技巧宝典[M].北京人民邮电出版社,2012,(9) 36-38.

引证文献3

1石俊萍,李必云.基于用户自定义结构的电子档案管理系统设计与实现[J].计算机与现代化,2010(2):127-129. 被引量：7
2韩晓娟,许南山.化学和化工深层网信息挖掘技术的研究与应用[J].微计算机信息,2010,26(9):151-153.
3颜春华.电子档案管理系统设计及其功能实现[J].中国电子商务,2014,0(21):59-59. 被引量：4

二级引证文献11

1张广军,张照杰,吴红梅,李娜,刘文照.宁津县国土数字档案管理信息系统的设计与实现[J].测绘与空间地理信息,2012,35(4):67-72. 被引量：1
2吴蓉蓉.电子档案管理的发展及普及探析[J].黑龙江科技信息,2010(28):115-115. 被引量：9
3李卫灵,郭峰,张作刚,张素琴.电子文档管理系统的设计与实现[J].计算机与现代化,2011(10):181-182. 被引量：4
4李琦,陈晨.集成化国土数字档案管理系统的研究与实现[J].科技信息,2012(35).
5孟蓉.试论电子档案管理系统设计及其功能实现[J].低碳世界,2015,0(6):301-302. 被引量：2
6金雷.刍议从结构的角度透析电子档案[J].办公室业务,2013(5X):145-145.
7何海锋.电子档案管理系统设计及其功能实现研究[J].中国管理信息化,2016,19(8):176-177. 被引量：8
8魏燕.电子文件档案管理系统设计与实现[J].湖北函授大学学报,2017,30(3):154-155. 被引量：5
9原方圆,马书南,雷伟,邬俊.高安全性数字化档案管理系统的设计与实现[J].软件,2018,39(7):98-102. 被引量：13
10曹蕾.医院基建档案系统的设计与分析[J].信息与电脑,2018,30(6):68-69.

1张驰,罗森林.网页内容安全快速信息抽取方法[J].信息网络安全,2012(10):20-22. 被引量：6
2张维化,杨国林.数据挖掘技术在数据抽取中的研究与应用[J].内蒙古师范大学学报（自然科学汉文版）,2008,37(4):523-525. 被引量：2
3李祯盛,何振峰.基于主成分分析的时间序列Shapelet提取方法[J].计算机系统应用,2014,23(11):145-149. 被引量：5
4葛华,李香云.基于SQL Server存储过程组卷算法设计[J].信息技术,2009,33(6):15-17. 被引量：1
5李向阳,戴江山,张亚非.一种Web信息抽取规则的优化方法[J].兰州理工大学学报,2006,32(1):90-93. 被引量：3
6董立奇.Internet智能信息检索技术研究[J].商丘职业技术学院学报,2007,6(2):49-51. 被引量：3
7高峰,付忠良.基于改进移动立方体的医学图像三维重建算法[J].计算机应用,2013,33(A01):201-203. 被引量：8
8许小媛.基于EMPCA和RBF神经网络的人脸识别[J].科技传播,2011,3(19):202-203. 被引量：1
9詹英,吴春明,王宝军.一种与缓冲区紧耦合的环形循环滑动窗口的数据流抽取算法[J].电子学报,2011,39(4):894-898. 被引量：10
10苏晓丹,周刚,陈海勇,丁宣宣.开放域事件触发词抽取技术研究[J].通信技术,2017,50(1):24-29. 被引量：1

计算机与现代化

2009年第1期

浏览历史

内容加载中请稍等...

一种自动抽取Web信息方法的设计与实现被引量：3

参考文献8

二级参考文献16

共引文献6

同被引文献14

引证文献3

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

一种自动抽取Web信息方法的设计与实现 被引量：3

参考文献8

二级参考文献16

共引文献6

同被引文献14

引证文献3

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

一种自动抽取Web信息方法的设计与实现被引量：3