一种基于自动WEB数据抽取生成黄页的方法

An Generate Business Yellow Page Method based on Web Automatic Text Extraction

下载PDF

导出

摘要利用蜘蛛技术爬取相关行业网站的数据。通过基于一种基于新的定位与模式匹配抽取WEB数据的方法,将得到的数据分类后以XML文件保存;通过相应的信息处理、表现技术对分类后的行业URL地址进行展现。最后以林业行业网址的获取和黄页的生成为例进行了实现。 This paper mainly refers to make use of spiders crawling technology get industry website URL address。 Firstly extract web text base on location and pattern matching methods, then data will be classified ; by the information processing, performance technology industries classified URL address to show. Finally, the forestry Yellow Pages web site for the generation implemented as an example.

作者扬抒陈尚安武刚

机构地区北京林业大学信息学院新疆农业大学计算机与信息工程学院

出处《微计算机信息》 2010年第33期14-16,共3页 Control & Automation

关键词行业黄页 WEB信息抽取模式匹配抽取规则 Business Yellow Pages Web Text Extraction Pattern Matching Extraction Rules

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1李伟超,王兰敬.论搜索引擎的工作机制和发展趋势[J].现代情报,2002,22(12):107-108. 被引量：5
2http://zhidao.baidu.com/question/44036338.html.
3方胜华,王俊杰,唐海萍.个性化需求与图书馆信息服务模式探讨[J].情报杂志,2004,23(8):40-41. 被引量：32
4Garcia-Molina H , Hammer J , Ireland K, et al. Integrating and Accessing Heterogeneous Information Sources in TSIMMIS [ C]// Proceedings of the AAAI Symposium on Information Gathering. San Francisco:Stanford,1995: 61-64.
5ARANAUDS,FABIEN A. Building light-weight wrappers for legacy Web data-sources using W4F [C] //Proceedings of 25th VLDB Conference. Scotland:Edinburgh,1999:738-741.
6陈鹏,刘烈宏.深度web资源搜索关键技术[J].北京航空航天大学学报,2009,35(1):13-17. 被引量：6
7杨少华,林海略,韩燕波.针对模板生成网页的一种数据自动抽取方法(英文)[J].软件学报,2008,19(2):209-223. 被引量：45
8Liger F,Queen C M,Wilton P.C#字符串和正则表达式参考手册[M].刘乐亭,译.北京:清华大学出版社,2003.
9潘红,常青.基于Ajax的服装企业管理信息系统的设计[J].微计算机信息,2009,25(21):235-236. 被引量：2

二级参考文献35

1杨琨,孙平.MyLibrary:个性化图书馆的实现[J].情报资料工作,2003,24(3):25-28. 被引量：34
2游丽贞,郭宇春,李纯喜.Ajax引擎的原理和应用[J].微计算机信息,2006,22(02X):205-207. 被引量：154
3王星,潘郁.基于AJAX技术的Web模型在网站开发中的应用研究[J].微计算机信息,2006,22(09X):206-207. 被引量：50
4Chang K C C, He B, Li C, et al. Structured databases on the web : observations and implications[ J]. Sigmod Record, 2004, 33(3) :61 -70.
5Chen Peng, Li Tao, Wei Kun, et al. Research on automatic discovery of deep web [ J ]. Compute Science, 2007,34 ( 11A ) : 32 -35.
6Chen Peng, Su Liliang, Wei Kun, et al. Towards automatic discovery of deep web based on machine learning [ J ]. Journal of Computational Information Systems ,2007,3 ( 3 ) : 1033 - 1042.
7Chang K C C,He B,Zhang Z. Toward large-scale integration: building a metaquerier over databases on the web [ J ]. CIDR 2005 : 44 - 55.
8Chang C H,Kayed M, Girgis M R, et al. A survey of web information extraction systems[ J]. IEEE Transacitons on Knowledge and Data Engineering, 2006,18(10) :1411 -1428.
9B-S 软件超越C-S软件的优势在哪里.http://www.hur.cn.2006.4.
10陈天河等编著.Struts,Hibemate,Spring集成开发宝典.北京:电子工业出版社,2006-1.

共引文献90

1景卫红.数字图书馆个性化信息服务研究[J].图书情报工作,2010,54(S1):160-161. 被引量：2
2柳婷.网络蜘蛛的简单设计与研究[J].大众商务,2010(16):189-189.
3王小云.基于知识服务过程中的分类研究[J].现代情报,2004,24(7):187-189. 被引量：1
4王培凤.浅议网络环境下图书馆的个性化信息服务[J].科技情报开发与经济,2005,15(4):3-5. 被引量：8
5赵靖,王侨文,管马周,单传佳.自动提取布局结构相似网页的结构化信息[J].安徽科技学院学报,2010,24(6):37-42. 被引量：1
6魏力更.高校网络用户信息需求与信息行为研究[J].情报资料工作,2005,26(5):103-105. 被引量：58
7张建民.图书馆信息服务用户分析[J].图书馆论坛,2005,25(6):231-232. 被引量：2
8彭敏.基于网络的图书馆个性化信息服务[J].情报探索,2006(2):88-90. 被引量：17
9曹志梅.图书馆个性化信息服务模式研究[J].中国图书馆学报,2006,32(2):79-81. 被引量：32
10刘惠萍.终身学习时代信息从业者的知识素质要求[J].图书馆论坛,2006,26(3):75-77. 被引量：4

1腾讯TM免费短信延长至7月1日[J].新电脑,2004(4):247-247.
2野外林火数字监控系统[J].森林防火,2008(4):49-49.
3野外林火数字监控系统[J].森林防火,2006(2).
4冷天熙,年顺龙.基于CMS的林业行业门户网站建设方法[J].林业调查规划,2014,39(6):115-118.
5赤峰市实现数字林业[J].测绘信息与工程,2008,33(4):15-15.
6王洪斌.略谈CorelDRAW在林业制图上的应用[J].安徽林业科技,2008,34(1):33-34. 被引量：2
7辛峰,刘常玲.“数字林业”研究概述及前景展望[J].河北林业科技,2005(6):39-40. 被引量：3
8陈烨.信息化时代下的网络舆情监管[J].新疆林业,2014,0(6):12-13.
9谢阳生,黄水生,唐小明.面向林业应用的GIS组件库分析与设计[J].林业实用技术,2010(7):60-62.

微计算机信息

2010年第33期

浏览历史

内容加载中请稍等...

一种基于自动WEB数据抽取生成黄页的方法

参考文献9

二级参考文献35

共引文献90

相关作者

相关机构

相关主题

浏览历史