基于HTMLParser的Web信息抽取系统的设计与实现被引量：8

Design and Implementation of Web Information Extraction System Based on HTMLParser

下载PDF

导出

摘要互联网上信息量的激增,迫切需要一些自动化的工具帮助人们在海量信息源中迅速找到真正需要的信息,如标题、链接e、mail和图片等,而HTML语言所表述的Web页面经浏览器分析后只适合浏览,不适合作为一种数据交换的方式由机器处理。介绍了HTMLParser的原理和java正则表达式相关知识,基于HTMLParser包和正则表达式。以提取网站内部email信息为例,提出了Web信息抽取系统设计方案,阐述了email信息抽取的工作原理和关键技术,给出了email抽取算法,并详细介绍了系统的抽取URL、email和存储模块,抽取结果保存于数据库中,供机器检索利用。 The rapid growth of the Web contents increasers the need for some automatic tools to help to find the exact information among the magnanimous information sources such as titles, links, emails, pictures etc. The Web pages expressed by HTML, after analyzed by Internet Explorer, are suitable for browse, but not for machine processing as the way of data exchange. The principle of HTMLParser and related knowledge of regular expression, package HTMLParser and regular expression were introduced. Taking extracting email information inside websites as an example, the scheme of design was proposed. The principle of email extraction and key technique were presented. The algorithm of email extraction was given. URL extraction module, email extraction module and storage module were described in detail. The result of extraction is stored in database for the use of data retrieval.

作者李彦刚魏海平侯兴华

机构地区辽宁石油化工大学计算机与通信工程学院

出处《辽宁石油化工大学学报》 CAS 2006年第2期83-86,共4页 Journal of Liaoning Petrochemical University

关键词信息抽取正则表达式 HTMLParser包 JAVA Information extraction Regular expression Package HTMLParser Java

分类号 TP311.1 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献9

1朱炜,王超,李俊,潘金贵.Web超链分析算法研究[J].计算机科学,2003,30(9):89-93. 被引量：20
2李保利,陈玉忠,俞士汶.信息抽取研究综述[J].计算机工程与应用,2003,39(10):1-5. 被引量：177
3许建潮,侯锟.Web信息的自主抽取方法[J].计算机工程与应用,2005,41(14):185-189. 被引量：15
4Horstmann C S．Java2核心技术[M]．第5版．北京：机械工业出版社,2001．
5曾春,邢春晓,周立柱.基于内容过滤的个性化搜索算法[J].软件学报,2003,14(5):999-1004. 被引量：118
6CHANG Chia- hui, HSU Chun- nan, LUI Shao cheng. Automatic information extraction from semi-structured Web pages by pattern discovery[ J ]. Decision support systems,2003,35 ( 1 ) : 129-147.
7Brin S, Page L. The anatomy of a large-scale hypertextual Web search engine[J ]. Computer networks and ISDN systems,1998,30( 1 ): 107 - 117.
8王自军,崔朝辉,刘恩,李志刚,程小茁.Web技术在股票查询系统中的应用及Java实现[J].石油化工高等学校学报,2000,13(3):78-80. 被引量：4
9郭志红.基于Web资源的信息抽取技术[J].情报科学,2002,20(12):1282-1284. 被引量：9

二级参考文献62

1[1]Nicholas Kushmerick. Wrapper induction: Efficiency and expressiveness. Artifical Intelligence 118 (2000): 15～68
2[2]Ling Liu, Calton Pu, Wei Han. An XML-enabled data extraction toolkit for web sources. Information Systems 26 (2001): 563～583
3[3]Armaud Sahuguet, Fabien Azavant. Building intelligent Web applications using lightweight wrappers. Data & knowledge Engineering 36 (2001): 283～286
4[16]Hobbs J,Appelt D,Bear J et al.FASTUS:A Cascaded Finite-State Transducer for Extracting Information from Natural-Language Text[C].In:Roche,Schabes eds. Finite State Devices for Natural Language Processing, MIT Press,Cambridge MA, 1996
5[17]Appelt D E.Introduction to Information Extraction[J].AI COMMUNICATIONS, 1999; 12(3)
6[18]Yangarber R.Scenario Customization for Information Extraction[D].Ph D Thesis.New York University,2001-01
7[19]Cowie J, Lehnert W.Information Extraction[J].Communications of the ACM, 1996;39(1)
8[20]Grishman R Adaptive information extraction and sublangu age analysis[C].In:Proceedings of IJCAI-2001 Workshop on Adaptive Text Extraction and Mining,2001
9[1]Applet D E,Israel D J.Introduction to Information Extraction Technology. A Tutorial for IJCAI-99,1999
10[2]Gaizauskas R,Wilks Y.Information Extraction:Beyond Document Retrieval[J].Journal of Documentation, 1997

共引文献318

1沈芳婷,于艳华,李志强,李劼.基于Attention-Comprehension OpenTag的人物属性抽取算法[J].新一代信息技术,2022,5(6):1-5.
2李卓玲,王健.基于Web挖掘的个性化服务系统的研究与实现[J].信息技术,2007,31(10):142-145. 被引量：1
3王睿,张洁,张由仪,于禛,姚天昉.基于混合模型的中文命名实体抽取系统[J].清华大学学报（自然科学版）,2005,45(S1):1908-1914. 被引量：10
4蒋宗礼,肖华,赵钦.WebSifter:个性化网络搜索辅助系统[J].清华大学学报（自然科学版）,2005,45(S1):1903-1907. 被引量：5
5辛治运,顾明,马兆丰.基于粗糙集理论的金融信息推荐算法研究[J].计算机研究与发展,2007,44(z2):262-270.
6叶正,林鸿飞,苏绥,刘菁菁.基于支持向量机的人物属性抽取[J].计算机研究与发展,2007,44(z2):271-275. 被引量：11
7岳国伟,梁永全.基于Agent的Web页面结构化信息抽取[J].计算机研究与发展,2007,44(z2):344-349.
8卫琳,石磊.基于搜索结果的Web预取模型研究[J].计算机研究与发展,2007,44(z2):377-382.
9张向喆,王明辉,赵洪波,王起山,潘玉春.生物医学文本中命名实体识别研究[J].上海交通大学学报（农业科学版）,2010,28(2):132-139. 被引量：6
10李万辉,林瑞明,张文德.台湾科技文献信息抽取与检索平台的设计与实现[J].图书馆学研究（应用版）,2010(6):71-75.

同被引文献32

1陈琼,苏文健.基于网页结构树的Web信息抽取方法[J].计算机工程,2005,31(20):54-55. 被引量：24
2许波勇,张如云.架设网络时间服务器的理论与实践[J].农业网络信息,2006(1):50-51. 被引量：1
3谭荣.一种服务器与客户端时间同步的有效方法[J].现代电子技术,2006,29(5):48-49. 被引量：2
4朱永盛,武港山.基于Web的新闻信息抽取[J].计算机工程,2006,32(10):74-76. 被引量：11
5高波.基于一类改进遗传算法的进化神经网络研究[J].石油化工高等学校学报,2006,19(1):84-88. 被引量：7
6Soumen Chakrabarti. Mining the web: discovering knowledge from hypertext data[M]. USA: Morgan kaufmann publishers, 2002.
7Liu Bing . Editorial: special issue on web content mining[J]. Acm Sigkdd explorations newsletter,2004, 6(2):1-4.
8网络时间协议(NTP)简介[EB/OL].[2008-06-30].http://ntp.buptnet.edu.cn/ntp_chinese/lesson/jianjie.htm.
9中国数字科技馆时间科普[EB/OL].[2008一06-30].http://www.time.ac.cn/Default.asp.
10HTML Parser for .NET C#, VB. NET[ EB/OL]. [ 2010 - 04 - 25 ]. http ://www. netomatix. com/Products/DocumentManagement/HT- MLParserNet. aspx.

引证文献8

1滕国库,张一弓.基于ARM嵌入式芯片TCP/IP协议的数据采集设计[J].辽宁石油化工大学学报,2007,27(4):51-55. 被引量：5
2胡瑜,王立志.基于HTML结构特征的网页信息提取[J].辽宁石油化工大学学报,2009,29(3):65-69. 被引量：5
3段青玲,刘伃,胡梅,王芳.基于网络时间协议的时间同步实现方法[J].计算机应用,2010,30(A01):1-2. 被引量：2
4陈诗琴,李文江.基于.NET的农产品市场行情信息采集——以重庆农产品市场行情查询网为例[J].现代图书情报技术,2010(6):88-92.
5潘超,梁宏伟,李立召.基于DOM的网页信息抽取方法[J].硅谷,2010,3(20):172-172. 被引量：2
6徐研,张伟.基于BHO的淘宝网账户自动登录系统研究与实现[J].软件导刊,2011,10(4):123-125. 被引量：1
7史君,桑国明.基于嵌入式移动浏览器的QtWebkit 2.1内核研究与开发[J].计算机与数字工程,2012,40(3):79-82. 被引量：2
8张小集,白清源.可自定规则的Ajax网页信息采集框架的开发[J].电脑开发与应用,2014,27(10):29-31. 被引量：2

二级引证文献19

1李健,侯彤璞.嵌入式多方位视频监控系统的设计与实现[J].辽宁石油化工大学学报,2010,30(2):37-41.
2李维军,鹿钦礼,王博.基于HMI和PLC对水厂供水阀门控制系统[J].辽宁石油化工大学学报,2010,30(4):45-46. 被引量：2
3赵晓峰,凌天斌,彭波,王转妮.一种基于网页源文件的信息提取算法[J].计算机与现代化,2012(2):38-39. 被引量：1
4穆克,韩志刚.有毒有害气体报警器数字检测系统的设计[J].辽宁石油化工大学学报,2012,32(1):74-77. 被引量：6
5韩伟娟.时钟同步在煤矿人员定位系统中的应用[J].中国科技博览,2012(9):313-314.
6屈武江.基于网页数据抽取技术的图书著录系统设计与实现[J].辽宁师专学报（自然科学版）,2012,14(2):45-48.
7黄昱阳,李慧伦.基于XML的Web信息数据库的建立[J].计算机与现代化,2012(9):222-224.
8武晓春,黎磊,张壮.城市轨道交通NTP时间服务器的研究与设计[J].兰州交通大学学报,2013,32(4):18-22. 被引量：1
9王帆,张俊杰,欧阳琳.基于win8的天气新闻类应用实现[J].软件工程师,2014(5):33-36.
10许逸,沈映珊.支持跨平台应用的单点登录系统[J].计算机系统应用,2014,23(8):73-78. 被引量：1

1邓秀春,韩孜,黄剑.基于BP神经网络特征提取的指纹识别应用[J].广西轻工业,2008,24(4):51-52. 被引量：1
2段寿建,夏幼明,甘健侯.基于本体和Lucene的语义检索模型设计与实现[J].现代电子技术,2009,32(12):36-38. 被引量：6
3张雷冲,佘勃.基于VR技术的轿车展示平台的设计[J].工业控制计算机,2011,24(7):62-63.
4黄颖,黄治平.HtmIParser提取网页信息的设计与实现[J].江西理工大学学报,2007,28(6):26-28. 被引量：6
5薛佩烽.关于高校图书馆信息素养教育的探讨[J].甘肃科技纵横,2014,43(9):15-17. 被引量：1
6王文珍.网络环境下的图像处理信息资源与检索利用[J].图书情报工作,2010,54(S1):257-260.
7闵勇,郭一楠,闫俊荣.粗糙集理论在滚动轴承故障诊断中的应用[J].工矿自动化,2010,36(5):51-54.
8于爱君.数字资源的容灾要略[J].信息技术,2006,30(6):146-148. 被引量：1
9王玉波.多媒体技术给信息工作带来的变革[J].情报探索,1998(1):30-31.
10王曜卿.电子书制作实例[J].视窗世界,2005(3):56-57.

辽宁石油化工大学学报

2006年第2期

浏览历史

内容加载中请稍等...

基于HTMLParser的Web信息抽取系统的设计与实现被引量：8

参考文献9

二级参考文献62

共引文献318

同被引文献32

引证文献8

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于HTMLParser的Web信息抽取系统的设计与实现 被引量：8

参考文献9

二级参考文献62

共引文献318

同被引文献32

引证文献8

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于HTMLParser的Web信息抽取系统的设计与实现被引量：8