一种基于人工策略的WEB信息精确提取系统被引量：2

An Artifical Method-based System of Web Information Exact Extraction

下载PDF

导出

摘要如何从海量的WEB信息中提取感兴趣的内容,传统的基于关键字检索的信息提取方法,适用于较为复杂的信息环境。针对特定信息的提取,提出了一种利用DOM树及HTML标签实现大量的特定格式化信息的精确提取方法。实验结果表明,在提取特定WEB信息的应用中达到100%的精确提取率。 With the development of Internet, it will be a new hotspot how to extract the information of our need from web. The traditional methods based on key words are applied to the fields on complex information. This paper puts forward an artifical method-based system by using DOM and HTML. The results show that the accuracy is 100 percent when extracting specifically information.

作者刘玲

机构地区西南科技大学网络信息中心

出处《西南科技大学学报》 CAS 2009年第2期49-52,共4页 Journal of Southwest University of Science and Technology

基金国家863计划项目(2003AA116060)

关键词信息提取人工策略 DOM Information extraction Artifical method DOM

分类号 TP393.01 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1Jeff Healon.网络机器人Java编程指南[M].北京:电子工业出版社,2002.
2李学勇,欧阳柳波,李国徽,钟敏娟.网络蜘蛛搜索策略比较研究[J].计算机工程与应用,2004,40(4):128-131. 被引量：17
3Champion, Mike, Vidur Apparao, Scott Isaaes, et al. Object Model (HTML) Level 1 [S]. W3C. 1998.
4Web Browser Control Referenc. http ://msdn. microsoft. com/workshop/author/dhtml/reference/objects/obj document. asp. [ EB/OL]. Microsoft Corporation. 2002.
5Friedl, Jeffrey E. F. Mastering Regular Expressions, 2nd Edition[ M]. Sebastopol, CA :O' Reilly and Associates, 2002.
6Appelt, D. E. , D. J. Israel. Introduction to Information Extraction Technology[ C ]. A Tutorial Prepared for LICAI - 9, 1999. 4-5.
7Crescenzi, V. , G. Mecca, P. Merialdo. Road Runner: Towards Automatic Data Extraction from Large Web Sites[ C]. Rome, Italy: In: Proceeding of the 26th International Conference on Very Large Database Systems, 2001. 109 - 118.

二级参考文献21

1[20]Diligenti M,Coetzee F M,Lawrence S et al.Focused crawling using context graphs[C].In:Proc of the International Conference on Very Large Database ( VLDB ′00 ), 2000: 527～534
2[21]Sutton R S,Barto A G.Reinforeement learning:an introduction[M].MA:MIT Press, 199822.Pant G,Srinivasan P,Menczer F.Exploration versus exploitation in topic driven crawler[C].In:Proc of The WWW-02 Workshop on Web Dynamics, 2002
3[17]Bharat K Henznger.lmproved algorithms for topic distillation in a hyperlinked environment[C].In:Proc of SIGIR Conference on Research and Development in Information Retrieval,1998
4[18]Dean J,Henzinger. Finding related pages in the World Wide Web [J].Computer Networks, 1999; 31 ( 11 ～ 16): 1467～1479
5[19]Davison B.Topical locality in the web[C].In:Proc of the 23th Annual International Conference Information Retrieval,Athens,2000:272～279
6[1]Murray B H,Moore A.Sizing the Intemet[M].A White Paper:Cyveillance, Inc, 2000
7[2]Lawrence S ,Giles L.Accessibility and distribution of information on the Web[J].Nature, 1999 ;400(8): 107～109
8[3]Cho J,Garcia-Molina H.The evolution of the Web and implication for an incremental crawler[C].In:Proc of the 26th International Conference on Very Large Databases(VLDB′00),2000
9[4]Brewington B E,Cybenko G.How dynamic is the Web?[C].In:Proc of the 9th International World Wide Web Conference,2000
10[5]Ester M ,Grob M ,Kriegel H.Focused Web crawling:a generic framework for specifying the user interest and for adaptive crawling stratrgies[C].In:Proc of the International Conference on Very Large Database(VLDB′01 ) ,2001

共引文献18

1宋雅君.图书馆网络与多搜索引擎[J].黑龙江水专学报,2005,32(3):105-106.
2华伟臣,张秀琼.网络蜘蛛搜索研究[J].乐山师范学院学报,2006,21(5):85-87. 被引量：2
3李村合,何淑庆,张培颖.两种适用于中文信息搜集的URL散列函数的研究[J].计算机系统应用,2006,15(7):42-44.
4刘中华,刘先红,王红艺.一种提高中文搜索引擎检索质量的HTML解折方法[J].西安邮电学院学报,2007,12(5):76-78.
5赵丽娜,丁宁,赵春晓,高路.基于非确定图灵机的中文搜索引擎研究[J].辽宁师范大学学报（自然科学版）,2007,30(3):315-318.
6刘汉兴,刘财兴.主题爬虫的搜索策略研究[J].计算机工程与设计,2008,29(12):3160-3162. 被引量：26
7丁婕.管窥“网络蜘蛛”之网上爬行[J].技术与市场,2008,15(8):49-49. 被引量：1
8李广丽,刘觉夫.垂直搜索引擎系统的研究与实现[J].情报杂志,2009,28(10):144-147. 被引量：12
9刘继红,吴军华,任明鑫.基于改进的网络蜘蛛算法抽取Web站点结构的方法[J].江南大学学报（自然科学版）,2009,8(5):555-559. 被引量：5
10柴军飞.搜索引擎中的网络蜘蛛技术探析[J].今日科苑,2009(24):122-122.

同被引文献15

1王琦,唐世渭,杨冬青,王腾蛟.基于DOM的网页主题信息自动提取[J].计算机研究与发展,2004,41(10):1786-1792. 被引量：81
2刘玉兰,邵敏,杨巾玄.清华大学获奖教材引文分析与馆藏评价[J].大学图书馆学报,1995,13(1):51-53. 被引量：4
3南京中医药大学图书馆[EB/OL].[2009-09-25].http://bike.baidu.com/view/2380890.html?fromTaglist.
4国家图书馆资源[EB/OL].[2009-09-25].http://baike.baidu.com/view/121164.htm#3.
5赁常彬.研究方法例说[M].成都:四川人民出版社,1985:105-113.
6中华人民共和国教育部:《授予博士、硕士学位和培养研究生的学科、专业目录》(1997年颁布)[EB/OL].[2009-09-25].http://www.moe.edu.cn/edoas/website18/level3.jsp?tablename=1288&infoid=12846.
7教育部:公布高等学校重点学科名单[EB/OL].[2009-09-25].http://www.edu.cn/20020515/3026025_2.shtml.
8丁婕.管窥“网络蜘蛛”之网上爬行[J].技术与市场,2008,15(8):49-49. 被引量：1
9高云燕.典型学科文献馆藏现状的分析与评价[J].技术与创新管理,2009,30(1):120-123. 被引量：1
10毛莉,陈惠兰.东华大学图书馆中文图书馆藏评价分析[J].上海高校图书情报工作研究,2009,19(2):8-10. 被引量：3

引证文献2

1张惠君,李娟.基于OPAC的馆藏评价方法探究[J].图书与情报,2010(4):87-90. 被引量：9
2杨海军,施敏,梁汝峰,蔡立志.基于用户行为模型的移动APP信息采集方法[J].计算机应用与软件,2018,35(6):158-162. 被引量：4

二级引证文献13

1张惠君.异构环境下区域馆际互借的思考与探索[J].图书情报工作,2011,55(3):74-77. 被引量：4
2杨永健.浅议图书馆新型OPAC系统发展趋势——以汇文OPAC系统为例[J].四川图书馆学报,2011(3):6-9. 被引量：1
3崔倩.近十年国内图书馆馆藏评价方法研究述评[J].图书馆杂志,2012,31(4):11-14. 被引量：19
4冯峰.我国图书馆馆藏评价研究综述[J].图书馆学刊,2013,35(11):120-122. 被引量：4
5贾三生.网络环境下高校图书馆馆藏评价方法研究[J].中国科教创新导刊,2014(5):249-250.
6刘巧英.数字馆藏评价方法比较研究[J].山东图书馆学刊,2014(4):77-80. 被引量：2
7邱玲.国内图书馆馆藏评价研究现状述评[J].内蒙古科技与经济,2019(7):122-123. 被引量：2
8张婷.基于Apache Spark的移动APP用户访问路径分析[J].海南大学学报（自然科学版）,2019,37(3):209-218. 被引量：1
9熊红林,冀和,樊重俊,黄爱国,余莹.基于多点信息采集交换的居民家庭经济状况核对系统研究与设计[J].计算机时代,2019,0(11):46-50.
10蒋德文.初中信息技术考试管理系统设计与实现[J].信息与电脑,2021,33(12):82-84.

1谢元营,徐文东,李锡善.5.25英寸磁光盘格式化信息的计算机模拟[J].计算机工程,1997,23(2):63-66.
2张幸儿.基于LL分析技术的语法制导编辑系统[J].微型计算机,1994,14(5):43-46.
3程仁洪,刘建新.基于多种技术的格式化信息管理方法[J].计算机工程,2001,27(8):175-177. 被引量：1
4徐大勇,王裕.美军数据链作战应用及其启示[J].指挥信息系统与技术,2015,6(6):69-75. 被引量：13

西南科技大学学报

2009年第2期

浏览历史

内容加载中请稍等...

一种基于人工策略的WEB信息精确提取系统被引量：2

参考文献7

二级参考文献21

共引文献18

同被引文献15

引证文献2

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

一种基于人工策略的WEB信息精确提取系统 被引量：2

参考文献7

二级参考文献21

共引文献18

同被引文献15

引证文献2

二级引证文献13

相关作者

相关机构

相关主题

浏览历史

一种基于人工策略的WEB信息精确提取系统被引量：2