智能专题化信息搜集Crawler 被引量：4

A Topic-specific Intelligent Web Crawler System

下载PDF

导出

摘要介绍了基于Web内容和结构挖掘的专题化智能Web爬行Crawler系统,并重点介绍其中CA(C&S)算法,该算法充分利用神经网络可以方便地模拟网络的拓扑结构和并行计算的特点,采用加强学习判断网页与主题的相关度,在进行相关度计算时,不考虑网页的全部内容,而通过提取网页的HTML描述中的重要标记,对Web网页进行内容和结构分析,从而判断爬行到的网页与主题的相关性,以提高信息搜集的效率和精确性。 This paper introduces the topic-specific intelligent Web Crawler system and its crawling algorithm based on Web content and structure mining. The algorithm takes full advantage of the characteristics of the neural network and can simulate the network topology conveniently and parallel calculation. The paper introduces the reinforcement learning to judge the relativity between the crawled page and the topic. When calculating the correlation, without regarding to the whole content of the Web page, but to abstract the important tags of HTML makeup of the Web page, to analyze the content and structure of the page, thereby judge the relativity between the crawled page and the topic, improve the efficiency and accuracy of collected information enormously.

作者钱榕徐新华郑莹杨炳儒

机构地区北京科技大学信息工程学院北京科技大学管庄校区信息工程系济南大学人事处

出处《计算机工程》 CAS CSCD 北大核心 2006年第3期57-59,共3页 Computer Engineering

基金国家自然科学基金重点资助项目(69835001) 国家科技成果重点推广计划基金资助项目(2003EC000001)

关键词专题化爬行 WEB挖掘神经网络加强学习 Topic-specific crawler Web mining Neural network Reinforcement learning

分类号 TP274.2 [自动化与计算机技术—检测技术与自动化装置]

引文网络
相关文献

参考文献7

1Menczer F,Srinivasan G P P,Ruiz M.Evaluating Topic-driven Web Crawlers[C].Proceedings of the 24th Annual International ACM/SIGIR Conference,2001.
2韩家炜,孟小峰,王静,李盛恩.Web挖掘研究[J].计算机研究与发展,2001,38(4):405-414. 被引量：356
3韩家炜坎伯(加).数据挖掘[M].北京:机械工业出版社,2001.223-259.
4王永庆.人工智能原理与方法[M].西安：西安交通大学出版社,1999..
5Grama A,Karypis G,Kumar V,et al.Introduction to Parallel Computing (Second Edition)[M].Boston:Addison-Wesley,2003.
6Brin S, Page L. The Anatomy of a Large Scale Hyper Textual Web Search Engine [C]. Proceeding of the WWW7 Conference, Elsevier,Australia, 1998: 107-117.
7杨炳儒.基于内在机理的知识发现理论及应用[M].北京:电子工业出版社,2003..

二级参考文献5

1Han J，Data Mining:Concepts and Techniques，2000年
2Wang K，Proc of VLDB'97，1999年，363页
3Zaiane O R，Proc Int Workshop Web Information and Data Management（WIDM'98），1998年，9页
4Mobasher B，Tech Rep:TR96 0 5 0，1996年
5Zaiane O R，Proc KDD'95，1995年，331页

共引文献375

1杨洋.Web数据挖掘的分析与探讨[J].装备制造技术,2006(5):63-64. 被引量：1
2王志明,沙莎.Web文本挖掘技术在新闻主题检测中的应用研究[J].长沙大学学报,2007,21(5):58-60. 被引量：2
3阿静.政企互动打假树维权典范——爱普生打印机胜诉“骗保门”事件[J].办公自动化,2006(14):10-11.
4董德民.面向电子商务的Web使用挖掘及其应用研究[J].中国管理信息化（综合版）,2006,9(10):83-85. 被引量：1
5杜志文,曾文华.网格计算在文本分类中的应用[J].微电子学与计算机,2006,23(z1):221-222.
6张克君,李伯群,李欣,杨炳儒.基于DWLMS模型的分布式Web用户访问模式挖掘[J].清华大学学报（自然科学版）,2005,45(S1):1762-1766. 被引量：2
7万君,耿东辉.浅说电子商务中的数据挖掘技术[J].东北大学学报（自然科学版）,2004,25(z1):194-196. 被引量：1
8许亮,李明,梁素田,侯耕.数据挖掘技术在电子商务中的应用[J].甘肃科学学报,2002,14(S1):17-20. 被引量：1
9王丽娜.Web日志挖掘技术研究[J].光盘技术,2008(4):34-36. 被引量：2
10李慧.数据挖掘技术探讨及其基于web的应用研究[J].硅谷,2008,1(22):71-71.

同被引文献26

1周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
2张娜,张化祥.基于超链接和内容相关度的检索算法[J].计算机应用,2006,26(5):1171-1173. 被引量：6
3Rungsawang A, Angkawattanawit N. Learnable Topic-specific Web Crawler[J]. Journal of Network and Computer Applications, 2005, 28(2): 97-114.
4Chakrabhik S, Vandenburg M, Dom B. Focused Crawling: A New Approach to Topic-specific Web Resource Discovery[C]//Proceedings of the 8th International World-Wide Web Conference. Toronto, Canada: [s. n.], 1999.
5Liu Hongyu, MIuOS E, Janssen J. Probabilistic Models for Focused Web Crawling[C]//Proceedings of the 6th Annual ACM International Workshop on Web Information and Data Management. New York, USA: ACM Press, 2004.
6Florescu D, Levy A, Mendelzon A. Database Techniques for the World-Wide Web: A Survey[J]. SIGMOD Record, 1998, 27(3): 59-74.
7Wei Jiying, Wen Jirong. instance-based Schema Matching for Web Databases by Domain-specific Query Probing[C]//Proceedings of the 30th international Conference on VLDB. Toronto, Canada: [s. n.], 2004.
8Roc1′oL.Using genetic algorithms to evolve a population of topical queries[J].Information Processing and Management,2008(44):1863-1878.
9Soumen Chakrabarti.Focused crawling:a new approach to topic-specific Web resource di3scovery[J].Computer Networks,1999(31):1623-1640.
10Andrei Z.Marc Najork.Efficient URL caching for World Wide Web crawling.ACM press,2003:679-689.

引证文献4

1郑煜,钱榕.一个基于链接分析的相关度排序算法及其在专题搜索引擎中应用[J].计算机应用与软件,2007,24(7):54-55. 被引量：5
2倪贤贵,蔡明.基于链接结构和内容相似度的聚焦爬虫系统[J].计算机工程与设计,2008,29(7):1709-1710. 被引量：3
3白鹤,汤迪斌,王劲林.分布式多主题网络爬虫系统的研究与实现[J].计算机工程,2009,35(19):13-16. 被引量：20
4池勇敏,郝泳涛.分布式主题爬虫的设计与实现[J].计算机应用与软件,2010,27(12):135-138. 被引量：3

二级引证文献31

1张书江.基于超链接分析搜索引擎页面排序算法的剖析[J].安徽理工大学学报（自然科学版）,2008,28(2):73-77. 被引量：6
2高炜,张超,梁立.信息检索排序算法研究综述[J].信息技术,2009,33(6):1-4. 被引量：3
3严丽丽,陈鹤年,季文天,雷景生.基于超链接和相关度策略的克隆Web搜索方法[J].广西师范大学学报（自然科学版）,2009,27(4):27-30.
4刘淑梅,夏亮,许南山.主题搜索引擎网络爬虫搜索策略的研究与实现[J].计算机系统应用,2010,19(3):49-52. 被引量：13
5王元直,卢潇,钱建立.基于加权相似度的相关性排序算法的研究[J].电子设计工程,2010,18(7):49-50. 被引量：2
6池勇敏,郝泳涛.分布式主题爬虫的设计与实现[J].计算机应用与软件,2010,27(12):135-138. 被引量：3
7王海龙,胡景芝,赵朋朋,崔志明.基于搜索引擎的Deep Web数据源发现[J].计算机工程,2011,37(5):77-79. 被引量：1
8李庆诚,左珊珊,董振华,张金.中文RSS信息自动检索与分类研究[J].计算机工程,2011,37(6):79-81. 被引量：6
9裴艳霞,刘椿年.面向手机3D动画自动生成的中文命名实体识别[J].计算机工程与应用,2012,48(13):190-195. 被引量：1
10吴建.基于Lucene的校园网搜索引擎的设计与实现[J].湖南工程学院学报（自然科学版）,2012,22(2):48-52. 被引量：1

1王晓玲.MOOC课程与中学语文信息技术整合课[J].福建基础教育研究,2014(10):49-50.
2李丽萍.浅谈网络信息检索的专题化趋势[J].福建电脑,2002,18(1):16-17. 被引量：3
3肖俊,黄艳,廖振松.一种基于动态云图的话务量感知分析系统[J].信息通信,2014,27(8):207-208. 被引量：1
4程凯,秦勃,郑荣儿.数据动态监测及可视化管理[J].微计算机信息,2007,23(03X):19-21. 被引量：2
5孙晨,陈刚,魏勇.3维虚拟环境下场景专题信息表达方法研究[J].测绘与空间地理信息,2012,35(1):175-179.
6李赫男,陈松乔.计算机网络实验课程体系的设计[J].湖南第一师范学报,2007,7(4):52-53. 被引量：9
7张东辉,赵英俊,赵宁博,陆冬华,裴承凯,李瀚波.高光谱数据CASI信息提取的空间尺度效应[J].湖南科技大学学报（自然科学版）,2015,30(3):20-25. 被引量：3
8电子商务交易平台“东盟商汇”开通[J].上海信息化,2009(8):86-86.
9谭代伦,潘大志,戚怀斌.MathML技术对网络数学平台建设促进作用研究[J].现代远距离教育,2007(4):65-67. 被引量：1
10朱烨.网络个性化主动信息挖掘模型系统的设计[J].情报杂志,2005,24(9):27-29. 被引量：4

计算机工程

2006年第3期

浏览历史

内容加载中请稍等...