基于内容与链接分析的主题爬虫研究与设计被引量：2

Research and Design on Topical Crawler Based on Analysis of Content and Link

下载PDF

导出

摘要现存主题爬虫算法在抓取主题网页方面,其准确性不是很高。本文提出一种基于文本内容评价与网页链接评价的主题网页抓取方法。首先计算当前网页与主题的相关度,然后将相关度值与给定阈值进行比较决定当前网页是丢弃还是存储,同时相关度值的大小也决定了待爬链接队列中URL的优先权,此模型考虑了主题网页的准确率与覆盖率之间的平衡。新设计的主题爬虫算法在抓取主题网页方面,其准确性有一定程度的提高。 In the aspect of grasping the topical webpage to the existing topical crawler algorithm, its accuracy is not high. This paper presents a topical webpage grasping method which based on evaluation of text content and webpage link. First it calculates the correlation of current webpage and theme, and then compares the correlation values with a given threshold to determine the current webpage is discarded or stored. At the same time the size of the correlation value also determines the priority of URL in the climbing link queue, this model takes into account the balance of topical webpage between accuracy and coverage. In the as- pect of grasping topical webpage to design the new topical crawler algorithm, its accuracy has been improved to some extent.

作者舒奔尹珂

机构地区安徽理工大学计算机科学与工程学院

出处《计算机与现代化》 2014年第4期77-80,共4页 Computer and Modernization

关键词主题爬虫主题相关度主题网页 topical crawler topical correlation topical webpage

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1刘运强.垂直搜索引擎的研究与设计[J].计算机应用与软件,2010,27(7):130-132. 被引量：10
2付强.基于Lucene的高校图书垂直搜索引擎的研究与实现[J].太原师范学院学报（自然科学版）,2011,10(4):104-107. 被引量：8
3Menczer F, Pant G, Ruiz M E, et al. Evaluating topic-- driven Web crawlers [ C ]//Proceedings of the 24th Annual International ACM SIGIR Conference on Research and De- velopment in Information Retrieval. New York, NY, USA, 2001:241-249.
4Bra D P, Post R. Searching for arbitrary information in the WWW: The fish-search for mosaic [ C ]// The Second WWW Conference. Chicago: ACM Press, 1994:45-51.
5Herseovid M, Jaeov M, SMaarek Y. The shark-search al- gorithm: An aplication: Tailored Web site mapping [ J ]. Computer Networks and ISDN System, 1998,30 (6) : 317- 326.
6Page L, Brin S, Motwani R. The PageRank Citation Rank- ing: Bring Order to the Web[ R]. Technical Report SIDL- WP-1999-0120, Standford University, 1999.
7Kleinberg J. Autboritative sources in a hyperlinked envi- ronment[ J]. Journal of the ACM, 1999,46(5) :604-632.
8罗林波,陈绮,吴清秀.基于Shark-Search和Hits算法的主题爬虫研究[J].计算机技术与发展,2010,20(11):76-79. 被引量：18
9宋宇,孟祥增.基于改进Fish-search算法的多媒体检索[J].计算机工程,2008,34(11):189-190. 被引量：8
10金明珠,丁岳伟.基于统计模型的主题爬虫的研究与实现[J].计算机工程与设计,2010,31(16):3700-3704. 被引量：3

二级参考文献36

1欧阳柳波,李学勇,李国徽,王鑫.专业搜索引擎搜索策略综述[J].计算机工程,2004,30(13):32-33. 被引量：34
2管建和,甘剑峰.基于Lucene全文检索引擎的应用研究与实现[J].计算机工程与设计,2007,28(2):489-491. 被引量：71
3Pant G.,Srinivasan P.Learning to crawl:Comparing classification schemes[J].ACM Transactions on Information Systems,2005,23(4):430-462.
4Menczcr F,Pant G,Srinivasan P,et al.Evaluating topic-driven web crawlers[C].Proc 24th Annual Int'l ACM SIGIR Conference on Research and Development in Information Retrieval,2001:241-249.
5Assis G T,Laender AHF,Silva ASd,et al.The impact of term selection in genre-aware focused crawling[C].Proceedings of the 23rd ACM Symposium on Applied Computing,2008:1158-1163.
6Liu H,Janssen JCM,Milios EE.Using HMM to learn user browsing patterns for focused web crawling[J].Data and Knowledge Engineering,2006,59(2):270-291.
7Eda Baykan,Monika Rauch Henzinger,Ludmila Marian,et al.Purely URL-based topic classification[C].WWW,2009:1109-1110.
8Li Jun,Kazutaka Furuse,Kazunori Yamaguchi.Focused crawling by exploiting anchor text using decision tree[C].ACM,2005:1190-1191.
9Chakrabarti S,Van Den Berg M,Dom B.Focussed crawling:A new approach to topic specific resouree discovery[C].Proceedings of the WWW Conference,1999:545-562.
10Deerwester S C,Dumais S T,Landaner T K,et al.Indexing by latent semantic analysis[J].Journal of the American Society of Information Science,1990,41(6):391-407.

共引文献41

1王灵.O2O融合的公共图书馆公共文化服务模式研究[J].内蒙古科技与经济,2022(16):149-151. 被引量：1
2刘小强.二手转让及房产租售垂直搜索引擎的设计与实现[J].三门峡职业技术学院学报,2010,9(3):107-110. 被引量：2
3杨仁广,孟祥增.网络多媒体主题搜索策略研究[J].中国科技资源导刊,2009,41(2):37-41.
4杨仁广,孟祥增.网络多媒体教学资源主题搜索研究[J].电化教育研究,2009,30(5):83-88. 被引量：4
5彭冬,蔡皖东.面向Web论坛的网络信息获取技术及系统实现[J].计算机工程与科学,2011,33(1):157-160. 被引量：7
6杨仁广,张艳.网络多媒体教学资源主题搜索系统的设计与实现[J].江苏广播电视大学学报,2011(3):44-46.
7施佺,王恒山,肖仰华,丁卫平.面向主题的垂直搜索引擎系统的研究与实现[J].微电子学与计算机,2011,28(7):1-4. 被引量：10
8李莹,吴晓军.基于最大流及页面相似度的Web结构挖掘[J].计算机技术与发展,2011,21(10):112-115. 被引量：1
9朱峰,刘捷,李军.远程勘验取证分析软件开发与实现[J].信息网络安全,2011(11):73-74. 被引量：4
10石军伟.基于Lucene的图书垂直搜索引擎探析[J].科学时代,2012(5):144-145.

同被引文献17

1刘群,李素建.基于《知网》的词汇语义相似度计算[J].中文计算语言学,2002,7(2):59-76.
2段淮川,胡平.基于主题特征和时间因子的改进PageRank算法[J].计算机工程与设计,2010,31(4):866-868. 被引量：21
3马慧芳,史忠植.一种高效稳定的链接分析算法[J].计算机应用研究,2011,28(2):488-491. 被引量：2
4王小林,王义.改进的基于知网的词语相似度算法[J].计算机应用,2011,31(11):3075-3077. 被引量：38
5印桂生,崔晓晖,马志强.遗忘曲线的协同过滤推荐模型[J].哈尔滨工程大学学报,2012,33(1):85-90. 被引量：23
6李军,陈震,黄霁崴.微博影响力评价研究[J].信息网络安全,2012(3):10-13. 被引量：62
7孙建旺,吕学强,张雷瀚.基于语义与最大匹配度的短文本分类研究[J].计算机工程与设计,2013,34(10):3613-3618. 被引量：18
8卢露,赵靖,魏登月.基于社会标注系统的Web用户聚类算法[J].计算机应用研究,2013,30(12):3557-3559. 被引量：4
9史宝明,贺元香,吴崇正.主题搜索引擎中爬虫搜索策略的研究[J].计算机工程与应用,2014,50(2):116-119. 被引量：15
10孙滨,刘林.一种基于《知网》的文本语义相似度的计算方法[J].计算机与数字工程,2014,42(2):187-189. 被引量：4

引证文献2

1朱宝华.基于HowNet的用户兴趣挖掘研究及应用[J].计算机与数字工程,2014,42(10):1949-1951. 被引量：1
2闫兵.一种微博用户影响力评价系统的设计与实现[J].信息技术与信息化,2017(7):61-63. 被引量：1

二级引证文献2

1秦瑞,方乐,俞敏.文本分析方法在医学研究中的应用进展[J].浙江预防医学,2015,27(10):1008-1011. 被引量：2
2余妍慧.基于社交媒体的学者影响力评价模型构建与实证研究[J].大学图书情报学刊,2024,42(3):117-124.

1陈志雄,朱向庆.基于内容评价与超链分析的主题爬虫策略[J].广西轻工业,2011,27(3):66-67. 被引量：2
2张慧英,原福永,尹春霞.一种面向主题的链接评价算法[J].情报杂志,2008,27(9):6-8. 被引量：1
3黄旭,朱艳琴,罗喜召.基于内容评价的爬虫搜索策略研究[J].微电子学与计算机,2008,25(11):25-28. 被引量：4
4袁占亭,张秋余,董建设.智能信息搜索系统中对搜索结果的排序策略[J].计算机工程与应用,2004,40(2):148-150. 被引量：7
5李广丽.基于网页内容评价和Web图的启发式垂直搜索策略的设计[J].情报理论与实践,2009,32(9):121-124. 被引量：3
6周文彬.Web本体搜索中链接评价方法的设计与实现[J].现代计算机,2006,12(2):27-30.
7钟明翔,唐晋韬,谢松县,王挺.一种基于动态网页解析的微博数据抓取方法[J].舰船电子工程,2015,35(10):95-99. 被引量：3
8马文轩.现阶段的中文军事信息资源网站初探[J].科技情报开发与经济,2008,18(34):52-53. 被引量：1
9焦继乐,曹志强,赵鹏,谭民.基于模糊趋近的移动机械臂目标抓取方法[J].华中科技大学学报（自然科学版）,2013,41(S1):47-50. 被引量：4
10罗林波,陈绮,吴清秀.基于Shark-Search和Hits算法的主题爬虫研究[J].计算机技术与发展,2010,20(11):76-79. 被引量：18

计算机与现代化

2014年第4期

浏览历史

内容加载中请稍等...

基于内容与链接分析的主题爬虫研究与设计被引量：2

参考文献10

二级参考文献36

共引文献41

同被引文献17

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于内容与链接分析的主题爬虫研究与设计 被引量：2

参考文献10

二级参考文献36

共引文献41

同被引文献17

引证文献2

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于内容与链接分析的主题爬虫研究与设计被引量：2