一种基于语义分析的主题爬虫算法被引量：7

A Topic Crawler Algorithm Based on Semantic Analysis

下载PDF

导出

摘要海量网页的存在及其量的急速增长使得通用搜索引擎难以为面向主题或领域的查询提供满意结果。本文研究的主题爬虫致力于收集主题相关信息,达到极大降低网页处理量的目的。它通过评价网页的主题相关度,并优先爬取相关度较高的网页。利用一种基于子空间的语义分析技术,并结合贝叶斯以及支持向量机,设计并实现了一个高效的主题爬虫。实验表明,此算法具有很好的准确性和高效性。 Massive web and its rapid growth make it difficult for general-purpose search engines to provide satisfactory results for the theme-or area-oriented queries. This paper studies the subject of gathering information relevant to the subject,to significantly reduce the amount of web pages dealing. By assessing the degree of Web pages,it gives priority to the crawling pages related to a higher degree. Using a subspace-based semantic analysis technique,combined with the Bayesian mechanism and support vector machine,we design and implement an efficient topic crawler. Experiments show that our algorithm has good accuracy and efficiency.

作者蒋宗礼田晓燕赵旭

机构地区北京工业大学计算机学院

出处《计算机工程与科学》 CSCD 北大核心 2010年第9期145-147,151,共4页 Computer Engineering & Science

关键词主题爬虫子空间语义分析支持向量机 topic crawler subspace semantic analysis support vector machine

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1傅向华,冯博琴,马兆丰,何明.可在线增量自学习的聚焦爬行方法[J].西安交通大学学报,2004,38(6):599-602. 被引量：18
2Chakrabarti S,Dom B,Indyk P.Enhanced Hypertext Categorization Using Hyperlinks[C] ∥Proc of the ACM SIGMOD Int'l Conf on Management of Data,1998:307-318.
3Bernardo J,Smith A.Bayesian Theory[M].John Wiley & Sons,1994.
4Johnson J,Tsioutsiouliklis K,Giles L.Evolving Strategies for Focused Web Crawling[C] ∥Proc of Int'l Conf on Machine Learning,2003:298-305.
5Zhao Xu,Jiang Zongli.An Indexing Matrix Based Retrieval Model[M] ∥Lecture Notes in Computer Science.Berlin/Heidelberg:Springer,2008:1001-1008.
6Chakrabarti S,Joshi M,Tawde V.Enhanced Topic Distillation Using Text Markup Tags,and HyPerlinks[C] ∥Proc of SIGIR'01,2001:208-216.
7Cheeseman P,Stutz J.Bayesian Classi_cation (AutoClass):Theory and Results[M].Fayyad U,Piatetsky-Shapiro G,Smyth P,eds.AAI/MIT Press,1996.

二级参考文献8

1McCallum A, Nigam K, Rennie J, et al. Building domain-specific search engine with machine learning techniques [A]. AAAI Spring Symposium on Intelligent Agents in Cyberspace, Stanford University,USA,1999.
2Chakrabarti S M, van den Berg H, Dom B. Focused crawling: a new approach to topic-specific Web resource discovery [J]. Computer Networks,1999,31(11-16):1 623-1 640.
3Diligenti M, Coetzee F M, Lawrence S, et al. Focused crawling using context graphs [A]. 26th International Conference on Very Large Database, Cairo,Egypt, 2000.
4Chakrabarti S, Kunal P, Mellela S. Accelerated focused crawling through online relevance feedback [A]. The Eleventh International Conference on World Wide Web, Hawaii,USA,2002.
5Nigam K. Using unlabeled data to improve text classification [D]. Pittsburgh, USA: School of Computer Science, Carnegie Mellon University, 2001.
6Jing Peng, Williams R. Incremental multi-step Q-learning [J]. Machine Learning,1996,22(1-3):283-290.
7Wiering M, Schmidhuber J. Fast online Q(λ)[J]. Machine Learning,1998,33(1):105-115.
8宫秀军,史忠植.基于Bayes潜在语义模型的半监督Web挖掘[J].软件学报,2002,13(8):1508-1514. 被引量：28

共引文献17

1傅向华,冯博琴.一种支持复杂查询的有组织P2P搜索方法[J].小型微型计算机系统,2006,27(3):401-406. 被引量：3
2傅向华,冯博琴.主题驱动的P2P分布式信息搜索机制研究[J].小型微型计算机系统,2006,27(4):609-613. 被引量：10
3傅向华,明仲.基于P2P的个性化Web搜索系统的设计与实现[J].计算机工程与应用,2007,43(7):111-113. 被引量：2
4刘金红,陆余良.主题网络爬虫研究综述[J].计算机应用研究,2007,24(10):26-29. 被引量：130
5魏文国,谢桂园.自适应最优搜索算法的网络蜘蛛的设计与实现[J].计算机应用,2007,27(11):2857-2859. 被引量：1
6关慧芬,师军,马继红.网络爬行技术研究[J].郑州轻工业学院学报（自然科学版）,2008,23(6):69-73. 被引量：4
7吉莉莉,陈悦.HTML结构特征及概念学习聚焦网页采集系统设计[J].中国新技术新产品,2009(20):21-21.
8关慧芬,师军.基于本体的主题爬虫技术研究[J].计算机仿真,2009,26(10):123-126. 被引量：2
9马睿.基于社区增量自适应爬虫研究[J].微型机与应用,2010,29(21):45-48.
10乔建忠.基于锚与链接文本扩展的KBES算法隧道策略[J].现代图书情报技术,2011(3):45-50. 被引量：1

同被引文献74

1刘林,汪涛,樊孝忠.主题爬虫的解决方案[J].华南理工大学学报（自然科学版）,2004,32(z1):137-141. 被引量：10
2欧阳柳波,李学勇,李国徽,王鑫.专业搜索引擎搜索策略综述[J].计算机工程,2004,30(13):32-33. 被引量：34
3汪涛,樊孝忠,顾益军,刘林.基于概念分析的主题爬虫设计[J].北京理工大学学报,2004,24(10):890-893. 被引量：10
4杨楠,弓丹志,李忺,孟小峰.Web社区发现技术综述[J].计算机研究与发展,2005,42(3):439-447. 被引量：35
5周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
6林雅榕,侯整风.对哈希算法SHA-1的分析和改进[J].计算机技术与发展,2006,16(3):124-126. 被引量：24
7庄超,蒋文超.面向数字版权管理的搜索引擎技术综述[J].计算机工程,2006,32(17):225-226. 被引量：2
8刘东飞,陈智贤,邓俊涛,余俊.一种辅助翻译搜索引擎的研究与实现[J].计算机工程,2007,33(1):216-218. 被引量：2
9杜谦,张文霞.多语言可实现的SHA-1散列算法[J].武汉理工大学学报（信息与管理工程版）,2007,29(7):42-44. 被引量：7
10Johnson J, Tsioutsiouliklis K, Giles C L. Evolving Strategies for Focused Web Crawling[ C ]//Proceedings of the 20th International Conferenee (ICML 2003), Menlo Park, CA, USA: AAAI press,2003: 298 - 305.

引证文献7

1宋海洋,刘晓然,钱海俊.一种新的主题网络爬虫爬行策略[J].计算机应用与软件,2011,28(11):264-267. 被引量：15
2郭世龙,王晨升.主题爬虫设计与实现[J].软件,2013,34(12):107-109. 被引量：8
3孙青云,王俊峰,赵宗渠,高梦超.一种基于模拟登录的微博数据采集方案[J].计算机技术与发展,2014,24(3):6-10. 被引量：30
4俞忻峰.社交网络挖掘方案研究[J].现代电子技术,2015,38(4):25-29. 被引量：4
5张芳,王培进.主题网络爬虫技术在高速公路信息采集中的应用[J].烟台大学学报（自然科学与工程版）,2017,30(3):255-260. 被引量：4
6吴修庆.基于更新信息的网页机器理解及其在站内搜索引擎中应用[J].工业控制计算机,2018,31(2):112-114. 被引量：1
7左薇,张熹,董红娟,于梦君.主题网络爬虫研究综述[J].软件导刊,2020,19(2):278-281. 被引量：7

二级引证文献68

1黄炜,金雅博,胡昌龙.网络舆情主题信息采集研究[J].现代图书情报技术,2012(11):65-71. 被引量：10
2吕振辽,翟莹莹,魏彦婧.面向新闻网的智能抓取技术[J].控制工程,2013,20(4):707-710. 被引量：2
3孙青云,王俊峰,赵宗渠,高梦超.一种基于模拟登录的微博数据采集方案[J].计算机技术与发展,2014,24(3):6-10. 被引量：30
4刘海燕,黄睿,黄轩.基于主题爬虫的漏洞库维护系统[J].计算机与现代化,2014(8):67-70. 被引量：10
5方星星,鲁磊纪,徐洋.网络舆情监控系统中主题网络爬虫的研究与实现[J].舰船电子工程,2014,34(9):104-107. 被引量：6
6龚炳江,黄彦欣,贾海鑫.矿山设备领域主题爬虫研究与设计[J].计算机应用与软件,2014,31(11):122-124. 被引量：2
7于娟,刘强.主题网络爬虫研究综述[J].计算机工程与科学,2015,37(2):231-237. 被引量：103
8俞忻峰.社交网络挖掘方案研究[J].现代电子技术,2015,38(4):25-29. 被引量：4
9亚森.伊斯马伊力,吐尔根.依布拉音,卡哈尔江.阿比的热西提.基于用户关系的维吾尔文微博数据获取方法的研究[J].新疆大学学报（自然科学版）,2015,32(1):74-79. 被引量：4
10张晓琳,付英姿,褚培肖.杰卡德相似系数在推荐系统中的应用[J].计算机技术与发展,2015,25(4):158-161. 被引量：35

1郭世龙,王晨升.主题爬虫设计与实现[J].软件,2013,34(12):107-109. 被引量：8
2赵伟.软件运行时错误测试工具评析[J].电脑知识与技术,2013,9(3):1575-1577.
3姜韶增,任永刚.互联网搜索引擎的特型展现技术[J].信息通信,2015,28(4):57-58.
4施磊磊,施化吉.海量数据存储模型的研究[J].无线通信技术,2014,23(4):32-35.
5鲍烨童.讯库:互联网时代要“知己知彼”[J].中关村,2015,0(4):90-91.
6张晓孪.基于概念图的自然语言处理中的语义研究与应用[J].宝鸡文理学院学报（自然科学版）,2014,34(1):55-58. 被引量：1
7张玲达,金林,程秀霞,江飞.一种基于内容的混合模式过滤模型[J].计算机工程,2008,34(24):64-66. 被引量：3
8谢丽君,黄忠浩.浅谈图像情感语义分析技术[J].内江科技,2012,33(5):104-104.
9李朝虹,陆建湖.现代汉语自动分析研究现状综述[J].广西教育学院学报,2003(1):112-116. 被引量：1
10北京神州泰岳软件股份有限公司,神州泰岳.人工智能中的语义分析技术及其应用[J].软件和集成电路,2017,0(4):42-47. 被引量：9

计算机工程与科学

2010年第9期

浏览历史

内容加载中请稍等...

一种基于语义分析的主题爬虫算法被引量：7

参考文献7

二级参考文献8

共引文献17

同被引文献74

引证文献7

二级引证文献68

相关作者

相关机构

相关主题

浏览历史

一种基于语义分析的主题爬虫算法 被引量：7

参考文献7

二级参考文献8

共引文献17

同被引文献74

引证文献7

二级引证文献68

相关作者

相关机构

相关主题

浏览历史

一种基于语义分析的主题爬虫算法被引量：7