Nave Bayes分类器制导的专业网页爬取算法被引量：3

Nave Bayesian Classifier Guided Domain Specific Webpage Crawling Algorithm

下载PDF

导出

摘要从Web中快速、准确地检索出所需信息的迫切需求催生了专业搜索引擎技术。在专业搜索引擎中,网络爬虫(Crawler)负责在Web上搜集特定专业领域的信息,是专业搜索引擎的重要核心部件。该文对中文专业网页的爬取问题进行了研究,基于KL距离验证了网页内容与链接前后文在分布上的差异,在此基础上提出了以链接锚文本及其前后文为特征、Nave Bayes分类器制导的中文专业网页爬取算法,设计了自动获取带链接类标的训练数据的算法。以金融专业网页的爬取为例,分别对所提出的算法进行了离线和在线测试,结果表明,Nave Bayes分类器制导的网络爬虫可以达到近90%的专业网页收割率。 The urgent need for quick and accurate information from the Web contributes to the domain specific search engine,in which the crawler is a keycomponent to the desired WebPages.Focused on the crawling of domain specific Chinese WebPages,this paper first examines the the distributional difference between WebPages and link contexts via the KL distance,and then proposes a Nave Bayesian classifier-guided algorithm to collect the domain specific Chinese WebPages.The classifier uses anchor text of hyperlink and its context as features.An algorithm is further designed to automatically collect labeled hyperlinks necessary for training the classifier.Taking the financial WebPages as an example,both the off4line and on-line tests are performed to validate the algorithm.The results show that the crawler guided by the Nave Bayesian classifier reaches nearly 90% accuracy in the domain specific WebPages.

作者韩国辉陈黎梁时木唐小棚王亚强于中华

机构地区四川大学计算机学院

出处《中文信息学报》 CSCD 北大核心 2010年第4期32-38,62,共8页 Journal of Chinese Information Processing

关键词计算机应用中文信息处理搜索引擎专业爬虫 Nave BAYESIAN CLASSIFIER 链接前后文 computer application Chinese information processing search engine domain dpecific crawler Nave Bayesian Classifier hyperlink context

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献13

1S. Chakrabarti, M. van den Berg, B. Dom. Focused Crawling:A New Approach to Topic-Specific Web Resource Discovery[J]. Computer Networks, 1999, 31 (11-16):1623-1640.
2J. Kleinberg. Authoritative Sources in a Hyporlinked Environment[J].Journal of the ACM, 1999,46(5): 604-632.
3M. Diligenti, F. M. Coetzee, S. Lawrence, 等. Focused Crawling Using Context Graphs[C]// Proc. of Intl. Conf. On Very Large Databases (VLDB'00), Morgan Kaufmann Publishers Inc. San Francisco, CA, USA, 2000:527-534.
4P. M. E. De Bra, R. D.J. Post, Information Retrieval in the World Wide Web: Making Client-Based Searching Feasible [C]// Proceedings of the First International World-Wide Web Conference, CERN, Switzerland, May, 1994.
5M. Iwazume, K. Shirakami, K. Hatadani, 等. IICA: An Ontology-Based Internet Navigation System[C]// Proc. AAAI-96 Workshop Internet Based Information Systems, 1996.
6M. Hersovici, M. Jacovi, Y. S. Maarek, 等. The Shark-Search Algorithm--An Application: Tailored Web Site Mapping[C]// Proc. Seventh Int'l World Wide Web Conf. , 1998.
7S. Chakrabarti, K. Punera, M. Subramanyam. Accelerated Focused Crawling through Online Relevance Feedbaek[C]// Proc. llth Int'l World Wide Web Conf. , May 2002.
8周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005,25(9):1965-1969. 被引量：153
9蒋宗礼,徐学可,李帅.一种基于超链接引导的主题搜索的主题敏感爬行方法[J].计算机应用,2008,28(4):942-944. 被引量：9
10李勇,韩亮.主题搜索引擎中网络爬虫的搜索策略研究[J].计算机工程与科学,2008,30(3):4-6. 被引量：37

二级参考文献52

1陈红英,杨宜民.基于多智能体的网络信息系统的原理与实现[J].微电子学与计算机,2005,22(3):57-59. 被引量：2
2吴友政,赵军,段湘煜,徐波.问答式检索技术及评测研究综述[J].中文信息学报,2005,19(3):1-13. 被引量：48
3EHRIG M, MAEDCHE A. Ontology-focused crawling of Web documents[A]. Proceedings of the 2003 ACM symposium on Applied computing[C], March 2003.
4GUO Q, GUO H, ZHANG ZQ, et al. Schema Driven Topic Specific Web Crawling[A]. DASFAA[C], 2005.
5GRAUPMANN J, BIWER M, ZIMMER C, et al. COMPASS: A Concept-based Web Search Engine for HTML, XML, and Deep Web Data[A]. Proceedings of the 30th VLDB Conference[C],2004.
6QIN JL, ZHOU YL, CHAU M. Building domain-specific web collections for scientific digital libraries: a meta-search enhanced focused crawling method[A]. Proceedings of the 4th ACM/IEEE-CS joint conference on Digital libraries[C], June 2004.
7CHO J , GARCIA - MOLINA H , PAGE L . Efficient crawling through URL ordering[A]. Proceedings of the seventh international conference on World Wide Web 7[C], April 1998.
8FLORESCU D, LEVY AY, MENDELZON AO. Database techniques for the world-wide web: A survey[J]. SIGMOD Record, 1998,27(3) :59 -74.
9LAWRENCE S, GILES CL. Searching the World Wide Web[J].Science, 1998,280(5360):98.
10CHAKRABARTI S, VAN DEN BERG M, DOM B. Focused crawling: A new approach to topicspecific web resource discovery[A].Proceedings of the Eighth International World-Wide Web Conference[C], 1999.

共引文献192

1齐虎春.高职化工院校网络化工数据采集课程实践研究[J].内蒙古石油化工,2020,46(10):88-90. 被引量：1
2杨学明,刘柏嵩.主题爬虫在数字图书馆中的应用[J].图书馆杂志,2007,26(8):47-50. 被引量：3
3张丽莎,张贵,龙朝夕,张盛.林业专题动态信息的搜索与集成[J].中南林业科技大学学报,2013,33(5):47-51. 被引量：3
4胡宏涛,常佳.基于网络的信息获取技术浅析[J].福建电脑,2006,22(4):60-61. 被引量：4
5李刚,周立柱,郭奇,林玲.领域相关的Web网站抓取方法[J].计算机科学,2007,34(2):137-140. 被引量：5
6孙素芬,罗长寿,张峻峰,于峰,张树亮.农业信息资源整合系统研究与应用[J].安徽农业科学,2007,35(22):6993-6994. 被引量：3
7王迁,王丽娜.对收费网站中作品提供链接的法律性质——评“娱乐基地”诉百度案[J].电子知识产权,2007(8):41-43.
8陈军,陈竹敏.基于网页分块的Shark-Search算法[J].山东大学学报（理学版）,2007,42(9):62-66. 被引量：7
9李兆春,谢庆生,徐立章.机械主题爬虫的设计与实现[J].现代机械,2007(6):68-70. 被引量：1
10杜光芹,张化祥,赵瑞东.主题Web挖掘研究[J].计算机技术与发展,2008,18(2):94-97. 被引量：3

同被引文献19

1鲁明羽.Bayes文本分类器的改进方法研究[J].计算机工程,2006,32(17):63-65. 被引量：11
2易志高,茅宁.中国股市投资者情绪测量研究:CICSI的构建[J].金融研究,2009(11):174-184. 被引量：358
3杨阳,万迪昉.不同市态下投资者情绪与股市收益、收益波动的异化现象——基于上证股市的实证分析[J].系统工程,2010,28(1):19-23. 被引量：68
4裴胜玉,周永权.基于Pareto最优解集的多目标粒子群优化算法[J].计算机工程与科学,2010,32(11):85-88. 被引量：18
5池丽旭,庄新田.我国投资者情绪对股票收益影响——基于面板数据的研究[J].管理评论,2011,23(6):41-48. 被引量：48
6游家兴,吴静.沉默的螺旋：媒体情绪与资产误定价[J].经济研究,2012,47(7):141-152. 被引量：328
7艾海麦提江.阿布来提,吐尔地.托合提,艾斯卡尔.艾木都拉.基于Naive Bayes的维吾尔文文本分类算法及其性能分析[J].计算机应用与软件,2012,29(12):27-29. 被引量：7
8陆江川,陈军.极端投资者情绪对股价指数影响的非对称研究[J].系统工程,2013,31(2):13-22. 被引量：14
9郭明强,黄颖,谢忠.一种多核环境下的WebGIS模型优化策略[J].计算机工程,2013,39(8):15-19. 被引量：5
10何力,丁兆云,贾焰,韩伟红.大规模层次分类中的候选类别搜索[J].计算机学报,2014,37(1):41-49. 被引量：19

引证文献3

1王亚强,汤铭,曾沁,唐聃,舒红平.级联式低消耗大规模网页分类在线获取方法[J].计算机应用,2017,37(4):924-927. 被引量：3
2陈贵平.大型Web网络数据中心资源高效挖掘技术研究[J].现代电子技术,2017,40(24):18-20. 被引量：3
3金秀,姜尚伟,苑莹.基于股吧信息的投资者情绪与极端收益的可预测性研究[J].管理评论,2018,30(7):16-25. 被引量：29

二级引证文献35

1尹必超,孔东民,季绵绵.散户积极主义提高上市公司审计质量吗[J].会计研究,2022(10):157-178. 被引量：6
2罗剑宏,徐子涵.投资者情绪、拥挤交易行为与股票风险溢价关系研究[J].价格理论与实践,2019(10):83-86. 被引量：8
3陈贵平.大型Web网络数据中心资源高效挖掘技术研究[J].现代电子技术,2017,40(24):18-20. 被引量：3
4王仕艳.云环境中Web信息抓取技术的研究及应用[J].通信电源技术,2018,35(9):175-176. 被引量：1
5赵汝为,熊熊,沈德华.投资者情绪与股价崩盘风险:来自中国市场的经验证据[J].管理评论,2019,31(3):50-60. 被引量：46
6汤文亮,汤树芳,张平.基于余弦测度的Web指纹识别算法的研究与改进[J].计算机科学,2019,46(10):295-298. 被引量：5
7欧阳资生,李虹宣.网络舆情对金融市场的影响研究:一个文献综述[J].统计与信息论坛,2019,34(11):122-128. 被引量：7
8陈良英.基于智能安全技术的计算机虚拟信息过滤系统设计[J].计算机应用与软件,2019,36(12):316-320. 被引量：3
9孙明璇,李莉莉.基于数据挖掘的投资者情绪对股市波动影响研究[J].燕山大学学报（哲学社会科学版）,2020,21(1):68-77. 被引量：5
10宋慧琳,彭迪云,黄欣.证券公司的研究报告与股票短期异常收益之间关系的实证研究——来自中国A股市场的经验证据[J].管理评论,2020,32(5):53-64. 被引量：6

1杨丽.网络信息检索中搜索引擎的使用策略[J].信息系统工程,2010,23(10):26-28. 被引量：4
2聂宇,邹贤芳,罗凌云.JavaScript在高职软件专业网页课教学中的研究[J].才智,2012,0(19):65-65. 被引量：1
3夏道勋,谢晓尧.基于Web的专用爬虫的研究[J].贵州师范大学学报（自然科学版）,2009,27(3):92-95.
4查找RSS信息源,请专业搜索来帮忙[J].网友世界,2011(19):96-96.
5潘谈.关于Dreamweaver网页制作中常用的小技巧初探[J].网友世界,2014,0(23):15-16.
6吴炜,梁昆,李瑞轩,辜希武,卢正鼎.一种基于主题相关度的网页排序算法[J].微电子学与计算机,2008,25(9):221-224. 被引量：3
7天马行空.Ulead PhotoImpact——专业网页影像设计者的利器[J].网络与信息,2002,16(3):62-62.
8邱东洋,汤小春.一种基于超链和锚文本分析的主题发现算法[J].微电子学与计算机,2009,26(6):125-128. 被引量：1
9高静怡.Googles的应用体验[J].电子制作,2013,21(9X):84-84.
10郝伟,杨国霞,郝志杰.专业搜索引擎搜索结果融合算法研究[J].河北科技大学学报,2011,32(4):355-358. 被引量：3

中文信息学报

2010年第4期

浏览历史

内容加载中请稍等...

Nave Bayes分类器制导的专业网页爬取算法被引量：3

参考文献13

二级参考文献52

共引文献192

同被引文献19

引证文献3

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

Nave Bayes分类器制导的专业网页爬取算法 被引量：3

参考文献13

二级参考文献52

共引文献192

同被引文献19

引证文献3

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

Nave Bayes分类器制导的专业网页爬取算法被引量：3