基于语义的聚焦爬虫算法研究被引量：9

Study on the algorithm of focused crawler based on semantic similarity

下载PDF

导出

摘要针对现存的语义主题爬虫没有考虑主题意义的延伸、页面与主题的相似度计算模型存在的缺陷及主题词项细化过于苛刻导致返回结果较少等不足,采用LDA(Latent Dirichlet Allocation)模型,对主题词项描述文档进行降维,改进语义相似度计算模型.引入语义信息的相似度计算模型(SVSM),用SVSM计算文档和主题模型的相似度.从本体中获取该主题词项的上位词,构建主题上位词的主题模型,爬虫依据现有网络中的主题重新获取主题相关信息,提出语义聚焦爬虫(ESVSM),通过不同主题下多个爬虫进行实验对比,发现所提出的基于主题建模和上位词替换的ESVSM算法在收获率、相关网页数量和网页平均相关度中均优于其他算法,平均抓取精度达到85%. There are limitations for the existing semantic based focused crawlers：without considering the thematic meaning extension,the similarity computing model between page content and the topic and less results if the topic term refinement is too harsh.By adopting LDA（Latent Dirichlet Model）,realization of the topic model by reduce the dimensionality of the describe document of the topic words,Semantic similarity computation,this paper proposes the semantic similarity model（SVSM）.SVSM is used for computing the similarity between the document and the topic model.Constructed the topic model the hypernym of topic term,and grasp the semantic related pages of the topic model of the hypernym,as the topic related resources.Through multiple topics and several comparative experiments,the performance of our algorithm is better in harvest rate,the number of relevant web pages and the average correlation of web pages,the average grab accuracy is 85%.

作者孙红光藏润强姬传德杨凤芹冯国忠 SUN Hong-guang;ZANG Run-qiang;JI Chuan-de;YANG Feng-qin;FENG Guo-zhong(School of Information Science and Technology, Northeast Normal University, Changchun 130117, China;Key Laboratory of Intelligent Information Processing in Jilin Province,Changchun 130117,China;College of Computer Science and Technology, Jilin University, Changchun 130012, China)

机构地区东北师范大学信息科学与技术学院智能信息处理吉林省重点实验室吉林大学计算机科学与技术学院

出处《东北师大学报（自然科学版）》 CAS CSCD 北大核心 2018年第2期51-57,共7页 Journal of Northeast Normal University(Natural Science Edition)

基金国家自然科学基金青年基金资助项目(11501095) 吉林省科技创新人才培育计划项目(20170520051JH) 吉林省科技发展计划项目(20170204002GX) 吉林省发改委引导项目(2015Y056)

关键词聚焦爬虫 LDA 主题模型向量空间模型(VSM) 语义相似度 focused crawler LDA topic model vector space model（VSM） semantic similarity

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1林超,赵朋朋,崔志明.Deep Web数据源聚焦爬虫[J].计算机工程,2008,34(7):56-58. 被引量：11
2殷耀明,张东站.基于关系向量模型的句子相似度计算[J].计算机工程与应用,2014,50(2):198-203. 被引量：18

二级参考文献23

1郭艳华,周昌乐.一种汉语语句依存关系网协动生成方法研究[J].杭州电子工业学院学报,2000,20(4):24-32. 被引量：11
2张奇,黄萱菁,吴立德.一种新的句子相似度度量及其在文本自动摘要中的应用[J].中文信息学报,2005,19(2):93-99. 被引量：34
3杨思春.一种改进的句子相似度计算模型[J].电子科技大学学报,2006,35(6):956-959. 被引量：34
4刘群李素建.基于《知网》的词汇语义相似度计算[C]..第三界汉语词汇语义研讨会[C].台北,2002..
5穗志方俞士汶.基于骨架依存树的语句相似度计算模型[C]..中文信息处理国际会议(ICCIP98)论文集[C].,1998.458-465.
6Kevin Chang Chenchuan. Structured Databases on the Web: Observations and Implications[J]. SIGMOD Record, 2004, 33(3): 61-65.
7Cho J, Garcia-Molina H, Page L. Efficient Crawling Through URL Ordering[J]. Computer Networks and ISDN Systems, 1998, 30(7): 161-172.
8Rennie J, McCallum A. Using Reinforcement Learning to Spider the Web Efficiently[C].Proc. of the International Conference on Machine Learning. San Francisco, USA: Morgan Kaufmann Publishers Inc., 1999: 335-343.
9Diligenti M, Coetzee F M, Lawrence S, et al. Focused Crawling Using Context Graphs[C].Proc. of the International Conference on Very Large Database. San Francisco, USA: Morgan Kaufmann Publishers Inc., 2000: 527-534.
10Kevin Chang Chenchuan, He Bin, Zhang Zhen. Toward Large-scale Integration: Building a MetaQuerier over Databases on the Web [C].Proc. of Conference on Innovative Data Systems Research. [S. l]: Asilomar, 2005.

共引文献27

1蔡欣宝,陈洪平,赵朋朋,崔志明.一种Deep Web聚焦爬虫爬行策略[J].微电子学与计算机,2009,26(8):117-120. 被引量：2
2刘邵斌,张祖平,龙军.一种基于WatiJ的Deep Web蜘蛛研究[J].计算机工程,2011,37(4):264-266.
3王海龙,胡景芝,赵朋朋,崔志明.基于搜索引擎的Deep Web数据源发现[J].计算机工程,2011,37(5):77-79. 被引量：1
4赵丽.基于Deep Web数据集成系统的预取系统的设计[J].中国科技博览,2012(3):104-104. 被引量：1
5陈明,郭建兵,赵朋朋,崔志明.Deep Web中基于表单特征的松弛方法[J].计算机工程与设计,2012,33(1):168-172.
6沈祥兴,严冠湘,尤赤矾,陈训威,付平.高校人文学科实验室绩效评价与研究[J].图书情报知识,2012,29(2):124-128. 被引量：1
7姚双良.基于主题的Deep Web聚焦爬虫研究与设计[J].西北师范大学学报（自然科学版）,2013,49(2):40-43. 被引量：2
8郑晓春,顾进广,邓海龙.基于语义维基的危化品CLOD构建[J].工业控制计算机,2013,26(6):91-93.
9冶忠林,贾真,杨燕,尹红风.基于语义扩展的句子相似度算法[J].山西大学学报（自然科学版）,2015,38(3):399-405. 被引量：5
10胡伟伟,孙逊,王婷婷.基于向量空间模型的项目申报书查重系统设计[J].天津科技,2015,42(8):33-34. 被引量：5

同被引文献67

1关俊波,谭瑛,黄彬.5G时代网管架构和技术方案研究[J].广西通信技术,2021(3):38-41. 被引量：2
2刘林,汪涛,樊孝忠.主题爬虫的解决方案[J].华南理工大学学报（自然科学版）,2004,32(z1):137-141. 被引量：10
3张丽.PageRank算法的改进[J].科学技术与工程,2007,7(5):673-677. 被引量：6
4方启明,杨广文,武永卫,朱安平,郑纬民.面向P2P搜索的可定制聚焦网络爬虫[J].华中科技大学学报（自然科学版）,2007,35(S2):148-152. 被引量：5
5袁浩,黄烟波.网页标题分析对主题爬虫的改进[J].计算机技术与发展,2009,19(6):22-24. 被引量：11
6白鹤,汤迪斌,王劲林.分布式多主题网络爬虫系统的研究与实现[J].计算机工程,2009,35(19):13-16. 被引量：20
7张翔,周明全,李智杰,董丽丽.基于PageRank与Bagging的主题爬虫研究[J].计算机工程与设计,2010,31(14):3309-3312. 被引量：11
8蒋宗礼,田晓燕,赵旭.一种基于语义分析的主题爬虫算法[J].计算机工程与科学,2010,32(9):145-147. 被引量：7
9罗林波,陈绮,吴清秀.基于Shark-Search和Hits算法的主题爬虫研究[J].计算机技术与发展,2010,20(11):76-79. 被引量：18
10谢红.Python多线程机制初探[J].电脑知识与技术,2011,7(7):4739-4740. 被引量：2

引证文献9

1张环.基于候选链接主题边缘文本的主题爬虫研究[J].山东师范大学学报（自然科学版）,2018,33(4):421-426.
2张喜红.基于Python的中药材价格信息爬虫的设计[J].枣庄学院学报,2019,36(2):67-72. 被引量：3
3常逢佳,李宗花,文静,常逢锦.基于Python的招聘数据爬虫设计与实现[J].软件导刊,2019,18(12):130-133. 被引量：11
4左薇,张熹,董红娟,于梦君.主题网络爬虫研究综述[J].软件导刊,2020,19(2):278-281. 被引量：9
5林春杰,金苗娟.基于语义相似度的聚焦爬虫研究[J].现代信息科技,2020,4(8):1-3. 被引量：2
6黄锦敬,黄锦焕,陈瑞志.基于改进VIPS算法的主题退火爬虫技术[J].计算机仿真,2021,38(8):412-416. 被引量：1
7张利峰,孙永凤.基于IT的5G工程优化过程管控[J].长江信息通信,2022,35(5):215-218. 被引量：1
8花明珠,王连明,江佳蔚.基于网络资源的大规模珊瑚数据集构建[J].东北师大学报（自然科学版）,2023,55(1):72-79. 被引量：1
9刘晓旭.主题网络爬虫研究综述[J].电脑知识与技术,2024,20(8):97-99. 被引量：1

二级引证文献29

1袁永旭,张淑婷,赵晓婷,金鹏琛.基于爬虫技术的病案管理人才需求现状分析[J].中国病案,2020(9):3-7. 被引量：7
2李红.基于python的房屋信息数据分析[J].探索科学,2019,0(3):215-216.
3迟殿委.基于Python的网页图片爬取[J].电脑编程技巧与维护,2019(5):129-130. 被引量：4
4金昌锦.多数据源招聘信息采集的爬虫系统实现[J].福建电脑,2019,35(11):13-16. 被引量：1
5张喜红,王玉香.基于Python的PEN3电子鼻nos文件关键信息自动提取工具设计[J].重庆科技学院学报（自然科学版）,2019,21(6):86-90.
6李俊华.基于Python的网络爬虫研究[J].现代信息科技,2019,3(20):26-27. 被引量：7
7高艳.基于Selenium框架的大数据岗位数据爬取与分析[J].工业控制计算机,2020,33(2):109-111. 被引量：6
8严家馨.基于Python对资讯信息的网络爬虫设计[J].科学技术创新,2020(5):57-58. 被引量：2
9陈建.“Python程序设计”课程教学中融入立德树人的探索与实践[J].教育教学论坛,2020(23):63-64.
10徐昊,沈江明.面向网站群的主题爬虫研究[J].软件导刊,2020,19(8):109-112. 被引量：3

1梁春阳,林广发,张明锋,汪玮杨,张文富,林金煌,邓超.社交媒体数据对反映台风灾害时空分布的有效性研究[J].地球信息科学学报,2018,20(6):807-816. 被引量：27
2李心茹,夏阳,张硕硕.基于相似度融合和动态预测的兴趣点推荐算法[J].计算机工程与应用,2018,54(10):105-109. 被引量：6
3沈冀,马志强,李图雅,张力.面向短文本情感分析的词扩充LDA模型[J].山东大学学报（工学版）,2018,48(3):120-126. 被引量：3

东北师大学报（自然科学版）

2018年第2期

浏览历史

内容加载中请稍等...

基于语义的聚焦爬虫算法研究被引量：9

参考文献2

二级参考文献23

共引文献27

同被引文献67

引证文献9

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

基于语义的聚焦爬虫算法研究 被引量：9

参考文献2

二级参考文献23

共引文献27

同被引文献67

引证文献9

二级引证文献29

相关作者

相关机构

相关主题

浏览历史

基于语义的聚焦爬虫算法研究被引量：9