结合文本密度的语义聚焦爬虫方法被引量：1

SEMANTIC FOCUSED CRAWLER METHOD COMBINING TEXT DENSITY

下载PDF

导出

摘要针对聚焦爬虫网页核心内容提取算法准确性偏低以及相似度计算模型语义信息考虑不充分造成的爬取准确度和效率偏低的问题,提出结合文本密度的语义聚焦爬虫方法。引入核心内容提取算法,使用标题结合LCS算法定位核心内容文本的起始和终止位置,提取网页核心内容。引入基于Word2vec的主题相关度算法计算核心内容的主题相关度,改进PageRank算法计算链接主题重要度。结合主题相关度和主题重要度计算链接优先级。此外,为提高聚焦爬虫的全局搜索性能,结合主题词使用搜索引擎扩展链接集。与通用爬虫和多种聚焦爬虫相比,该方法爬虫爬取准确度和效率更优。 In view of the problems of low accuracy and low efficiency of focused crawler caused by the low accuracy in web core content extraction algorithm and insufficient consideration of semantic information in similarity computing model, we proposed a semantic focused crawler method combining text density. The core content extraction algorithm was introduced to use the title combined with the LCS algorithm to locate the starting and ending positions of the core content, then extracted the core content of the web page. A topic relevance algorithm based on Word2vec was introduced to calculate the topic relevance of core content, and the PageRank algorithm was improved to calculate the importance between the link and the topic. We combined topic relevance and topic importance to calculate the link priority. In addition, in order to improve the global search performance of focused crawler, search engine was used to expand the link set with Keywords. Compared with universal crawlers and multiple focused crawlers, our method is more accurate and efficient.

作者林椹尠袁柱李小平 Lin Zhenxian;Yuan Zhu;Li Xiaoping(School of Science, Xi’an University of Post and Telecommunications, Xi’an 710121, Shaanxi, China;School of Communication and Information Engineering, Xi’an University of Post and Telecommunications, Xi’an 710121, Shaanxi, China)

机构地区西安邮电大学理学院西安邮电大学通信与信息工程学院

出处《计算机应用与软件》北大核心 2019年第9期270-275,共6页 Computer Applications and Software

基金陕西省教育厅专项科学研究基金项目(18JK0699)

关键词聚焦爬虫核心内容 LCS Word2vec 链接优先级 Focused crawler Core content LCS Word2vec Link priority

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1肖江,季节.基于Heritrix的主题爬虫在互联网舆情系统中应用[J].电子设计工程,2015,23(6):30-32. 被引量：5
2费晨杰,刘柏嵩.基于LDA扩展主题词库的主题爬虫研究[J].计算机应用与软件,2018,35(4):49-54. 被引量：12
3王飞,谭新.一种基于Word2Vec的训练效果优化策略研究[J].计算机应用与软件,2018,35(1):97-102. 被引量：20

二级参考文献14

1孙庚,冯艳红,于红,史鹏辉.一种基于Heritrix的网络定题爬虫算法——以渔业信息网络为例[J].软件导刊,2010,9(5):47-49. 被引量：5
2Hersovici M,Jacovi M,Maarek Y,et al. The sharksearch algorithm an application:Tailored web site mapping[EB/OL] (2010)[2013-05-01]. http://www7.scu.edu.au/1849/com1849. htm,2010.
3郑小波,郑诚,尹莉莉.基于GVSM的文本相似度算法研究[J].微型机与应用,2011,30(3):9-11. 被引量：4
4袁津生,郭艳芬.林业主题爬虫的算法研究与设计[J].计算机工程与设计,2011,32(6):2003-2006. 被引量：7
5张明慧,王红玲,周国栋.基于LDA主题特征的自动文摘方法[J].计算机应用与软件,2011,28(10):20-22. 被引量：24
6郑文超,徐鹏.利用word2vec对中文词进行聚类的研究[J].软件,2013,34(12):160-162. 被引量：29
7李东晖,廖晓兰,范辅桥,黄九鸣,陈雪刚.一种主题知识自增长的聚焦网络爬虫[J].计算机应用与软件,2014,31(5):29-33. 被引量：9
8于娟,刘强.主题网络爬虫研究综述[J].计算机工程与科学,2015,37(2):231-237. 被引量：103
9周练.Word2vec的工作原理及应用探究[J].科技情报开发与经济,2015,28(2):145-148. 被引量：101
10熊富林,邓怡豪,唐晓晟.Word2vec的核心架构及其应用[J].南京师范大学学报（工程技术版）,2015,15(1):43-48. 被引量：68

共引文献33

1朱剑华,李莉,张秋实,李赫,李伟凡,徐健.长江航道信息智能推送服务方法研究[J].测绘地理信息,2022,47(5):110-113.
2耿立校,晋高杰,李亚函,孙卫忠,马士豪.基于改进内容过滤算法的高校图书馆文献资源个性化推荐研究[J].图书情报工作,2018,62(21):112-117. 被引量：22
3罗玉,王玲.LDA在提取涉警舆情关键词中的应用[J].现代计算机（中旬刊）,2018(11):7-9. 被引量：2
4谭翔纬.基于主题的网络爬虫系统的研究与实现[J].科学与信息化,2016,0(22):28-30.
5林椹尠,袁柱,李小平.一种主题自适应聚焦爬虫方法[J].计算机应用与软件,2019,36(5):316-321. 被引量：8
6汪岿,费晨杰,刘柏嵩.融合LDA的卷积神经网络主题爬虫研究[J].计算机工程与应用,2019,55(11):123-128. 被引量：12
7王凯祥,任明.基于查询的新闻多文档自动摘要技术研究[J].中文信息学报,2019,33(4):93-100. 被引量：6
8翁俊河,李湘丽,林燕斌,刘培现,骆燕玲,姚楷东,陈钰广,徐龙琴.基于大数据挖掘的网络舆情智能分析系统关键技术研究[J].通讯世界,2019,26(9):116-118. 被引量：8
9袁林,葛唯益,陈晓琳.科技情报智能检索与语义分析[J].指挥信息系统与技术,2019,10(5):34-39. 被引量：2
10杨鹤标,胡惊涛,刘芳.基于神经网络语言模型的动态层序Softmax训练算法[J].江苏大学学报（自然科学版）,2020,41(1):67-72. 被引量：4

同被引文献6

1夏修臣,王秀英.基于余弦相似度的改进C4.5决策树算法[J].计算机工程与设计,2018,39(1):120-125. 被引量：16
2龚静,黄欣阳.基于k最近邻和改进TF-IDF的文本分类框架[J].计算机工程与设计,2018,39(5):1340-1344. 被引量：10
3王玮.基于Bi-LSTM-6Tags的智能中文分词方法[J].计算机应用,2018,38(A02):107-110. 被引量：6
4林椹尠,袁柱,李小平.一种主题自适应聚焦爬虫方法[J].计算机应用与软件,2019,36(5):316-321. 被引量：8
5许甜华,吴明礼.一种基于TF-IDF的朴素贝叶斯算法改进[J].计算机技术与发展,2020,30(2):75-79. 被引量：17
6左薇,张熹,董红娟,于梦君.主题网络爬虫研究综述[J].软件导刊,2020,19(2):278-281. 被引量：9

引证文献1

1王松,刘洪基,叶晓波.一种基于Heritrix 可配置主题的聚焦爬虫方法[J].楚雄师范学院学报,2020,35(6):124-131. 被引量：1

二级引证文献1

1杨波.农业气象数据爬虫系统研究[J].农业与技术,2023,43(24):176-180.

1傅丽君.基于网页主题相关度和标签相似度的改进PageRank算法研究[J].浙江树人大学学报（自然科学版）,2019,19(1):12-17. 被引量：1
2洪鸿辉,丁世涛,黄傲,郭致远.基于文本及符号密度的网页正文提取方法[J].电子设计工程,2019,27(8):133-137. 被引量：1
3波波.多途径有效拦截Edge广告[J].电脑爱好者,2018,0(3):22-23.
4李昌超,康忠健,于洪国,李鑫,赵兵.基于PageRank改进算法的电力系统关键节点识别[J].电工技术学报,2019,34(9):1952-1959. 被引量：19
5吕容政,刘嘉勇.基于决策树的自适应网页正文抽取方法[J].现代计算机,2019,25(7):16-22.
6赵敏.构建新闻内容“交往化”对话场景[J].中国广播电视学刊,2019,0(9):51-54. 被引量：4
7刘珂,蔡晓军,张志勇,赵梦莹,贾智平.基于高性能SOC FPGA阵列的NVM验证架构设计与验证[J].计算机研究与发展,2018,55(2):265-272. 被引量：5
8周雯.社交媒体时代下刷屏现象分析研究——以《凌晨三点不回家》为例[J].声屏世界,2019,0(8):89-91.
9宓淑贤.“抖音”上的个体形象建构与对社会价值观的呼应——兼论书写“抖音”微生活民族志的可能性[J].民族学刊,2019,10(4):54-61. 被引量：8
10徐悦超.北京《商务报》的“知识”面相:清末新政中知识界对“商务”的具体认知[J].历史教学（下半月）,2019,0(7):34-42.

计算机应用与软件

2019年第9期

浏览历史

内容加载中请稍等...

结合文本密度的语义聚焦爬虫方法被引量：1

参考文献3

二级参考文献14

共引文献33

同被引文献6

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

结合文本密度的语义聚焦爬虫方法 被引量：1

参考文献3

二级参考文献14

共引文献33

同被引文献6

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

结合文本密度的语义聚焦爬虫方法被引量：1