期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

基于混沌序列的网页信息关键词爬取方法优化

Optimization of Web Information Keyword Crawling Method Based on Chaotic Sequence

下载PDF

导出

摘要常规的网页信息关键词爬取方法通过提取网页信息的统一资源定位器(Uniform Resource Locator,URL)来获得网页信息,提取关键词局限于文本字段,导致爬取准确率较低。对此,提出基于混沌序列的网页信息关键词爬取方法。首先,分析信息爬取流程,提取更加详细的全部信息;其次,根据提取原理的不同,划分网页信息提取板块;最后,分析网页信息混沌序列,提取所需网页信息关键词。实验结果表明,采用所提方法时,爬取准确率约为96.8%,相比传统方法提高了6.92%,相对来说,具有较高的准确性。 In conventional web page information keyword methods, web page information is obtained by extracting the Uniform Resource Locator(URL) of the web page information. The extraction of keywords is limited to text fields, resulting in insufficient crawling accuracy. Therefore, a method for crawling web information keywords based on chaotic sequences is proposed. In the research of keyword crawling methods, firstly, analyze the information crawling process and extract more detailed and complete information. Secondly, according to the different extraction principles, divide the webpage information extraction section. Finally, analyze the chaotic sequence of web page information and extract the required web page information keywords. From the experimental results, it can be seen that the crawling accuracy of the proposed method is about 96.8%, which is 6.92% higher than traditional methods. Relatively speaking, the designed crawling method has high accuracy.

作者王晓宇王培 WANG Xiaoyu;WANG Pei(School of Computer&Software Engineering,SIAS University,Xinzheng Henan 451150,China)

机构地区郑州西亚斯学院计算机与软件工程学院

出处《信息与电脑》 2023年第23期69-71,共3页 Information & Computer

基金河南省2021年民办普通高等学校学科专业建设资助项目(项目编号:教办政法[2020]179号,软件工程)。

关键词 PYTHON 网页信息信息爬取关键词提炼 Python web page information information crawl keyword extraction

分类号 G642 [文化科学—高等教育学]

引文网络
相关文献

参考文献5

1张娇.基于Python的豆瓣图书数据的爬取与分析[J].晋城职业技术学院学报,2023,16(4):83-86. 被引量：1
2余丽红,杨董涛,李弋峰,柳贵东.基于Python的电子元件信息爬取与数据可视化系统设计[J].无线互联科技,2023,20(9):77-79. 被引量：4
3吴宇鹏.爬虫技术和数据挖掘在网页信息中的应用[J].信息与电脑,2022,34(20):60-62. 被引量：1
4林军.基于Python的网页信息数据爬取设计与实现分析[J].长春工程学院学报（自然科学版）,2022,23(2):108-112. 被引量：4
5单艳,张帆.基于Python的网页信息爬取技术研究[J].电子技术与软件工程,2021(14):238-239. 被引量：5

二级参考文献26

1李琳.基于Python的网络爬虫系统的设计与实现[J].信息通信,2017,30(9):26-27. 被引量：31
2于淑云.基于校园BBS的舆情系统爬虫应用研究[J].长春工程学院学报（自然科学版）,2016,17(2):95-98. 被引量：1
3陈丽卿.基于canvas绘图的网页信息防采集技术研究[J].网络安全技术与应用,2018(9):32-33. 被引量：2
4杨丕仁.基于Python语言的网络日志处理系统设计[J].电脑知识与技术,2016,12(5X):117-119. 被引量：3
5熊艳秋,严碧波.基于jsoup爬取图书网页信息的网络爬虫技术[J].电脑与信息技术,2019,27(4):61-63. 被引量：9
6周一聪.爬虫技术在互联网领域的应用[J].中国高新科技,2019,0(18):64-65. 被引量：3
7翟普.python网络爬虫爬取策略对比分析[J].电脑知识与技术,2020,16(1):29-30. 被引量：7
8张艳,吴玉全.基于Python的网络数据爬虫程序设计[J].电脑编程技巧与维护,2020,0(4):26-27. 被引量：14
9陆承佳.基于Python的网络爬虫在物流信息追踪中的应用[J].信息与电脑,2020,32(12):133-136. 被引量：4
10徐志,金伟.Python爬虫技术的网页数据抓取与分析[J].数字技术与应用,2020,38(10):30-32. 被引量：11

共引文献9

1胡庆伟.基于Python的网络数据定时自动采集工具的设计[J].电子技术与软件工程,2021(21):147-148. 被引量：2
2于学斗,柏晓钰.基于Python的城市天气数据爬虫程序分析[J].办公自动化,2022,27(7):10-13. 被引量：10
3龙学磊,田萌,徐英,王虹.网络爬虫在科技文献检索中的应用[J].现代信息科技,2021,5(24):150-152. 被引量：1
4蔡迪阳.基于Python的网页信息爬取技术分析[J].科技资讯,2023,21(13):31-34. 被引量：1
5毛怡明.软件测试中大规模数据爬取和测试方法研究[J].电脑编程技巧与维护,2024(3):94-96.
6杨晓茹,屈琳琳.可视化技术在电子元件筛选系统中的应用设计[J].电子制作,2024,32(8):108-110.
7肖鑫磊,屈琳琳.基于质量控制法的电子元件老化筛选系统设计[J].电子制作,2024,32(9):91-93.
8周加耀,程帅.实用性导向下电子元件智能筛选机器设计研究[J].电子制作,2024,32(9):114-116.
9郭冬云.基于语义Web的金融类创新创业网络资源反批量爬取方法[J].计算机应用文摘,2024,40(13):165-168.

1魏建兵.基于DOM树和混合文本密度的网页信息提取方法研究[J].信息与电脑,2023,35(10):52-54.
2刘晨曦,姚延禄,周新丽.用于磁珠法核酸提取的微流控芯片及自动化平台[J].分析试验室,2024,43(1):111-117.
3郭笃凌,闫长青.数字资源的信息过滤与精准推荐算法[J].印刷与数字媒体技术研究,2024(1):113-121.
4王姣姣,姚华平.基于数据挖掘技术的数据类岗位招聘信息分析与研究[J].现代信息科技,2024,8(2):13-16.
5魏艺泽,郭慧,时晓旭.基于增量文本聚类算法的热点话题检测研究[J].华北科技学院学报,2024,21(1):76-81.
6夏煌智,陈丽敏,毛雪迪,祁富.嵌入翻筋斗策略的自适应秃鹰搜索算法及其应用[J].计算机与现代化,2024(2):7-14.
7鄢诚浩,毕美华,周玉鑫,滕旭阳,胡淼.基于多混沌系统的多层置乱的OFDM-PON物理层加密方案[J].光电子．激光,2024,35(3):225-233.

信息与电脑

2023年第23期

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...

;

使用帮助返回顶部