-
题名基于混沌序列的网页信息关键词爬取方法优化
- 1
-
-
作者
王晓宇
王培
-
机构
郑州西亚斯学院计算机与软件工程学院
-
出处
《信息与电脑》
2023年第23期69-71,共3页
-
基金
河南省2021年民办普通高等学校学科专业建设资助项目(项目编号:教办政法[2020]179号,软件工程)。
-
文摘
常规的网页信息关键词爬取方法通过提取网页信息的统一资源定位器(Uniform Resource Locator,URL)来获得网页信息,提取关键词局限于文本字段,导致爬取准确率较低。对此,提出基于混沌序列的网页信息关键词爬取方法。首先,分析信息爬取流程,提取更加详细的全部信息;其次,根据提取原理的不同,划分网页信息提取板块;最后,分析网页信息混沌序列,提取所需网页信息关键词。实验结果表明,采用所提方法时,爬取准确率约为96.8%,相比传统方法提高了6.92%,相对来说,具有较高的准确性。
-
关键词
PYTHON
网页信息
信息爬取
关键词提炼
-
Keywords
Python
web page information
information crawl
keyword extraction
-
分类号
G642
[文化科学—高等教育学]
-