-
题名基于Web页面结构的网页数据提取技术探究
被引量:1
- 1
-
-
作者
郭晓宇
彭浩
-
机构
湖南涉外经济学院
-
出处
《产业与科技论坛》
2020年第18期66-67,共2页
-
基金
湖南省自然科学基金资助项目(编号:2017JJ2135)
湖南省教育厅科学研究项目(编号:18A481,19C1070)研究成果
-
文摘
随着网络技术的迅速发展,各种各样的数据信息呈现出爆炸性的增长,而网络上的数据主要来自于Web数据。然而受到多种因素的影响,人们往往不能在众多的数据当中提取到需要的或者感兴趣的内容,所以如何在众多的数据当中提取到有用的内容并且存储起来十分的重要。现阶段,对此方面的研究大多是以HTML标签解析为依据基于网页DOM树结构,再利用包装器的设计方式进行相应的提取技术。本文以DOM树结构为基础,主要对Web页面抽取和相关技术进行概述,研究了Web页面数据的区域定位算法,从而进行网页数据记录抽取工作。
-
关键词
web页面结构
网页数据
提取技术
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-