摘要
本文通过研究新Web标准网页的数据结构,并在信息抽取技术的基础上,提出了一种基于HTML5语义化标签的网页正文提取技术。该技术能够有效的过滤掉与网页主题无关的噪音信息,从而能有效提取有价值文本信息。
On the basis of deep analysis and reasearch on the data structure of the web page and page cleanup techniques. This paper puts forward a new web page cleanup techniques based on HTML 5 structural tags. This method can effectively distinguish the Web content and noise from the subject of page, so it has a good practicality value and useful prospect.
作者
韦佳佳
WEI Jia-Jia(Department of Information Engineering, Anhui Techincal College of Mechanical and Electrical, Anhui Wuhu 241002, China)
出处
《贵阳学院学报(自然科学版)》
2017年第3期25-28,共4页
Journal of Guiyang University:Natural Sciences
基金
2015院级青年教师发展支持计划教科研项目(项目编号:2015yjjy022)