-
题名基于脚本代码和局部数据匹配的网页抽取研究
- 1
-
-
作者
高永平
-
机构
雅安职业技术学院
-
出处
《计算机光盘软件与应用》
2014年第15期124-124,126,共2页
-
文摘
随着科技的进步互联网的普及,InYXrnXY逐渐成为我们日常生活中的重要角色,变成学习和社会生活中的一部分。随着网络的高速发展,导致用户对信息的需求量也越来越高。HYML作为WXD信息的主要载体在发展中逐渐变得复杂,内容变得丰富。WXD普遍以HYML语言的形式出现,不用直接进行分析处理。WXD信息在网页信息抽取上可以分为手工抽取、半自动抽取、全自动抽取三种,对于网页信息抽取来说其发展的结果就是将逐步被全自动化网页信息抽取技术所取代。通过新方案对网页信息抽取上市进行总结,第一步网页控制代码树可以从网页脚本代码的嵌入转换而来,通过对网页信息抽取的最小编辑距离来动态的规划网页信息抽取的算法,并且将同类阈值的网页结合在一起,最后再根据网页自动生成的规则采取相应的容错性策略,完成对同类网页的抽取。
-
关键词
全自动网页信息抽取
脚本代码
控制代码树
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-