期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于视觉信息和标签路径的数据抽取
1
作者 张巍 邹晓明 谈凤真 《中国海洋大学学报(自然科学版)》 CAS CSCD 北大核心 2015年第5期114-119,共6页
结合网页的视觉信息和DOM树结构,研究从Deep Web查询结果页面中抽取半结构化数据的问题。通过视觉块与整个网页的面积比定位数据区域。根据数据记录两两相邻等视觉特征找到包含数据记录的一组节点,并通过比较各节点的DOM树结构的相似度... 结合网页的视觉信息和DOM树结构,研究从Deep Web查询结果页面中抽取半结构化数据的问题。通过视觉块与整个网页的面积比定位数据区域。根据数据记录两两相邻等视觉特征找到包含数据记录的一组节点,并通过比较各节点的DOM树结构的相似度去除噪音节点。根据xpath属性将各条数据记录的数据项对齐。对整个抽取过程生成模板,可以使抽取效率得到很大提高。对8个Deep Web网站进行了抽取数据实验,结果表明本文方法是有效的。 展开更多
关键词 DEEP WEB数据抽取 视觉信息 标签路径
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部