期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于逆向匹配的电子商务网站实体模板半自动构建方法
1
作者 傅彦 徐昭邦 +1 位作者 夏虎 周俊临 《中文信息学报》 CSCD 北大核心 2015年第2期157-162,178,共7页
Web页面中的主题信息一般分布比较集中,可利用网页的这一特性进行网页主题信息的自动提取。网页源代码中的HTML标签不规范,使得正向匹配难以生成嵌套结构准确的DOM树,该文提出一种通过逆向匹配的方法,构建完整的网页源代码DOM树。通过对... Web页面中的主题信息一般分布比较集中,可利用网页的这一特性进行网页主题信息的自动提取。网页源代码中的HTML标签不规范,使得正向匹配难以生成嵌套结构准确的DOM树,该文提出一种通过逆向匹配的方法,构建完整的网页源代码DOM树。通过对DOM树进行剪枝,删除无关节点,对保留下来的信息块的节点标签进行人工选择与唯一性判定,从而生成提取模板。该方法能够实现对电子商务网站源网页中的主题信息进行提取,是一种半自动、通用的方法,可用于信息检索系统中的信息采集。 展开更多
关键词 逆向匹配 DOM树 模板构建 信息提取
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部