期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
基于子树相似度计算的网页评论提取算法研究 被引量:5
1
作者 朱毅华 张超群 +4 位作者 曾通 吴龙凤 徐玛丽 王东波 李晓晖 《现代图书情报技术》 CSSCI 北大核心 2013年第11期52-59,共8页
将网页评论的识别与自动提取转化为DOM树结构中的子树循环体识别问题,提出一种基于网页DOM子树相似度计算的方法,从网页中<BODY>节点向下逐层遍历识别出满足约定条件的评论块节点树。针对目前DOM树相似度计算算法在评论提取方面... 将网页评论的识别与自动提取转化为DOM树结构中的子树循环体识别问题,提出一种基于网页DOM子树相似度计算的方法,从网页中<BODY>节点向下逐层遍历识别出满足约定条件的评论块节点树。针对目前DOM树相似度计算算法在评论提取方面的性能不足,本算法同时考虑树节点的标签与位置信息构建叶节点路径,通过求解两个DOM子树的叶节点路径相似度矩阵得到两个子树的相似度。比较其他几种基于DOM相似度计算方法和一种基于标签权重的网页评论提取方法在性能和效率上的差异。实验表明,基于本算法的网页评论提取方法具有较高的查准率和查全率,总体优于现有网页评论提取方法。 展开更多
关键词 DOM树 子树相似度 评论提取
原文传递
基于数据富集区域的Web内容自动抽取
2
作者 许志坚 孙蕾 《计算机工程》 CAS CSCD 2013年第9期192-195,共4页
对电子商务网站的Web页面进行商品信息自动抽取,可以为进一步的增值服务,如比价、查询等提供有价值的信息。为此,提出一种Web内容自动抽取方法。通过对比标签树对目标页面进行去噪,采用基于树匹配的子树相似度计算方法挖掘目标页面的数... 对电子商务网站的Web页面进行商品信息自动抽取,可以为进一步的增值服务,如比价、查询等提供有价值的信息。为此,提出一种Web内容自动抽取方法。通过对比标签树对目标页面进行去噪,采用基于树匹配的子树相似度计算方法挖掘目标页面的数据富集区域,从而抽取商品的数据记录。在5个电子商务网站上的实验结果表明,该方法的准确率均高于MDR方法,且召回率较高。 展开更多
关键词 数据富集区域 Web内容抽取 树匹配 标签树 子树相似度 数据记录
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部