期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
2
篇文章
<
1
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
基于子树相似度计算的网页评论提取算法研究
被引量:
5
1
作者
朱毅华
张超群
+4 位作者
曾通
吴龙凤
徐玛丽
王东波
李晓晖
《现代图书情报技术》
CSSCI
北大核心
2013年第11期52-59,共8页
将网页评论的识别与自动提取转化为DOM树结构中的子树循环体识别问题,提出一种基于网页DOM子树相似度计算的方法,从网页中<BODY>节点向下逐层遍历识别出满足约定条件的评论块节点树。针对目前DOM树相似度计算算法在评论提取方面...
将网页评论的识别与自动提取转化为DOM树结构中的子树循环体识别问题,提出一种基于网页DOM子树相似度计算的方法,从网页中<BODY>节点向下逐层遍历识别出满足约定条件的评论块节点树。针对目前DOM树相似度计算算法在评论提取方面的性能不足,本算法同时考虑树节点的标签与位置信息构建叶节点路径,通过求解两个DOM子树的叶节点路径相似度矩阵得到两个子树的相似度。比较其他几种基于DOM相似度计算方法和一种基于标签权重的网页评论提取方法在性能和效率上的差异。实验表明,基于本算法的网页评论提取方法具有较高的查准率和查全率,总体优于现有网页评论提取方法。
展开更多
关键词
DOM树
子树相似度
评论提取
原文传递
基于数据富集区域的Web内容自动抽取
2
作者
许志坚
孙蕾
《计算机工程》
CAS
CSCD
2013年第9期192-195,共4页
对电子商务网站的Web页面进行商品信息自动抽取,可以为进一步的增值服务,如比价、查询等提供有价值的信息。为此,提出一种Web内容自动抽取方法。通过对比标签树对目标页面进行去噪,采用基于树匹配的子树相似度计算方法挖掘目标页面的数...
对电子商务网站的Web页面进行商品信息自动抽取,可以为进一步的增值服务,如比价、查询等提供有价值的信息。为此,提出一种Web内容自动抽取方法。通过对比标签树对目标页面进行去噪,采用基于树匹配的子树相似度计算方法挖掘目标页面的数据富集区域,从而抽取商品的数据记录。在5个电子商务网站上的实验结果表明,该方法的准确率均高于MDR方法,且召回率较高。
展开更多
关键词
数据富集区域
Web内容抽取
树匹配
标签树
子树相似度
数据记录
下载PDF
职称材料
题名
基于子树相似度计算的网页评论提取算法研究
被引量:
5
1
作者
朱毅华
张超群
曾通
吴龙凤
徐玛丽
王东波
李晓晖
机构
南京农业大学信息科学技术学院
出处
《现代图书情报技术》
CSSCI
北大核心
2013年第11期52-59,共8页
基金
教育部人文社会科学研究青年基金项目"基于信息生态学的网络舆情管理机制与平台研究"(项目编号:10YJC870053)
江苏高校哲学社会科学研究重点项目"涉农网络舆情的政府监管研究"(项目编号:2011ZDIXM027)的研究成果之一
文摘
将网页评论的识别与自动提取转化为DOM树结构中的子树循环体识别问题,提出一种基于网页DOM子树相似度计算的方法,从网页中<BODY>节点向下逐层遍历识别出满足约定条件的评论块节点树。针对目前DOM树相似度计算算法在评论提取方面的性能不足,本算法同时考虑树节点的标签与位置信息构建叶节点路径,通过求解两个DOM子树的叶节点路径相似度矩阵得到两个子树的相似度。比较其他几种基于DOM相似度计算方法和一种基于标签权重的网页评论提取方法在性能和效率上的差异。实验表明,基于本算法的网页评论提取方法具有较高的查准率和查全率,总体优于现有网页评论提取方法。
关键词
DOM树
子树相似度
评论提取
Keywords
DOM - Tree Sub - tree similarity Review extraction
分类号
TP393.092 [自动化与计算机技术—计算机应用技术]
原文传递
题名
基于数据富集区域的Web内容自动抽取
2
作者
许志坚
孙蕾
机构
华东师范大学计算机科学与技术系
出处
《计算机工程》
CAS
CSCD
2013年第9期192-195,共4页
基金
上海自然科学基金资助项目(09ZR1409500)
文摘
对电子商务网站的Web页面进行商品信息自动抽取,可以为进一步的增值服务,如比价、查询等提供有价值的信息。为此,提出一种Web内容自动抽取方法。通过对比标签树对目标页面进行去噪,采用基于树匹配的子树相似度计算方法挖掘目标页面的数据富集区域,从而抽取商品的数据记录。在5个电子商务网站上的实验结果表明,该方法的准确率均高于MDR方法,且召回率较高。
关键词
数据富集区域
Web内容抽取
树匹配
标签树
子树相似度
数据记录
Keywords
data enrichment region
Web.content extraction
tree-matching
tag tree
sub-trees similarity
data record
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
基于子树相似度计算的网页评论提取算法研究
朱毅华
张超群
曾通
吴龙凤
徐玛丽
王东波
李晓晖
《现代图书情报技术》
CSSCI
北大核心
2013
5
原文传递
2
基于数据富集区域的Web内容自动抽取
许志坚
孙蕾
《计算机工程》
CAS
CSCD
2013
0
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部