期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于布局相似性的网页正文内容提取研究 被引量:10
1
作者 杨柳青 李晓东 耿光刚 《计算机应用研究》 CSCD 北大核心 2015年第9期2581-2586,共6页
合理的网页正文提取技术可以将海量互联网数据中冗余的、重复的、无用的信息去除,获取更加有实际意义和价值的数据。经过对网页的观察,发现同一网站下的网页具有在内容布局和样式结构上非常相似的特点,提出并实现了一种基于布局相似性... 合理的网页正文提取技术可以将海量互联网数据中冗余的、重复的、无用的信息去除,获取更加有实际意义和价值的数据。经过对网页的观察,发现同一网站下的网页具有在内容布局和样式结构上非常相似的特点,提出并实现了一种基于布局相似性的网页正文提取方法,即通过比对来自同一网站同一专题的网页DOM树中节点数据信息的相似性来实现正文提取,并对相关问题进行了尝试性的研究和实现。实验证明该方法思路简单、实用性强、普适性好,在满足较高准确率的同时,能为众多互联网内容分析应用提供支撑。 展开更多
关键词 布局相似性 网页正文提取 信息检索
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部