期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于DIV标签树的网页主题信息抽取方法 被引量:1
1
作者 欧阳柳波 杨柱 易显 《计算机系统应用》 2010年第7期193-196,139,共5页
随着CSS+DIV布局方式逐渐成为网页结构布局的主流,对此类网页进行高效的主题信息抽取已成为专业搜索引擎的迫切任务之一。提出一种基于DIV标签树的网页主题信息抽取方法,首先根据DIV标签把HTML文档解析成DIV森林,然后过滤掉DIV标签树中... 随着CSS+DIV布局方式逐渐成为网页结构布局的主流,对此类网页进行高效的主题信息抽取已成为专业搜索引擎的迫切任务之一。提出一种基于DIV标签树的网页主题信息抽取方法,首先根据DIV标签把HTML文档解析成DIV森林,然后过滤掉DIV标签树中的噪声结点并且建立STU-DIV模型树,最后通过主题相关度分析和剪枝算法,剪掉与主题信息无关的DIV标签树。通过对多个新闻网站的网页进行分析处理,实验证明此方法能够有效地抽取新闻网页的主题信息。 展开更多
关键词 主题信息抽取 DIV标签树 STU-DIV模型树 主题相关度 剪枝算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部