-
题名基于统计的网页净化模板生成算法
- 1
-
-
作者
胡飞
黄军建
成平广
席海
李军
-
机构
重庆第二师范学院网络中心
重庆第二师范学院财务处
重庆第二师范学院教务处
-
出处
《科学技术与工程》
北大核心
2013年第4期1060-1063,共4页
-
基金
重庆教育学院研究项目(KY201176C)资助
-
文摘
同一个站点的大部分网页拥有几乎相同的DOM标签树,处理后的标签树作为一个模板,该站点的所有网页只保留这个模板中叶子节点包含的内容,由此可以实现这个站点的所有网页的净化。首先对一个站点内的一组样本网页提取内容块树,针对每个树统计每个标签节点包含的文本字数,同级节点只保留字数最多的一个,从而生成单边子树UST;然后把这组UST合并,同级节点中出现次数最多的即为重要内容节点,把这些节点串起来就构成重要单边子树PUST;最后比对每个父节点与子节点之间的字数,当比值超过一个阈值时则删除子节点以下的所有节点,从而生成该站点的重要单边子树SPUST。这个SPUST就是该站点的网页净化模板。
-
关键词
网页净化
信息提取
单边子树
-
Keywords
Web page purification information extraction unilateral subtree
-
分类号
TP393.09
[自动化与计算机技术—计算机应用技术]
-