-
题名灵活结构网页的正文提取
被引量:3
- 1
-
-
作者
殷彬
杨会志
-
机构
电子科技大学中山学院
-
出处
《计算机技术与发展》
2011年第9期111-113,117,共4页
-
基金
中山市科技计划项目(20092A210)
-
文摘
在Web数据挖掘中,由于网页大多都含有指向其他页面的超链接等噪音信息,为了减少噪音信息对Web数据挖掘效果的影响,有必要对网页进行净化处理,提取其中的正文,同时,现实中很多网页的代码结构不是特别规范,对此,提出一种对灵活结构网页适用的正文抽取算法。将网页用HTML标签分割成节点形式,找出其中含有正文内容的一个节点,以此节点为基础向前和向后进行余下正文内容的抽取。实验结果表明,本算法的适用性强、正确率较高。
-
关键词
WEB数据挖掘
网页内容提取
正文节点
超链接节点
节点权值
链接密度
-
Keywords
Web data mining
Web information extraction
content node
hyperlink node
node weight
link density
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-