-
题名灵活结构网页的正文提取
被引量:3
- 1
-
-
作者
殷彬
杨会志
-
机构
电子科技大学中山学院
-
出处
《计算机技术与发展》
2011年第9期111-113,117,共4页
-
基金
中山市科技计划项目(20092A210)
-
文摘
在Web数据挖掘中,由于网页大多都含有指向其他页面的超链接等噪音信息,为了减少噪音信息对Web数据挖掘效果的影响,有必要对网页进行净化处理,提取其中的正文,同时,现实中很多网页的代码结构不是特别规范,对此,提出一种对灵活结构网页适用的正文抽取算法。将网页用HTML标签分割成节点形式,找出其中含有正文内容的一个节点,以此节点为基础向前和向后进行余下正文内容的抽取。实验结果表明,本算法的适用性强、正确率较高。
-
关键词
WEB数据挖掘
网页内容提取
正文节点
超链接节点
节点权值
链接密度
-
Keywords
Web data mining
Web information extraction
content node
hyperlink node
node weight
link density
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名一种互联网新闻网页的采集分析方法
被引量:1
- 2
-
-
作者
吴定明
赵东岩
-
机构
北京大学计算机研究所
-
出处
《计算机工程与应用》
CSCD
北大核心
2007年第36期169-172,共4页
-
基金
国家部委"十一五"预研项目(the Pre-Research Project of the"Eleventh Five-Year-Plan"of China Ministries and Commissions No.2006BAH02A10)
-
文摘
设计了一种采集分析互联网新闻网页的方法。该方法根据给定的新闻网站的入口地址在网络上找出所有的相关链接;区分这些链接所指向的页面特征,过滤掉相关性不大的内容,提取所有新闻网页的链接;进而进行多层次链接分析,根据新闻的图片、标题字体属性及日期,采用NewsPageRank算法计算每个新闻链接的权重。测试结果表明该方法对Internet上的新闻站点普遍具有较好的分析效果,性能可以满足实用要求。
-
关键词
链接分析
页面评估
互联网
网页采集
链接识别
链接权重
网页权重分析
新闻网页
-
Keywords
analyze hyperlinks
PageRank
Internet
collect web pages
identify hyperlinks
hyperlink weight
analyze page weight
news page
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于Web日志挖掘的网页权重技术分析
- 3
-
-
作者
陈浩
-
机构
广东水利电力职业技术学院
-
出处
《广东水利电力职业技术学院学报》
2009年第3期34-36,共3页
-
文摘
在Web站点中,不同用户访问过的网页文档路径显然是不同的,但不同用户都访问过的网页文档路径却是非常重要的。对此,合理利用这一特点,在标准的PageRank算法基础上提出了一个新的PageRank算法,利用用户先前访问过的导航路径图来修改传统的PageRank算法,即Web日志挖掘的PageRank算法。
-
关键词
网页相关度
超链分析
日志挖掘
PAGERANK
权重
-
Keywords
page relevance
hyperlink analysis
log mining
PageRank
weight
-
分类号
TP393.092
[自动化与计算机技术—计算机应用技术]
-