期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
灵活结构网页的正文提取 被引量:3
1
作者 殷彬 杨会志 《计算机技术与发展》 2011年第9期111-113,117,共4页
在Web数据挖掘中,由于网页大多都含有指向其他页面的超链接等噪音信息,为了减少噪音信息对Web数据挖掘效果的影响,有必要对网页进行净化处理,提取其中的正文,同时,现实中很多网页的代码结构不是特别规范,对此,提出一种对灵活结构网页适... 在Web数据挖掘中,由于网页大多都含有指向其他页面的超链接等噪音信息,为了减少噪音信息对Web数据挖掘效果的影响,有必要对网页进行净化处理,提取其中的正文,同时,现实中很多网页的代码结构不是特别规范,对此,提出一种对灵活结构网页适用的正文抽取算法。将网页用HTML标签分割成节点形式,找出其中含有正文内容的一个节点,以此节点为基础向前和向后进行余下正文内容的抽取。实验结果表明,本算法的适用性强、正确率较高。 展开更多
关键词 WEB数据挖掘 网页内容提取 正文节点 超链接节点 节点权值 链接密度
下载PDF
一种互联网新闻网页的采集分析方法 被引量:1
2
作者 吴定明 赵东岩 《计算机工程与应用》 CSCD 北大核心 2007年第36期169-172,共4页
设计了一种采集分析互联网新闻网页的方法。该方法根据给定的新闻网站的入口地址在网络上找出所有的相关链接;区分这些链接所指向的页面特征,过滤掉相关性不大的内容,提取所有新闻网页的链接;进而进行多层次链接分析,根据新闻的图片、... 设计了一种采集分析互联网新闻网页的方法。该方法根据给定的新闻网站的入口地址在网络上找出所有的相关链接;区分这些链接所指向的页面特征,过滤掉相关性不大的内容,提取所有新闻网页的链接;进而进行多层次链接分析,根据新闻的图片、标题字体属性及日期,采用NewsPageRank算法计算每个新闻链接的权重。测试结果表明该方法对Internet上的新闻站点普遍具有较好的分析效果,性能可以满足实用要求。 展开更多
关键词 链接分析 页面评估 互联网 网页采集 链接识别 链接权重 网页权重分析 新闻网页
下载PDF
基于Web日志挖掘的网页权重技术分析
3
作者 陈浩 《广东水利电力职业技术学院学报》 2009年第3期34-36,共3页
在Web站点中,不同用户访问过的网页文档路径显然是不同的,但不同用户都访问过的网页文档路径却是非常重要的。对此,合理利用这一特点,在标准的PageRank算法基础上提出了一个新的PageRank算法,利用用户先前访问过的导航路径图来修改传统... 在Web站点中,不同用户访问过的网页文档路径显然是不同的,但不同用户都访问过的网页文档路径却是非常重要的。对此,合理利用这一特点,在标准的PageRank算法基础上提出了一个新的PageRank算法,利用用户先前访问过的导航路径图来修改传统的PageRank算法,即Web日志挖掘的PageRank算法。 展开更多
关键词 网页相关度 超链分析 日志挖掘 PAGERANK 权重
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部