期刊文献+
共找到3篇文章
< 1 >
每页显示 20 50 100
基于网页结构挖掘的信息提取 被引量:2
1
作者 李媛 耿桦 +1 位作者 张甍 潘金贵 《计算机科学》 CSCD 北大核心 2006年第3期191-193,218,共4页
本文提出了两种细粒度的、基于网页结构挖掘的信息提取方法,比较了它们的优缺点,并给出了相应具体实现的性能测试和结果分析。
关键词 信息提取 网页结构挖掘 重复模式 时间特征 RSS
下载PDF
Web聊天室探测系统的网页获取和改进研究
2
作者 孙群 漆正东 《计算机光盘软件与应用》 2012年第3期184-184,187,共2页
网络聊天以它低成本,高效率的优势给网络用户提供了在线实时通信的功能,从而成为目前互联网使用最广泛的网络服务。以网络聊天室的探测为载体深入研究网页获取和预处理的技术问题。主要探讨网络爬虫的原理和工作流程,在网络爬虫器中引... 网络聊天以它低成本,高效率的优势给网络用户提供了在线实时通信的功能,从而成为目前互联网使用最广泛的网络服务。以网络聊天室的探测为载体深入研究网页获取和预处理的技术问题。主要探讨网络爬虫的原理和工作流程,在网络爬虫器中引入网络并行多线程处理技术。讨论WebLech的技术特点和实现技术,对WebLech做出了改进。 展开更多
关键词 网络爬虫 网络并行处理 搜索策略 网页结构挖掘
下载PDF
基于PageRank算法的权威值不均衡分配问题 被引量:20
3
作者 田甜 倪林 《计算机工程》 CAS CSCD 北大核心 2007年第18期53-55,共3页
PageRank对所链接的网页的"权威值"存在平均分配的思想,由于互联网的网页是千差万别的,因此这种方法存在一定的局限性。该文利用了Web链接结构,提出了一种权威值不均衡分配的方法(IPR),通过与PageRank算法相比,IPR的排序结果... PageRank对所链接的网页的"权威值"存在平均分配的思想,由于互联网的网页是千差万别的,因此这种方法存在一定的局限性。该文利用了Web链接结构,提出了一种权威值不均衡分配的方法(IPR),通过与PageRank算法相比,IPR的排序结果比PageRank提高了近90%的相关度。 展开更多
关键词 网页结构挖掘 网页排序 改进的PageRank
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部