-
题名基于网页结构挖掘的信息提取
被引量:2
- 1
-
-
作者
李媛
耿桦
张甍
潘金贵
-
机构
南京大学计算机软件新技术国家重点实验室
-
出处
《计算机科学》
CSCD
北大核心
2006年第3期191-193,218,共4页
-
文摘
本文提出了两种细粒度的、基于网页结构挖掘的信息提取方法,比较了它们的优缺点,并给出了相应具体实现的性能测试和结果分析。
-
关键词
信息提取
网页结构挖掘
重复模式
时间特征
RSS
-
Keywords
Information extraction, Mining structures of Web pages, Repeated pattern, Time characteristic, RSS
-
分类号
TP391.41
[自动化与计算机技术—计算机应用技术]
TP311.5
[自动化与计算机技术—计算机软件与理论]
-
-
题名Web聊天室探测系统的网页获取和改进研究
- 2
-
-
作者
孙群
漆正东
-
机构
湖北工业大学
江西建设职业技术学院
中国瑞林工程技术有限公司
-
出处
《计算机光盘软件与应用》
2012年第3期184-184,187,共2页
-
文摘
网络聊天以它低成本,高效率的优势给网络用户提供了在线实时通信的功能,从而成为目前互联网使用最广泛的网络服务。以网络聊天室的探测为载体深入研究网页获取和预处理的技术问题。主要探讨网络爬虫的原理和工作流程,在网络爬虫器中引入网络并行多线程处理技术。讨论WebLech的技术特点和实现技术,对WebLech做出了改进。
-
关键词
网络爬虫
网络并行处理
搜索策略
网页结构挖掘
-
Keywords
Web crawler
Network parallel processing
Search strategy
Web structuremining
-
分类号
TP393.08
[自动化与计算机技术—计算机应用技术]
-
-
题名基于PageRank算法的权威值不均衡分配问题
被引量:20
- 3
-
-
作者
田甜
倪林
-
机构
中国科技大学电子工程与信息科学系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2007年第18期53-55,共3页
-
基金
国家自然科学基金资助项目(60372059)
安徽省自然科学基金资助项目(03042206)
-
文摘
PageRank对所链接的网页的"权威值"存在平均分配的思想,由于互联网的网页是千差万别的,因此这种方法存在一定的局限性。该文利用了Web链接结构,提出了一种权威值不均衡分配的方法(IPR),通过与PageRank算法相比,IPR的排序结果比PageRank提高了近90%的相关度。
-
关键词
网页结构挖掘
网页排序
改进的PageRank
-
Keywords
Web structure mining
page ranking
improved PageRank(IPR)
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-