基于Web页面链接结构的挖掘算法

The mining algorithm based on the hyperlinks between Web texts

导出

摘要介绍了Web挖掘的有关理论.着重分析了结构挖掘中基于页面链接结构的PageRank算法和对其有改进意义的HITS算法,进而介绍了内容挖掘常用的一些算法以及使用记录挖掘应考虑的问题. This paper introduces the correlative theories about Web mining. We analyze the difference among several manners of Web content mining. Further more, we compare two kinds of algorithms based on Web structure mining, that is PageRank and HITS. In the end, some problems that should be considered in Web usage mining are put forward.

作者王一蕾林世平

机构地区福州大学数学与计算机科学学院

出处《福州大学学报（自然科学版）》 CAS CSCD 2004年第4期476-478,共3页 Journal of Fuzhou University(Natural Science Edition)

基金福建省自然科学基金资助项目(A0110009) 福建省教育厅科研资助项目(JB03026) 福州大学科技发展基金资助项目(2002-XQ-21)

关键词 WEB 页面结构挖掘超链接算法 Web text structure mining hyperlink algorithm

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1TiaweiHan MichelineKamber 范明孟小峰译.数据挖掘概念与技术[M].北京: 机械工业出版社,2001.290-291.
2王一蕾,林世平.Web文本挖掘三种技术的比较[J].福建电脑,2003,19(12):20-21. 被引量：3
3许建潮,王颖楠,胥桂仙.Web文本信息抽取与挖掘方法[J].长春工业大学学报,2002,23(B08):49-53. 被引量：11
4杨炳儒,李岩,陈新中,王霞.Web结构挖掘[J].计算机工程,2003,29(20):28-30. 被引量：20
5Lizhen Liu, Junjie Chen, Hantao Song. The research of Web mining[A]. Proceedings of the 4th world congress on intelligent control and automation[C]. 2002. 2333-2337.

二级参考文献18

1Pitkow J E.Characterizing World Wide Web Ecologies [PhD Thesis]. Georgia Institute of Technology, 1997-06.
2Weise R, Veles B.HyPursuit: A Hierarchical Network Search Engine that Exploits Content-link Hypertext Clustering.In Proceedings of the 7th ACM Conference on Hypertext, 1996-03.
3Spertus E.Parasite: Mining Structural Information on the Web.In:Proc of the Sixth International World Wide Web Conference, 1997-04.
4Kleinberg J M.Authoritative Sources in a Hyperlinked Environment. Proc 9th ACM Press,New York and Siam Press,Philadelphia,1998: 668-677.
5Brin S, Page L. The anatomy of Large-scale Hypertextual Web Search Engine. In: Proc of the 7th Int'l World Wide Web Conf Brisbane, Austrilian, 1998.
6胥桂仙.文本挖掘的一般性方法研究[M].长春:吉林工学院计算机科学与工程学院,2002..
7蒋澄,马范援,蒋思杰.中英文WWW搜索引擎的信息处理[J].计算机工程,1999,25(4):37-38. 被引量：20
8王伟强,高文,段立娟.Internet上的文本数据挖掘[J].计算机科学,2000,27(4):32-36. 被引量：60
9刘芳,卢正鼎.有效地检索HTML文档[J].小型微型计算机系统,2000,21(9):986-988. 被引量：23
10王继成,潘金贵,张福炎.Web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513-520. 被引量：275

共引文献31

1张禹.Web结构挖掘算法的比较改进研究[J].硅谷,2009,2(19).
2冉丽,何毅舟,许龙飞.基于Web结构挖掘的搜索引擎作弊检测方法[J].计算机应用,2004,24(10):158-160. 被引量：4
3潘静,饶若楠.基于Web数据挖掘的信息获取系统的研究及设计[J].计算机工程,2004,30(B12):136-138. 被引量：3
4邵良杉,付曙光,薛立军.企业核心竞争力的Web挖掘研究[J].计算机系统应用,2005,14(8):91-94. 被引量：1
5吴春旭,郭磊.Web结构挖掘的PageRank算法改进[J].情报杂志,2005,24(10):55-56. 被引量：3
6李信利,马军,吕月娥,张德伟.基于文本分类的网页排序算法[J].微计算机信息,2005,21(11X):140-142. 被引量：1
7陈秀卫,王建冬.例谈中小型高校图书馆特色数据库的建设[J].图书馆工作与研究,2006(1):44-47. 被引量：5
8李向伟,曹博.时间参数在HITS算法中的应用及改进[J].兰州工业高等专科学校学报,2006,13(2):19-22. 被引量：4
9王学龙,张雪梅,李向伟.时间参数在HITS算法中的应用及改进[J].现代计算机,2006,12(6):88-91.
10程志,桂占吉.Web挖掘的方法及教育应用[J].中国电化教育,2006(7):98-101. 被引量：2

1赵涓涓,陈俊杰,李元俊.基于Web页面结构和主色调的聚类算法[J].计算机工程,2010,36(3):1-3. 被引量：1
2张小松,窦炳琳.Web挖掘研究[J].唐山学院学报,2003,16(4):80-82. 被引量：3
3丁一,卢正鼎.基于web挖掘的用户服务研究[J].计算机仿真,2004,21(6):83-84. 被引量：6
4李立耀.基于页面链接结构Page Rank算法的改进——有向访问模型[J].福建师大福清分校学报,2006,24(2):4-10. 被引量：1
5何兵,陶宏才,强晓焕.WEB使用记录挖掘研究[J].广西师范学院学报（自然科学版）,2003,20(4):82-85.
6胡明,王小虎,刘钢.基于页面链接挖掘的Web信息检索[J].情报杂志,2003,22(9):21-22. 被引量：6
7刘冉,布辉.Web挖掘技术在网络课件中的应用[J].软件导刊,2008,7(7):75-76.
8王冰.军事情报Web数据挖掘机制[J].情报杂志,2007,26(3):58-60. 被引量：3
9李娜.商务网站的Web使用记录挖掘[J].中国科技信息,2007(1):121-122.
10李元俊,陈俊杰,赵涓涓.基于Web页面链接和标签的聚类方法[J].计算机工程与设计,2009,30(18):4266-4268. 被引量：2

福州大学学报（自然科学版）

2004年第4期

浏览历史

内容加载中请稍等...

基于Web页面链接结构的挖掘算法

参考文献5

二级参考文献18

共引文献31

相关作者

相关机构

相关主题

浏览历史