链路结构的网页聚类研究被引量：1

Research of Web Pages Clustering based on Link Structure

下载PDF

导出

摘要网页的链接关系反映了网页之间联系的紧密程度,这种紧密关系是网页聚类的重要依据.首先通过对网页链路结构的特点分析,提出网页节点的基本集、扩展集、半径、邻域、密度和路径树等概念;然后,利用共享入度出度以及网页之间的相异度来衡量其距离,并结合扩展集中的链接信息设计了网页相似度的计算模型;最后,利用密度分布对网页进行聚类.实验结果表明,本算法具有较好的聚类效果. The relationships of links between Web pages reflect the close degree of the connection between web pages which is the basis of web page clustering. At first,this paper analyzes the characteristics of the structure of web page link,and puts forward the concept of basic web node set,extension set,radius,neighborhood,density and path relationship graph; Then,using the shared in-degrees,out-degrees and dissimilarity to measure distance between pages,combining to the similarity relationship of extension set,design the calculation formula of web distance based on link analysis; Finally,cluster web pages from the perspective of density distribution. The experimental results showthat the algorithm has good clustering effect.

作者刘勘范琴

机构地区中南财经政法大学信息与安全工程学院

出处《小型微型计算机系统》 CSCD 北大核心 2016年第7期1450-1454,共5页 Journal of Chinese Computer Systems

基金国家自然科学基金项目(71203164)资助国家社会科学基金项目(14BXW033)资助

关键词 WEB挖掘链接分析网页聚类 Web mining link analysis Web page clustering

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1贺秋芳,曾启杰,蔡延光.挖掘用户标签的增强型社区网页聚类算法[J].微电子学与计算机,2013,30(2):74-77. 被引量：4
2郭景峰,马鑫,代军丽.基于文本—链接模型和近邻传播算法的网页聚类[J].计算机应用研究,2010,27(4):1255-1258. 被引量：3
3赵华军,钟才明,李文,王睿智,苗夺谦.网页搜索结果聚类与可视化[J].南京大学学报（自然科学版）,2010,46(5):542-551. 被引量：5
4余旸,Zhangxi LIN,夏国平.基于链接结构分析的主题搜索[J].北京工业大学学报,2011,37(4):614-618. 被引量：2

二级参考文献46

1刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
2彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：44
3Zeng H J, He Q C, Chen Z, etal. Learning to cluster web search Results. Proceedings of the 27^th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Sheffield, 2004.- 210-217.
4Zhang D, Dong Y S. Semantic, hierarchical, online clustering of web search results. Proceedings of the Advanced Web Technologies and Applications, the 6^th Asia-Pacific Web Conference, 2004, 3007: 69-78.
5Cutting D, Karger D, Pedersen J, et al. Scatter/Gather: A cluster-based approach to browsing large document collections. Proceedings of the 15^th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Copenhagen, 1992, 318-392.
6Zamir O, Etzioni O. Grouper: A dynamic clustering interface to web search results. Computer Networks, 1999, 31(11-16) : 1361-1374.
7Weiss D, Osinski S. Carrot^2 open source framework for building search clustering engines. http://project.carrot2. org/. 2008-03.
8Osinski S, Stefanowski J, Weiss D. Lingo: Search results clustering algorithm based on singular value decomposition. Proceedings of the International Conference on Intelligent Information Systems (IIPWM), 2004, 359-368.
9Giacomo E, Didimo D, Grilli L, et al. Graph visualization techniques for web clustering engines. IEEE Transactions on Visualization and Computer Graphics, 2007, 13(2): 294-304.
10Gulli A. Personalized sankeT, http://snaket. di. unipi. it/. 2005-06.

共引文献10

1姚瑶,王战红,石磊.一种基于页面聚类的Web概念化建模新方法[J].微电子学与计算机,2015,32(1):156-160. 被引量：2
2陈永彬,张琢.智能单粒子优化算法在聚类分析中的应用[J].南京大学学报（自然科学版）,2011,47(5):578-584. 被引量：3
3吴会松.近邻传播算法的情境感知学习系统构建分析[J].福建师大福清分校学报,2012,30(5):46-51.
4孙战彪.非结构化P2P网络资源搜索算法研究[J].科技信息,2013(10):289-290. 被引量：1
5顾晓雪,章成志.结合内容和标签的Web文本聚类研究[J].现代图书情报技术,2014(11):45-52. 被引量：8
6林晶,彭小宁.基于主题语义URL的信息搜索方法研究[J].计算机应用与软件,2015,32(6):42-45. 被引量：2
7王恬,李书琴,王志伟.农业信息搜索可视化平台研究[J].计算机应用与软件,2016,33(3):271-274. 被引量：6
8孙雨生,李沁芸,刘阳,朱礼军.国内可视化搜索引擎研究进展:领域应用与系统实现[J].图书馆理论与实践,2018(3):41-45. 被引量：1
9郭红建,陈一飞.社会标注系统自适应网页聚类算法研究[J].电子科技,2018,31(8):73-76.
10张毅,杜秀春,刘欣,刘华富.基于多域的互联网物理对象关联分析方法研究[J].计算机技术与发展,2018,28(4):25-30.

同被引文献4

1郭景峰,马鑫,代军丽.基于文本—链接模型和近邻传播算法的网页聚类[J].计算机应用研究,2010,27(4):1255-1258. 被引量：3
2白洁.大数据应用[J].信息安全与通信保密,2013(10):13-16. 被引量：4
3袁胜.“白环境”下的工控安全[J].中国信息安全,2016(4):74-75. 被引量：3
4张魏斌,曾锋,伍泽全,谭紫逸.移动群体感知中基于社会关系的路由算法[J].计算机应用研究,2016,33(10):3128-3131. 被引量：1

引证文献1

1张毅,杜秀春,刘欣,刘华富.基于多域的互联网物理对象关联分析方法研究[J].计算机技术与发展,2018,28(4):25-30.

1冯丽媛,祁红岩.基于NS2的UDP性能仿真研究[J].微计算机信息,2008,24(15):263-265. 被引量：3
2王建平,范科峰,肖勇.HDCP在Displayport上的应用及实现[J].计算机系统应用,2009,18(4):175-178.
3宋明秋,张瑞雪.基于链路压缩树的网页相似度研究[J].情报学报,2012,31(1):40-46. 被引量：2
4无.数据中心布线系统的测试[J].智能建筑与城市信息,2008(7):84-85.
5TAO Haicheng,WANG Youquan,WU Zhi'ang,BU Zhan,CAO Jie.Discovering Overlapping Communities by Clustering Local Link Structures[J].Chinese Journal of Electronics,2017,26(2):430-434. 被引量：3
6沈盈洪,丰翔龙,黄荣游.基于网页聚类的搜索结果优化算法研究[J].计算机应用,2010,30(A01):51-53. 被引量：3
7张敏.信息抽取技术在网页中的应用[J].中国城市经济,2011(20):150-151.
8徐铁,耿佳宁.网页信息抽取方法的研究[J].信息技术,2009,33(4):112-115. 被引量：4
9汪跃龙.工控软件iFIX的数据链路结构及其应用[J].化工自动化及仪表,2004,31(5):34-37. 被引量：1
10刘勘,范琴.基于链路结构的微博领域专家识别研究[J].情报学报,2016,35(1):66-76. 被引量：3

小型微型计算机系统

2016年第7期

浏览历史

内容加载中请稍等...

链路结构的网页聚类研究被引量：1

参考文献4

二级参考文献46

共引文献10

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

链路结构的网页聚类研究 被引量：1

参考文献4

二级参考文献46

共引文献10

同被引文献4

引证文献1

相关作者

相关机构

相关主题

浏览历史

链路结构的网页聚类研究被引量：1