网页搜索结果聚类与可视化被引量：5

Clustering and visualization of web search results

下载PDF

导出

摘要搜索引擎成为当今在互联网上进行信息检索最常用的工具.主流搜索引擎以与用户查询的相关度排序返回搜索结果,且自然语言中存在的"一义多词"和"一词多义"现象,用户很难清楚表达他们的意图,导致往往花费较长时间从结果列表中选择所感兴趣的话题.针对这种状况,采用网页聚类技术对标题和摘要进行聚类后,并可视化地以树和图的方式向用户快速、全貌和直观地展示搜索结果,明显改善了用户搜索体验.在此基础上设计了网页聚类原型系统ECE(effective clustering engine),实验结果表明该算法具有聚类结果可读性好以及聚类准确度比较高的优点. Nowadays search engines are the most common tools for information retrieval on the internet.However,there are several limitations such as low search coverage and dynamic characteristic of web pages,it is the reason why no breakthrough made on users＇ searching experience recent years.The leading search engines will return a long list of records that are sorted by the correlation with the queries,the phenomena of synonymy and polysemy make users express their intention difficultly and spend much time on selecting web pages they are interested in.This paper aims at enhancing searching experience using data analysis technologies.Through clustering and visualizing web search results,then grouping the clustering results according to some criterions,it makes users locate their interested information quickly.The data structure related to suffix tree are being widely used in string processing and text compression.The clustering algorithm based on suffix tree which makes it easy to recognize the shared phrases among web pages can be used to cluster web pages,it improves the clustering efficiency as not to calculate the similarities between pair-wise documents,and assigns meaningful labels for the clustering results to enhance the readability,also improves end users＇ searching experience through visualization.An effective clustering engine prototype system named effective clustering engine has been built on this approach.The algorithm is quite efficient,and the clustering results are readable and accurate verified by the experiments.

作者赵华军钟才明李文王睿智苗夺谦

机构地区同济大学嵌入式系统与服务计算教育部重点实验室计算机科学与技术系

出处《南京大学学报（自然科学版）》 CAS CSCD 北大核心 2010年第5期542-551,共10页 Journal of Nanjing University（Natural Science）

基金国家自然科学基金(60475019 60970061) 博士学科点专项基金(20060247039)

关键词网页聚类后缀树可视化短语簇算法 web clustering suffix tree visualization phrase cluster algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献25

1Zeng H J, He Q C, Chen Z, etal. Learning to cluster web search Results. Proceedings of the 27^th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Sheffield, 2004.- 210-217.
2Zhang D, Dong Y S. Semantic, hierarchical, online clustering of web search results. Proceedings of the Advanced Web Technologies and Applications, the 6^th Asia-Pacific Web Conference, 2004, 3007: 69-78.
3Cutting D, Karger D, Pedersen J, et al. Scatter/Gather: A cluster-based approach to browsing large document collections. Proceedings of the 15^th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, Copenhagen, 1992, 318-392.
4Zamir O, Etzioni O. Grouper: A dynamic clustering interface to web search results. Computer Networks, 1999, 31(11-16) : 1361-1374.
5Weiss D, Osinski S. Carrot^2 open source framework for building search clustering engines. http://project.carrot2. org/. 2008-03.
6Osinski S, Stefanowski J, Weiss D. Lingo: Search results clustering algorithm based on singular value decomposition. Proceedings of the International Conference on Intelligent Information Systems (IIPWM), 2004, 359-368.
7Giacomo E, Didimo D, Grilli L, et al. Graph visualization techniques for web clustering engines. IEEE Transactions on Visualization and Computer Graphics, 2007, 13(2): 294-304.
8Gulli A. Personalized sankeT, http://snaket. di. unipi. it/. 2005-06.
9Vivisimo Company. Vivisimo information optimized, http://vivisimo. com/. 2008-05.
10郑苗苗,吉根林.一种基于密度的分布式聚类算法[J].南京大学学报（自然科学版）,2008,44(5):536-543. 被引量：11

二级参考文献50

1陈浩,何婷婷,姬东鸿.基于k-means聚类的无导词义消歧[J].中文信息学报,2005,19(4):10-16. 被引量：16
2李洁,高新波,焦李成.基于特征加权的模糊聚类新算法[J].电子学报,2006,34(1):89-92. 被引量：114
3赵鹏,耿焕同,王清毅,蔡庆生.基于聚类和分类的个性化文章自动推荐系统的研究[J].南京大学学报（自然科学版）,2006,42(5):512-518. 被引量：13
4Regina Barzilay,Min-Yen Kan,and Kathleen R.McKeown.Simfinder:A Flexible Clustering Tool for Summarization[A].In proceedings of the Workshop on Summarization in NAACL 01[C].Pittsburg,Pennsylvania,USA:June 2001.
5Zheng Chen,Wei-Ying Ma,Jinwen Ma.Learning to Cluster Web Search Results[A].In:proceedings of the 27th Annual International ACM SIGIR Conference[C].Sheffield,South Yorkshire,UK,July 2004,210 -217.
6Y.C.Fang,S.Parthasarathy,F.Schwartz.Using Clustering to Boost Text Classification[J].In:proceedings of the IEEE ICDM Workshop on Text Mining,Maebashi City,Japan,2002.
7A.Rauber,and M.Frühwirth.Automatically Analyzing and Organizing Music Archives[A].In:proceedings of the 5.European Conference on Research and Advanced Technology for Digital Libraries (ECDL 2001)[C].Darmstadt,Germany,2001.
8Cutting,D.,Karger,D.,and etc.Scatter/Gather:A Cluster-based Approach to Browsing Large Document Collections[A].SIGIR ‘ 92,1992[C].318-329.
9JR Wen,JY Nie,HJ Zhang.Clustering User Queries of a Search Engine[A].The Tenth International World Wide Web Conference[C].Hong Kong.May 1 -5,2001.
10Anton Leuski and James Allan.Improving Interactive Retrieval by Combining Ranked Lists and Clustering[A].In:proceedings of RIAO2000[C].Paris,France,April 12-14,2000,665 -681.

共引文献1143

1吴英杰,李军莲,孙海霞,王蕾,陈颖.基于著者共现的CBM机构名称规范研究[J].医学信息学杂志,2019,40(12):48-53. 被引量：3
2丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
3王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85.
4林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
5高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
6毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
7张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：3
8李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
9尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56.
10段桂芹.基于改进密度的簇内均值最小距离聚类算法[J].智能计算机与应用,2021,11(12):82-86. 被引量：1

同被引文献61

1张长胜,孙吉贵,杨凤芹,张慧杰.一种基于PSO的动态聚类算法[J].计算机研究与发展,2007,44(z2):89-93. 被引量：4
2王宁,葛家翔,胡运发.可视化信息检索系统的设计与实现[J].计算机工程,1997,23(S1):179-182. 被引量：4
3侯孟书,卢显良,周旭,詹川.非结构化P2P系统的路由算法[J].电子科技大学学报,2005,34(1):105-108. 被引量：12
4刘靖明,韩丽川,侯立文.基于粒子群的K均值聚类算法[J].系统工程理论与实践,2005,25(6):54-58. 被引量：122
5张秀梅,吴巍.科研合作网络的可视化及其在文献检索服务中的应用[J].情报学报,2006,25(1):9-15. 被引量：39
6周群.论可视化信息检索系统研究[J].情报杂志,2006,25(7):94-96. 被引量：3
7高尚,杨静宇.一种新的基于粒子群算法的聚类方法[J].南京航空航天大学学报,2006,38(B07):62-65. 被引量：12
8张学福.基于知识模型的文本信息检索可视化研究[J].中国图书馆学报,2006,32(5):52-56. 被引量：13
9龙海侠,须文波,孙俊.基于QPSO的数据聚类[J].计算机应用研究,2006,23(12):40-42. 被引量：14
10朱向彩,胡勇,周京伟.利用VB技术实现城市交通站点检索及其可视化[J].泰山学院学报,2006,28(3):34-37. 被引量：1

引证文献5

1陈永彬,张琢.智能单粒子优化算法在聚类分析中的应用[J].南京大学学报（自然科学版）,2011,47(5):578-584. 被引量：3
2孙战彪.非结构化P2P网络资源搜索算法研究[J].科技信息,2013(10):289-290. 被引量：1
3王恬,李书琴,王志伟.农业信息搜索可视化平台研究[J].计算机应用与软件,2016,33(3):271-274. 被引量：6
4刘勘,范琴.链路结构的网页聚类研究[J].小型微型计算机系统,2016,37(7):1450-1454. 被引量：1
5孙雨生,李沁芸,刘阳,朱礼军.国内可视化搜索引擎研究进展:领域应用与系统实现[J].图书馆理论与实践,2018(3):41-45. 被引量：1

二级引证文献12

1陈雷,张立毅,郭艳菊,李锵,刘婷.基于智能单粒子与信号变化度的盲源分离算法[J].电路与系统学报,2012,17(4):89-94. 被引量：2
2刘胜男.基于P2P网络的资源搜索算法的研究[J].硅谷,2014,7(13):52-52.
3金萍,宗瑜,屈世超,胡燕,田园.面向不确定数据的近似骨架启发式聚类算法[J].南京大学学报（自然科学版）,2015,51(1):197-205. 被引量：12
4高岭,申元,高妮,雷艳婷,孙骞.基于文本挖掘的漏洞信息聚类分析[J].东南大学学报（自然科学版）,2015,45(5):845-850. 被引量：3
5宋美娜,崔丹阳,鄂海红,欧中洪.一种通用的数据可视化模型设计与实现[J].计算机应用与软件,2017,34(9):38-42. 被引量：19
6潘益婷,潘修强,金慧峰,钱冬云.基于移动互联网和Web Service的智能农业系统[J].计算机系统应用,2017,26(11):114-117. 被引量：2
7孙雨生,李沁芸,刘阳,朱礼军.国内可视化搜索引擎研究进展:领域应用与系统实现[J].图书馆理论与实践,2018(3):41-45. 被引量：1
8裴雨清,李松丽,孔华锋,姚文勇.雾霾影响下的光伏发电系统的可视化分析平台研究[J].计算机应用与软件,2018,35(6):88-90. 被引量：3
9张毅,杜秀春,刘欣,刘华富.基于多域的互联网物理对象关联分析方法研究[J].计算机技术与发展,2018,28(4):25-30.
10曹树金,王雅琪,卢光栩.高校学生使用学术搜索引擎的用户体验影响因素实证研究[J].科技情报研究,2022,4(1):34-45. 被引量：2

1丘丽梅.令人挠头的多义词[J].快乐语文,2014(4):26-27.
2谢蕙.搜索引擎中结果网页排序方法研究[J].福建电脑,2012,28(5):85-86.
3胡嘉海.基于Lucene的全文搜索引擎的设计与实现[J].安徽科技,2012(12):46-47.
4声音[J].程序员,2009(2):39-39.
5贾峰.计算机搜索引擎中潜藏的隐私安全问题[J].数字技术与应用,2015,33(12):216-216.
6徐雪梅.中外主流搜索引擎搜索能力研究[J].情报探索,2006(2):48-53. 被引量：3
7到底谁能搜得更好主流搜索引擎实用评测[J].电脑爱好者,2013(7):48-50.
8高镔.聚类在网络信息检索中的辅助作用[J].信息技术,2010,34(4):145-147. 被引量：1
9饶佳艺.搜索引擎现状和发展探析[J].信息与电脑（理论版）,2013,0(7):178-180.
10老万.自定制Cortana的搜索引擎[J].电脑爱好者,2015,0(20):47-47.

南京大学学报（自然科学版）

2010年第5期

浏览历史

内容加载中请稍等...

网页搜索结果聚类与可视化被引量：5

参考文献25

二级参考文献50

共引文献1143

同被引文献61

引证文献5

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

网页搜索结果聚类与可视化 被引量：5

参考文献25

二级参考文献50

共引文献1143

同被引文献61

引证文献5

二级引证文献12

相关作者

相关机构

相关主题

浏览历史

网页搜索结果聚类与可视化被引量：5