面向信息检索的快速聚类算法被引量：12

A Fast Clustering Algorithm for Information Retrieval

下载PDF

导出

摘要随着信息检索技术的迅猛发展,针对检索系统的改进已逐渐成为研究的热点.聚类是一种有效的改进策略,通过对检索结果进行聚类,可以使用户快速地定位到自己感兴趣的检索信息所在的类别.然而,传统的检索聚类算法要么运行效率低下,要么类别划分能力不强,使它们无法真正地用于检索系统中.针对此问题,提出了一种新颖的检索聚类算法,该算法首先通过极大极小值理论从检索返回的文档集中抽取多个聚点,并依此形成初始文档类划分结果.在此基础上,算法对初始文档类的特征集合进行细化调整以使类别的划分更加精确;同时对不满足收敛条件的文档类进行层次分裂以解决信息的分层描述问题.实验表明:此算法的时间复杂度与现有的检索聚类技术相差不多,并且由于对特征集合进行迭代调整使得类别的划分更加准确合理. Due to the fast advance of information retrieval technique, information overload has become a headache problem to Internet users. In order to alleviate user＇s inconvenience to distinguish useful information from massive junk information, the research for improving retrieval system has gradually become hotter and hotter. Up to now, many techniques have been proposed for automatically categorizing and organizing Web information for users. Among them, clustering is one of the most extensively employed tools. Through clustering retrieval information, Internet users can quickly find out where their interesting retrieval results locate. Unfortunately, traditional clustering algorithms are either ineffective or inefficient for this task. As a result, a novel algorithm specially designed for clustering retrieval information is proposed. This algorithm applies maximum-minimum principle to extract accumulation points to form initial clusters at first. Experiment results show that, this initial cluster partitioning is approximate to the optimal partitioning and only needs small iterative adjustment steps to get convergence. After that, it iteratively adjusts feature set of each cluster to let cluster partitioning more and more precise. Simultaneously, it hierarchically separates the clusters, which don^t meet convergence condition, into some sub-clusters to possess the merit of hierarchically representing information. Experiment results also demonstrate that time complexity of this algorithm is close to the recent techniques for clustering retrieval information. Besides, because of iteratively adjusting feature sets, it enables clustering results to be more precise and reasonable.

作者刘铭刘秉权刘远超

机构地区哈尔滨工业大学计算机科学与技术学院语言语音教育部-微软重点实验室(哈尔滨工业大学)

出处《计算机研究与发展》 EI CSCD 北大核心 2013年第7期1452-1463,共12页 Journal of Computer Research and Development

基金国家自然科学基金面上项目(61073127) 中央高校基本科研业务费专项基金项目(HIT.NSRIF.2013066) 中国博士后科学基金面上项目(2013M530156) 教育部-微软语言语音重点实验室开放基金项目

关键词信息检索聚类技术权值调整极大极小理论快速聚类自组织映射 clustering technique for information retrieval weight adjustment maximum-minimum principle fast clustering self-organizing-mapping （SOM）

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献23

1Azcarraga A P,Yap T N Jr,Tan J,et al. Evaluatingkeyword selection methods for WEBSOM text archives [J].IEEE Trans on Knowledge and Data Engineering,2004,16(3):380-383.
2Peter P,Patricia S,Marti H,et al. Scatter/gather browsingcommunicates the topic structure of a very large textcollection [C] //Proc of ACM S1GCHI Conf on HumanFactors in Computing Systems. New York:ACM,1996:213-220.
3Beil F,Ester M,Xu X. Frequent term-based text clustering[C] //Proc of ACM SIGKDD Conf on Knowledge Discoveryand Data Mining. New York:ACM,2002:436-442.
4Zamir O,Etzioni O. Web document clustering:A feasibilitydemonstration [C] //Proc of ACM SIGIR Conf on Researchand Development in Information Retrieval. New York:ACM,1998:46-54.
5Valdes P R,Pericliev V,Pereira F. Concise,intelligible,and approximate profiling of multiple classes [J].International Journal of Human Computer Systems,2000,53(3); 411-436.
6Li Yuanhong,Dong Ming,Hua Jing. Localized featureselection for clustering [J]. Pattern Recognition Letters,2008,29(1):10-18.
7Xu Yongdong,Xu Zhiming,Wang Xiaolong,et al. Usingmultiple features and statistical model to calculate text unitssimilarity [C] //Proc of Int Conf on Machine Learning andCybernetics. Piscataway,NJ:IEEE,2005:3834-3839.
8Tsutsumi K,Nakajima K. Maximum/minimum detection bya module-based neural network with redundant architecture[C] //Proc of Int Joint Conf on Neural Networks.Piscataway. NJ:IEEE,1999:558-561.
9Kohonen T. Self-Organizing Maps [ M]. 2nd ed. Berlin:Springer,1997.
10Kohonen T,Kaski S,Lagus K,et al. Self organization of amassive document collection [J]. IEEE Trans on NeuralNetworks,2000,11(3):574-585.

二级参考文献14

1吴郢.结构自适应自组织神经网络的研究与应用.清华大学自动化硕士论文[M].,1997..
2吴郢，硕士学位论文，1997年
3Zheng Y，IEEE Trans Neural Networks，1996年，7卷，1期，87页
4Ester M, et al. A density-based algorithm for discovering clusters in large spatial databases with noise. In: Proc. the 2nd Int'l Conf. Knowledge Discovering in Databases and Data Mining(KDD 96). Menlo Park, CA: AAA I Press, 1996.
5Zhan W, et al. STING: A statistical information grid approach to spatial data mining. In: Proc. the 23rd VLDB Conf. Athens. San Francicso: Morgan Kaufmann, 1997. 186～ 195.
6K. Beyer, J. Goldstein, R. Ramakhrisnan, et al. Nearest neighbor' meaningful. In: Proc. the 7th Int'l Conf. Database Theory ( ICDT' 99), http://citeseer.ist.psu.edu/605885.html,1999.
7A. Hinneburg, C. C. Aggarwal, D. A. Keim. What is the neareast neighbor in high dimensional spaces. In: Proc. the 26th Int'l Conf. Very Large Data Bases, San Francisco, 2000.
8Maria Halkidi, Michalis Vazirgiannis. Clustering validity assessment: Finding the optimal partitioning of a data set. IEEE Int'l Conf. Data Mining, California, USA, 2001.
9Zhang T, et al. Birch: An efficient data clustering method for very large databases. In: Proc. ACM SIGMOD Int'l Conf.Management of Data, Montreal. New York: ACM Press, 1996.73 ～ 84.
10Guha S, Rastogi R, Shin K. CURE: An efficient clustering algorithm for large databases. In: Proc. ACM SIGMOD Int'l Conf. Management of Data, Seattle. New York: ACM Press,1998. 73～84.

共引文献30

1陈小全,张继红.基于改进粒子群算法的聚类算法[J].计算机研究与发展,2012,49(S1):287-291. 被引量：31
2金永强,山拜.达拉拜.基于结构自适应自组织神经网络的图像压缩算法的研究[J].现代电子技术,2005,28(16):79-80.
3程柏林,朱元清,马晓岩.一种用于雷达信号分选的改进型神经网络[J].空军雷达学院学报,2005,19(2):18-20. 被引量：4
4朱福珍,吴斌.SOFM网络及其在MATLAB中的实现[J].微计算机信息,2005,21(12Z):163-165. 被引量：8
5薛万宇,谢从华,陆虎,袁林.基于密度聚类的医学图像分割及其局部特征提取[J].医疗设备信息,2006,21(10):88-90. 被引量：1
6程柏林,袁俊泉,马晓岩.基于级联SSA-SOFM神经网络的信号分选方法[J].空军雷达学院学报,2006,20(4):262-265. 被引量：1
7汪烈军.一种改进的结构自适应自组织神经网络算法[J].微电子学与计算机,2007,24(1):106-109. 被引量：9
8倪巍伟,陆介平,陈耿,孙志挥.基于k均值分区的流数据高效密度聚类算法[J].小型微型计算机系统,2007,28(1):83-87. 被引量：8
9张群洪,陈崇成.基于自组织神经网络的电力变压器故障诊断[J].微计算机应用,2007,28(11):1127-1131.
10张群洪,陈崇成.一种改进的动态二叉树的自组织神经网络算法[J].计算机应用,2007,27(9):2262-2266. 被引量：2

同被引文献104

1赖茂生,屈鹏.相关性基础理论及其在检索建模中的作用研究[J].情报理论与实践,2008,31(6):801-805. 被引量：5
2刘建晓,王健,张秀伟,刘峰,李小霞.一种基于RDB中自身连接的Web服务聚类方法[J].计算机研究与发展,2013,50(S1):205-210. 被引量：4
3贺敏,王丽宏,杜攀,张瑾,程学旗.基于有意义串聚类的微博热点话题发现方法[J].通信学报,2013,34(S1):256-262. 被引量：12
4成颖,孙建军,巢乃鹏.信息检索中的相关性模型[J].图书情报工作,2004,48(12):46-50. 被引量：15
5周瑛,方宏彬,张持健.模糊聚类在信息检索中的应用[J].微机发展,2005,15(3):107-109. 被引量：3
6秦爱红,彭浩宇,石教英.三维几何数据压缩算法的累计误差消除方法[J].计算机辅助设计与图形学学报,2005,17(9):1900-1905. 被引量：2
7杨建林,邓三鸿.信息检索中相关性的维度与度量[J].情报理论与实践,2005,28(6):584-587. 被引量：3
8黄丽红.信息检索中“相关性”的探究[J].图书馆学研究,2006(2):65-67. 被引量：14
9马志刚,王楠,汪国平,董士海.多码流渐进几何压缩[J].计算机辅助设计与图形学学报,2006,18(2):200-207. 被引量：2
10韩毅,邓小昭,刘丽,潘幼乔.信息检索领域相关定义的演化及其启示[J].情报理论与实践,2006,29(3):270-273. 被引量：4

引证文献12

1陆慎涛,葛洪伟,周竞.自动确定聚类中心的移动时间势能聚类算法[J].南京大学学报（自然科学版）,2019,55(1):143-153.
2王彩霞.基于改进引力搜索的混合K-调和均值聚类算法研究[J].计算机应用研究,2016,33(1):118-121. 被引量：11
3吴晓军,徐广毅.基于三维模型几何信息的纹理图像压缩[J].计算机辅助设计与图形学学报,2016,28(3):471-479. 被引量：6
4孙芯宇,吴江,蒲强.基于稳定性语义聚类的相关模型估计[J].计算机应用,2016,36(5):1313-1318. 被引量：1
5王向华,陈特放,张必明,颜剑.基于时间序列和任务调度的Web数据聚类算法[J].计算机工程与应用,2016,52(9):159-163. 被引量：4
6王旭,柯凯艳.近15年国内图情领域信息检索相关性研究进展分析[J].新世纪图书馆,2016(8):91-96. 被引量：1
7权祯臻,陈松灿.结合弱监督信息的凸聚类研究[J].计算机研究与发展,2017,54(8):1763-1771.
8陈珂,柯文德,许波.一种基于增量式时间序列和最佳任务调度的Web数据聚类算法[J].现代电子技术,2016,39(14):4-8. 被引量：1
9宋莉娜,冯旭鹏,刘利军,黄青松.基于SOM聚类的微博话题发现[J].计算机应用研究,2018,35(3):671-674. 被引量：10
10钮永莉,武斌.基于改进粒子群和K-Means的文本聚类算法研究[J].兰州文理学院学报（自然科学版）,2019,33(4):44-47. 被引量：8

二级引证文献43

1丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
2徐建民,张丽青,王苗.基于贝叶斯网络的静态话题追踪模型[J].数据分析与知识发现,2020,4(2):200-206. 被引量：2
3王云锋,刘丹,裴作飞,姚丽霜.基于改进引力搜索算法的SVM的参数优化及应用[J].计算机应用研究,2020,37(S01):152-154. 被引量：7
4张海涛,刘雅姝,张枭慧,宋拓.基于模块度的话题发现及网民情感波动研究——以新浪微博“中美间贸易摩擦”话题为例[J].图书情报工作,2019,63(4):6-14. 被引量：13
5樊凌,龚伟.无线网络MOOCs大数据聚类方法优化研究[J].计算机仿真,2016,33(7):435-439. 被引量：10
6陈欣,刘朔.采用反向变异机制的万有引力搜索算法[J].武汉轻工大学学报,2016,35(3):60-63.
7胡人远,张之明.基于混合粒子群和蚁群算法融合的聚类算法[J].武警工程大学学报,2016,32(6):15-19.
8余亮,曾勍炜,石永革,肖异瑶.融合改进PSO和K-调和均值的混合聚类算法[J].南昌大学学报（工科版）,2017,39(2):184-189. 被引量：2
9秦晋,于本海,智荣腾.引力搜索算法在投影寻踪优化求解中的应用[J].计算机工程与设计,2017,38(7):1844-1847. 被引量：1
10肖铮,董祥千,赵文革.Web网络大数据的聚类中心调度技术研究[J].现代电子技术,2017,40(24):25-27. 被引量：8

1罗海勇,李慧,赵方,彭金华.An Iterative Clustering-Based Localization Algorithm for Wireless Sensor Networks[J].China Communications,2011,8(1):58-64. 被引量：1
2刘淳安.解非线性方程组的极大熵优化进化算法[J].海军工程大学学报,2013,25(4):11-15.
3视听设备行情[J].现代计算机（中旬刊）,2007(11).
4张珍,万世昌.动态聚类算法在网络入侵检测中的应用[J].现代电子技术,2009,32(20):85-87.
5蒋亦樟,王士同.基于方差权重矩阵模型的高维数据子空间聚类算法[J].计算机应用研究,2012,29(8):2868-2871. 被引量：3
6赵伟.基于SNMP的策略管理[J].解放军理工大学学报（自然科学版）,2003,4(4):1-6. 被引量：3
7李嘉菲,刘大有,于万钧.基于J2EE的交互式工作流管理系统[J].计算机工程与应用,2005,41(22):208-210. 被引量：8
8黄舜尧,黄生叶.成簇无线传感网中能量高效的协作通信[J].计算机工程与应用,2015,51(15):75-79. 被引量：2
9徐小萍.MAX-MU(2)的结构和复杂度[J].襄樊学院学报,2006,27(5):12-15. 被引量：1
10杨英.模糊逻辑和自动化管理系统[J].管理观察,1997,0(2):41-41.

计算机研究与发展

2013年第7期

浏览历史

内容加载中请稍等...

面向信息检索的快速聚类算法被引量：12

参考文献23

二级参考文献14

共引文献30

同被引文献104

引证文献12

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

面向信息检索的快速聚类算法 被引量：12

参考文献23

二级参考文献14

共引文献30

同被引文献104

引证文献12

二级引证文献43

相关作者

相关机构

相关主题

浏览历史

面向信息检索的快速聚类算法被引量：12