一种基于相似性的文档聚类算法被引量：2

A document clustering algorithm based on similarity

下载PDF

导出

摘要针对常见信息检索技术的缺陷 ,提出一种基于相似性的文档聚类分析算法 .将文档集合转化为向量集合 ,基于向量之间的余弦相似度 ,采取凝聚的层次聚类算法来获得聚类 .给出了算法的详细描述和一个测试实例 . This paper proposed the algorithm for a document clustering based on similarity to overcome the drawbacks of ordinary information search. A set of documents was converted into a set of vectors. Based on cosine similarity between vectors clusters were obtained by adopting the algorithm for agglomerative hierarchical clustering. The algorithm was described and a test example was offered.

作者杨靖涛王学林胡于进

机构地区华中科技大学机械科学与工程学院

出处《华中科技大学学报（自然科学版）》 EI CAS CSCD 北大核心 2002年第12期59-61,共3页 Journal of Huazhong University of Science and Technology(Natural Science Edition)

关键词相似性文档聚类算法聚类分析最邻近簇信息检索 cluster analysis similarity partitioning nearest cluster

分类号 G354 [文化科学—情报学]

引文网络
相关文献

参考文献5

1Wang K, Zhou S, Kiew C S. Building hierarchical classifiers using class proximity. In: Proc. 1999 Int. Conf. Very Large Data Bases(VLDB'99). Edinburgh, 1999. 363-374
2Guha S, Rastogi R, Shim K. Cure: An efficient clustering algorithm for categorical attributes. In: Proc. 1998 ACM-SIGMOD Int. Conf. Management of Data(SIGMOD'98). Seattle, 1998. 73-84
3HanJiawei MichelineKamber.数据挖掘概念与技术[M].北京：机械工业出版社,2001.152-160.
4邹涛,黄源,张福炎.基于WWW的文本信息挖掘[J].情报学报,1999,18(4):291-295. 被引量：47
5Karypis G, Han E H, Kumar V. Chameleon: a hierarchical clustering algorithm using dynamic modeling Computer, 1999,32:68-75

二级参考文献1

1胡侃,夏绍玮.基于大型数据仓库的数据采掘:研究综述[J].软件学报,1998,9(1):53-63. 被引量：256

共引文献79

1宋瑞祺.Web文本数据挖掘关键技术及其在网络检索中的应用[J].山西财经大学学报（高等教育版）,2007(S1). 被引量：1
2徐妙君,顾沈明.面向Web的文本挖掘技术研究[J].控制工程,2003,10(z1):44-46. 被引量：4
3贺国旗,张强.基于用户模型的文献检索研究[J].雁北师范学院学报,2002,18(5):29-32. 被引量：1
4张艳英,吕子军.基于网络环境的信息挖掘及信息服务[J].图书馆学研究,2002(11):68-70. 被引量：1
5杨璐光,雷宁光,朱晨光.互联网信息挖掘技术及其实现[J].哈尔滨铁道科技,2006(1):17-19. 被引量：1
6乔向杰,王万森.基于Web和数据挖掘技术的智能教学系统[J].微机发展,2004,14(8):74-77. 被引量：9
7任成义.基于网页的知识元挖掘[J].图书情报工作,2010,54(S1):278-281.
8吴帆,李石君.一种高效的层次聚类分析算法[J].计算机工程,2004,30(9):70-71. 被引量：13
9卢炎生,杨芬,赵栋.带单调约束的关联规则挖掘[J].计算机工程,2004,30(15):78-79. 被引量：5
10钱昱,郑诚.基于序列模式的异常检测[J].微机发展,2004,14(9):53-55. 被引量：3

<12 3 4 5…8 >

同被引文献11

1杨斌,孟志青.一种文本分类数据挖掘的技术[J].湘潭大学自然科学学报,2001,23(4):34-37. 被引量：10
2Zhou Haofeng, Lou Yubo. Refining Web Authoritative Resource by Frequent Structures[C]. In: Proceedings of the Seventh International Database Engineering and Applications Symposium(IDEAS2003),2003.
3Wu Fei, Gardarin G. Gradual Clustering Algorithm[C]. In: Proceedings of Seventh Intematkmal Conference on Database Systems for Advanced Applications, 2001: 48-55.
4Lin K I, Kondadadi R. A Similarity-based Soft Clustering Algorithm for Documents[C]. In: Proceedings of Seventh International Conference on Database Systems for Advanced Applications, 2001:40-47.
5D. Cutting, D. Karger, J. Pedersen, and J. Tukey. A Cluster-based Approach to Browsing Large Document Collections [A]. Proceedings of the 15th ACM SIGIR [C]. New York: Wiley, 1992, pp: 318-329.
6S. Weiss, B. White, C. P? te, and F. Damerau. Lightweight Document Matching for Help-desk Applications [J]. IEEE Intelligent Systems. Seattle, Washington, 2000, 21(4): 782-789.
7O. Zamir, O. Etzioni, O. Madani, and R. Karp. Fast and Intuitive Clustering of Web Documents[A]. Processdings of the 3^rd International Conference on Knowledge Discovery and Data Mining [C]. Morfan Kanfmann. New York: Wiley, 1997: 567-573.
8HAN J W, KAMBER M. Data mining., concepts and techniques [M]. San Francisco: Morgan Kaufmann Publishers Inc, 2000.
9王继成,潘金贵,张福炎.Web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513-520. 被引量：275
10梅馨,邢桂芬.文本挖掘技术综述[J].江苏大学学报（自然科学版）,2003,24(5):72-76. 被引量：29

<12 >

引证文献2

1姜亚莉,关泽群.用于Web文档聚类的基于相似度的软聚类算法[J].计算机工程,2006,32(2):59-61. 被引量：6
2马连浩,杨鑫华,李荣键.面向论坛FAQ文档的轻量级聚类算法[J].微型电脑应用,2008,24(3):48-50.

二级引证文献6

1陈曦,徐家宁,杨建雄.基于免疫网络的k-means文档聚类算法研究[J].计算机工程与设计,2008,29(10):2629-2631.
2尹海丽,王颖洁,白凤波.软硬结合的快速模糊C-均值聚类算法的研究[J].计算机工程与应用,2008,44(22):172-174. 被引量：7
3张立文,徐家宁,李进,李孝闯.基于免疫网络和SOM的文本聚类算法研究[J].计算机应用与软件,2010,27(5):118-120. 被引量：3
4王立霞,淮晓永.基于语义的中文文本关键词提取算法[J].计算机工程,2012,38(1):1-4. 被引量：48
5杨金花.基于Web挖掘的层次凝聚类算法研究[J].电子设计工程,2012,20(12):30-32. 被引量：2
6冯高磊,高嵩峰.基于向量空间模型结合语义的文本相似度算法[J].现代电子技术,2018,41(11):157-161. 被引量：9

1李枫林,何洲芳.基于关键词共现分析的检索结果聚类研究[J].情报学报,2011,30(8):819-825. 被引量：9
2吴斌,傅伟鹏,郑毅,刘少辉,史忠植.一种基于群体智能的Web文档聚类算法[J].计算机研究与发展,2002,39(11):1429-1435. 被引量：41
3张小芳.几种常见信息检索模型的分析与评价[J].情报杂志,2008,27(3):121-123. 被引量：7
4田萱,刘希玉,孟强.基于BP神经网络的文档聚类研究[J].计算机科学,2002,29(8):93-95. 被引量：7
5李旗.文档聚类智能代理搜索引擎的设计[J].现代情报,2004,24(2):200-202.
6申飞驹.基于XML的数字图书馆检索技术研究[J].现代情报,2010,30(7):97-98. 被引量：5
7马迎杰,赛树奇,亓国,李薇.科技论文表格中常见信息重复问题的编辑加工[J].编辑学报,2015,27(3):244-246. 被引量：9
8裘江南,张彬.客观知识体系中语义关系的分析分类研究[J].情报学报,2012,31(3):259-267. 被引量：7
9赵蓉英,陈晨.基于共现分析的中文文献检索结果聚类研究[J].情报科学,2014,32(1):115-118. 被引量：4
10杨海霞,高宝俊,孙含林.基于LDA挖掘计算机科学文献的研究主题[J].现代图书情报技术,2016(11):20-26. 被引量：19

<12 >

华中科技大学学报（自然科学版）

2002年第12期

一种基于相似性的文档聚类算法被引量：2

参考文献5

二级参考文献1

共引文献79

同被引文献11

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

一种基于相似性的文档聚类算法 被引量：2

参考文献5

二级参考文献1

共引文献79

同被引文献11

引证文献2

二级引证文献6

相关作者

相关机构

相关主题

微信扫一扫：分享

一种基于相似性的文档聚类算法被引量：2