文档聚类综述被引量：65

A Survey of Document Clustering

下载PDF

导出

摘要聚类作为一种自动化程度较高的无监督机器学习方法,近年来在信息检索、多文档自动文摘等领域获得了广泛的应用。本文首先讨论了文档聚类的应用背景和体系结构,然后对文档聚类算法、聚类空间的构造和降维方法、文档聚类中的语义问题进行了综述。最后还介绍了聚类质量评测问题。 As an unsupervised machine learning method, document clustering has been widely used in many NLP applications such as information retrieval, automatic multi-document summarization and etc. In this paper the background and the architecture of document clustering is discussed firstly, and then some related problems are surveyed which includes clustering algorithm, feature space construction, dimension reduction and the semantic problem. In the end this paper introduces the evaluation of cluster quality.

作者刘远超王晓龙徐志明关毅

机构地区哈尔滨工业大学计算机科学与技术学院

出处《中文信息学报》 CSCD 北大核心 2006年第3期55-62,共8页 Journal of Chinese Information Processing

基金国家自然科学基金重点资助项目(60435020)

关键词计算机应用中文信息处理综述文档聚类降维概念相关聚类算法 computer application Chinese information processing overview document clustering dimension reduction concept relevance clustering algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献39

1马帅,王腾蛟,唐世渭,杨冬青,高军.一种基于参考点和密度的快速聚类算法[J].软件学报,2003,14(6):1089-1095. 被引量：108
2孙学刚,陈群秀,马亮.基于主题的Web文档聚类研究[J].中文信息学报,2003,17(3):21-26. 被引量：31
3吴斌,傅伟鹏,郑毅,刘少辉,史忠植.一种基于群体智能的Web文档聚类算法[J].计算机研究与发展,2002,39(11):1429-1435. 被引量：41
4Regina Barzilay,Min-Yen Kan,and Kathleen R.McKeown.Simfinder:A Flexible Clustering Tool for Summarization[A].In proceedings of the Workshop on Summarization in NAACL 01[C].Pittsburg,Pennsylvania,USA:June 2001.
5Zheng Chen,Wei-Ying Ma,Jinwen Ma.Learning to Cluster Web Search Results[A].In:proceedings of the 27th Annual International ACM SIGIR Conference[C].Sheffield,South Yorkshire,UK,July 2004,210 -217.
6林鸿飞,马雅彬.基于聚类的文本过滤模型[J].大连理工大学学报,2002,42(2):249-252. 被引量：9
7Y.C.Fang,S.Parthasarathy,F.Schwartz.Using Clustering to Boost Text Classification[J].In:proceedings of the IEEE ICDM Workshop on Text Mining,Maebashi City,Japan,2002.
8A.Rauber,and M.Frühwirth.Automatically Analyzing and Organizing Music Archives[A].In:proceedings of the 5.European Conference on Research and Advanced Technology for Digital Libraries (ECDL 2001)[C].Darmstadt,Germany,2001.
9Cutting,D.,Karger,D.,and etc.Scatter/Gather:A Cluster-based Approach to Browsing Large Document Collections[A].SIGIR ‘ 92,1992[C].318-329.
10JR Wen,JY Nie,HJ Zhang.Clustering User Queries of a Search Engine[A].The Tenth International World Wide Web Conference[C].Hong Kong.May 1 -5,2001.

二级参考文献40

1黄昌宁,李涓子.词义排歧的一种语言模型[J].语言文字应用,2000(3):85-90. 被引量：16
2M. Ester, H.-P. Kriegel, J. Sander, and X. Xu. A density-based algorithm for discovering clusters in large spatial databases. In Proc. 1996 Int. Conf. Knowledge Discovery and Data Mining (KDD'96),1996.
3M. Ankerst, M. Breunig, H. -P. Kriegel, and J. Sander. OPTICS: Ordering points to identify the clustering structure. In Proc. 1999 ACM-SIGMOD Int. Conf. Management of the Data(SIGMOD' 99),1999.
4Yang, Y., Pedersen, J.O. A Comparative Study on Feature Selection in Text Categorization. Proc. of the 14th International Conference on Machine Learning ICML97.
5Eui-Hong Han, George Karypis and Vipin Kumar. Text Categorization Using Weight Adjusted k-Nearest Neighbor Classification. Pacific-Asia Conference on Knowledge Diseovery and Data Minings, 2001.
6Han JW, Kambr M. Data Mining Concepts and Techniques. Beijing: Higher Education Press, 2001. 145-176.
7Kaufan L, Rousseeuw PJ. Finding Groups in Data: an Introduction to Cluster Analysis. New York: John Wiley & Sons, 1990.
8Ester M, Kriegel HP, Sander J, Xu X. A density based algorithm for discovering clusters in large spatial databases with noise. In:Simoudis E, Han JW, Fayyad UM, eds. Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining.Portland: AAAI Press, 1996. 226-231.
9Guha S, Rastogi R, Shim K. CURE: an efficient clustering algorithm for large databases. In: Haas LM, Tiwary A, eds. Proceedings of the ACM SIGMOD International Conference on Management of Data. Seattle: ACM Press, 1998. "73-84.
10Agrawal R, Gehrke J, Gunopolos D, Raghavan P. Automatic subspace clustering of high dimensional data for data mining application. In: Haas LM, Tiwary A, eds. Proceedings of the ACM SIGMOD International Conference on Management of Data.Seattle: ACM Press, 1998.94-105.

共引文献269

1孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
2彭喜元,彭宇,戴毓丰.群智能理论及应用[J].电子学报,2003,31(z1):1982-1988. 被引量：79
3李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004,18(4):9-14. 被引量：20
4李玉鑑.自适应K-均值聚类算法[J].计算机研究与发展,2007,44(z2):100-104. 被引量：5
5秦亮,张文广,周绍磊,史贤俊.基于Parzen窗估计的核k-means聚类方法[J].计算机工程,2011,37(S1):217-219. 被引量：1
6钟将,吴中福,吴开贵,欧灵.基于人工免疫网络的动态聚类算法[J].电子学报,2004,32(8):1268-1272. 被引量：24
7朱克斌,唐菁,杨炳儒.Web文本挖掘系统及聚类分析算法[J].计算机工程,2004,30(13):138-139. 被引量：7
8刘波.一种利用信息熵的群体智能聚类算法[J].计算机工程与应用,2004,40(35):180-182. 被引量：9
9薛永生,翁伟,文娟,王劲波,张宇.LSNCCP——一种基于最大不相含核心点集的聚类算法[J].计算机研究与发展,2004,41(11):1930-1935. 被引量：2
10王楠.基于聚类的全文检索系统后处理[J].情报杂志,2005,24(1):112-114. 被引量：4

同被引文献663

1付淇,李正凡.基于CLIQUE的聚类算法研究[J].华东交通大学学报,2006,23(5):79-82. 被引量：12
2刘云峰 ,齐欢 ,HU Xiang'en ,CAI Zhiqiang ,代建民 .基于潜在语义空间维度特性的多层文档聚类[J].清华大学学报（自然科学版）,2005(S1):1783-1786. 被引量：11
3郭庆琳,吴克河,吴慧芳,李存斌.基于文本聚类的多文档自动文摘研究[J].计算机研究与发展,2007,44(z2):140-144. 被引量：5
4桂诗春.什么是应用语言学[J].外语教学与研究,1987,19(4):14-19. 被引量：14
5孙茂松,黄昌宁,方捷.汉语搭配定量分析初探[J].中国语文,1997(1):29-38. 被引量：54
6桂诗春.应用语言学和认知科学[J].语言文字应用,1993(3):19-26. 被引量：16
7桂诗春.应用语言学的系统论[J].外语教学与研究,1994,26(4):9-16. 被引量：42
8余力,刘鲁,罗掌华.我国电子商务推荐策略的比较分析[J].系统工程理论与实践,2004,24(8):96-101. 被引量：45
9王大玲,于戈,鲍玉斌.一种具有最大推荐非空率的关联规则挖掘方法[J].软件学报,2004,15(8):1182-1188. 被引量：11
10张阳,张利军,闫剑锋,李战怀.基于关联特征的朴素贝叶斯文本分类器[J].西北工业大学学报,2004,22(4):413-416. 被引量：4

引证文献65

1吴英杰,李军莲,孙海霞,王蕾,陈颖.基于著者共现的CBM机构名称规范研究[J].医学信息学杂志,2019,40(12):48-53. 被引量：3
2李春妍,王勇.个性化服务中用户兴趣聚类算法研究[J].信息技术,2007,31(10):77-80. 被引量：3
3庞秀丽,冯玉强,姜维.电子商务个性化文档推荐技术研究[J].中国管理科学,2008,16(S1):581-586. 被引量：10
4张云,冯博琴,麻首强,刘连梦.蚁群-遗传融合的文本聚类算法[J].西安交通大学学报,2007,41(10):1146-1150. 被引量：15
5王晓东,郭雷,方俊,杨宁,邓涛.一种基于本体的抽象度可调文档聚类[J].计算机工程与应用,2007,43(29):172-175. 被引量：3
6王凌峰.基于构成要素的聚类算法[J].统计与决策,2007,23(19):26-28. 被引量：1
7谷波,李济洪,刘开瑛.基于COSA算法的中文文本聚类[J].中文信息学报,2007,21(6):65-70. 被引量：9
8丘志宏,宫雷光.利用上下文提高文本聚类的效果[J].中文信息学报,2007,21(6):109-115. 被引量：9
9索红光,王玉伟.一种用于文本聚类的改进k-means算法[J].山东大学学报（理学版）,2008,43(1):60-64. 被引量：34
10蔡荣太,王延杰.矢量聚类及其在稀疏分量分析中的应用[J].计算机工程,2008,34(5):8-10.

二级引证文献286

1吴英杰,李军莲,孙海霞,王蕾,陈颖.基于著者共现的CBM机构名称规范研究[J].医学信息学杂志,2019,40(12):48-53. 被引量：3
2刘梦迪,梁循.基于偏旁部首知识表示学习的汉字字形相似度计算方法[J].中文信息学报,2021,35(12):47-59. 被引量：4
3李荪,曹峰,刘姿杉.面向算法模型的语音数据集质量评估方法研究[J].计算机科学,2022,49(S02):519-524. 被引量：2
4薛潇.船舶水下通信系统中海声信道文本数据聚类方法研究[J].舰船科学技术,2019,0(20):115-117.
5刘旭,班晓娟,王墨涵.基于MapReduce云计算模型的自由液面模拟(英文)[J].China Communications,2011,8(6):28-35.
6郭中敏,徐康,岳颖,黄冰,唐欢,马芸,洪迅,陈系古,肖东.细胞可透过性Cre重组酶表达、纯化及生物活性检测(英文)[J].生物化学与生物物理进展,2004,31(9):784-790. 被引量：1
7吴启明,易云飞.文本聚类综述[J].河池学院学报,2008,28(2):86-91. 被引量：21
8陈震,马铭,李欣.基于网页分类与加权的网民聚类方法研究[J].北华大学学报（自然科学版）,2008,9(3):284-288.
9胡吉明,胡昌平.基于群体网络行为的用户聚合分析[J].情报杂志,2008,27(7):71-73. 被引量：4
10俞小娟,胡金柱,李琼,周毕吉.用主成分分析法研究短语字段的判别因素[J].计算机技术与发展,2008,18(10):116-119. 被引量：2

1高炜,高云,梁立.基于ε-邻域方法的本体映射算法[J].云南师范大学学报（自然科学版）,2011,31(3):37-40. 被引量：2
2乔一枝,张运凯,马瑞霞.基础网络实验的设计[J].实验室研究与探索,2003,22(5):76-77. 被引量：2
3李莼,罗振声,厉宇航.基于语义相关和概念相关的自动分类方法研究[J].计算机工程与应用,2003,39(12):106-109. 被引量：5
4周安利.软件市场IBM风风火火[J].中国经济和信息化,1998(26):22-22.
5孙志伟,赵政.DBSCAN在非空间属性处理上的扩展[J].计算机应用,2005,25(6):1379-1381. 被引量：4
6原福永,杨治秋,王海霞.一种基于向量空间模型的文档聚类算法研究[J].信号处理,2005,21(z1):606-608.
7闫娟,穆晓霞.一种基于角色概念的组织方法研究[J].河南师范大学学报（自然科学版）,2015,43(5):137-141.
8吴新根,罗立民,鲍旭东,严玉龙,傅瑶.一种基于Hopfield网络的MRI图像分割方法[J].电子科技导报,1998(12):24-26. 被引量：1
9丁政建,李飞.基于本体的信息检索技术的研究[J].科学技术与工程,2008,8(13):3660-3663. 被引量：6
10沙莎,曾慧宏,罗三定.一种面向元数据描述文档的概念检索方法[J].计算机工程与应用,2005,41(25):168-171. 被引量：2

中文信息学报

2006年第3期

浏览历史

内容加载中请稍等...

文档聚类综述被引量：65

参考文献39

二级参考文献40

共引文献269

同被引文献663

引证文献65

二级引证文献286

相关作者

相关机构

相关主题

浏览历史

文档聚类综述 被引量：65

参考文献39

二级参考文献40

共引文献269

同被引文献663

引证文献65

二级引证文献286

相关作者

相关机构

相关主题

浏览历史

文档聚类综述被引量：65