DKTC:一种中文文本聚类方法

DKTC:A Method of Chinese Text Clustering

导出

摘要在对DBSCN与K-means两种经典聚类算法分析研究基础上,结合中文文本数据的特点,对这两种方法进行结合与改进,提出一种中文文本聚类方法:DKTC。该算法能自动产生簇的个数,且对"噪声"或异常数据不敏感,对数据的输入顺序不敏感,另外,与DBSCAN相比,该算法有更高的处理效率。实验表明,DKTC算法不仅能对中文文本进行聚类,且与传统DBSCN与K-means法相比,聚类效果都有一定程度的改善。 Based on the analysis of two classic clustering algorithm： DBSCN and K-means, combining with the characteristics of Chinese text data, this paper puts forward a Chinese text clustering algorithm by improving those 2 ways above： DKTC. It can automatically generate the number of clusters, and doesn＇t have close relation with ‘information noise＇ or abnormal data and the order of the input data. In addition, compared with DBSCAN, DKTC has a higher efficiency. Experiments show that DKTC is able to cluster Chinese text, and improves the traditional DBSCN and K-means algorithm to some degree.

作者张义军刘泉凤

机构地区浙江水利水电专科学校

出处《图书情报工作》 CSSCI 北大核心 2009年第1期109-112,33,共5页 Library and Information Service

关键词文本聚类聚类算法中文信息处理 text clustering clustering algorithm Chinese information processing

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1El-Hamdouchi A, Willet P. Comparison of hierarchic agglomerative clustering methods for document Retrieval. The Computer Journal,1989, 32(3) :220 -227.
2李雪蕾,张冬茉.一种基于向量空间模型的文本分类方法[J].计算机工程,2003,29(17):90-92. 被引量：31
3庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究,2001,18(9):23-26. 被引量：293
4蓝海洋,周杰韩,张和明.文本索引词项相对权重计算方法与应用[J].计算机工程与应用,2003,39(15):68-70. 被引量：9
5Han Jiawei Kamber M.数据挖掘概念与技术[M].北京:机械工业出版社,2001..
6Saracoglu R, Tutuncu K, Allahverdi N. A fuzzy clustering approach for finding similar documents using a novel similarity measure, Information Processing and Management, 2006, 6(2) :600 -605.
7Zhao Y, Karypis G. Criterion functions for document clustering experiments and analysis. Technical Report #01 -40, Department of Computer Science, University of Minnesota, Minneapolis, MN, 2001.
8Mark S, Kalervo J. SIGIR'2004. New York: CM Press, 2004.

二级参考文献19

1黄萱青吴立德.独立于语种的文本分类方法[M].,2000.37-43.
2鲁松白硕等.文本中词语权重计算方法的改进[M].,2000.31-36.
3卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用：博士论文[M].,2000..
4Sahon,Gerard.Introduction to modem information retrieval[M].Auckland: McGraw-Hill, 1983.
5Koller D. Hierarchically Classifying Documents Using Very Few Words. Proceedings of tile Fourteenth International Conference on Machine Learning (ICML-97), 1997.
6Zhang Li, Li Xing. Net-compass, A Search Engine for Chinese Web Pages[A]. The First AEARU Workshop on Web Technology[C] ,Kyoto, Japan, 1998: 1 0-15.
7黄萱菁，2000 International Conference on Multilingual Information Processing，2000年，37页
8鲁松，2000 International Conference on Multilingual Information Processing，2000年，31页
9卜东波，博士学位论文，2000年
10Yang Yiming，Proceedings of ACMSIGIR Conference on Research and Development in Information Retrieval（SIGIR），1999年，42页

共引文献356

1安艳辉,董五洲,游自英.基于改进的朴素贝叶斯文本分类研究[J].河北省科学院学报,2007,24(1):22-25. 被引量：7
2蒋英华.利用数据挖掘算法实现一个XML文档分类器[J].科技资讯,2005,3(25):66-70.
3李粤,安捷,李星.排序融合算法在校园网搜索引擎中的应用[J].大连理工大学学报,2005,45(z1):257-260. 被引量：2
4蒋宗礼,肖华,赵钦.WebSifter:个性化网络搜索辅助系统[J].清华大学学报（自然科学版）,2005,45(S1):1903-1907. 被引量：5
5孔颖,裘彬强,徐从富.基于CART算法的垃圾邮件过滤模型设计与实现[J].计算机应用,2009,29(2):374-376. 被引量：4
6杨俊,廖闻剑,彭艳兵.一种中文文本聚类算法的研究[J].硅谷,2009,2(5):68-69.
7李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.
8陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量：2
9邵晓良,刘红.Web信息采集中军事主题信息的识别[J].情报杂志,2004,23(7):14-16. 被引量：2
10施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.

1周庆.让Snaglt自动产生文件名[J].视窗世界,2003(11):134-134.
2吴雪琴.DBSCAN算法研究[J].软件导刊,2007,6(4):99-100. 被引量：2
3茅剑,吴顺祥.基于密度聚类方法在文本挖掘中的应用研究[J].福建电脑,2007,23(6):1-2. 被引量：1
4王小龙.论DBSCAN算法在图像分割中分类的实现[J].电子技术与软件工程,2013(12):66-67.
5何琪.用程序的方法自动产生菜单界面[J].软件开发与应用,1997(2):45-46.
6谭京京.数据挖掘中的孤立点检测研究[J].黑龙江科技信息,2016(10):84-84.
7崔卫东.k-means算法研究[J].数字化用户,2013(11):121-121. 被引量：1
8尹亮.基于孤立点的数据挖掘方法在审计中的应用与研究[J].硅谷,2011,4(17):89-89. 被引量：1
9陈赤华.关机清除打开文件记录[J].电子乐园,2009(15):1-1.
10蔡颖琨,谢昆青,马修军.屏蔽了输入参数敏感性的DBSCAN改进算法[J].北京大学学报（自然科学版）,2004,40(3):480-486. 被引量：39

图书情报工作

2009年第1期

浏览历史

内容加载中请稍等...

DKTC:一种中文文本聚类方法

参考文献8

二级参考文献19

共引文献356

相关作者

相关机构

相关主题

浏览历史