基于文本最小相似度的中心选取方法被引量：3

An Approach to Center Selection Based on Minimal Similarity Among Texts

下载PDF

导出

摘要基于划分的聚类算法是一种局部最优算法。聚类初始中心的选择对该聚类算法的收敛速度和聚类的性能都有很大的影响。初始中心点应该选择来自不同的类并且初始中心点文本之间的相似度应尽量小,为此提出了一种新的基于最小相似度的中心选取方法,该方法选择相似度最小的两个样本分别作为初始的两个中心,然后依次选择到已知中心相似度最小的样本作为其他类的中心。实验表明该方法能够选出来自不同类的样本作为聚类的初始中心,同其他初始中心选择方法比较,聚类算法的性能有明显提高。 Clustering algorithms based on partition is a local optimization algorithm. The .selection of starting center points of clustering has great effects on the constringency speed of this clustering algorithms and the performance of clustering. The starting center points should select from different classes and the similarity of starting center points text should be as small as possible. So,this paper proposes a new method based on the center of sum function of the minimal similarity. The method selects two samples which have the minimal similarity as two centers of initial clustering,then selects the sample which has the minimal similarity to the selected points as other classes＇ center. Experiments show this method can select the samples from different classes as the starting point of clustering, compared with other methods ,the performance of clustering algorithms is obviously improved.

作者郑伟季铎蔡东风王爽

机构地区沈阳航空工业学院自然语言处理研究室沈阳航空工业学院北方软件学院

出处《广西师范大学学报（自然科学版）》 CAS 北大核心 2008年第3期198-201,共4页 Journal of Guangxi Normal University:Natural Science Edition

基金国家863计划基金资助项目(2006AA01Z148) 教育部科学技术研究重点项目(207148)

关键词 K—Means 最小相似度文本聚类 K-means minimal similarity text clustering

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1FANG Y C,PARTHASARATHY S,SCHWARTZ F. Using clustering to boost text classification[C]//Proceedings of the IEEE ICDM Workshop on Text Mining. [S. l. ] :[s. n. ], 2002 : 58-68.
2RAUBER A,FRUHWIRTH M. Auomatically analyzing and organizing music arehives[C]//Proceedings of the 5th European Conference on Research and Advanced Technology for Digital Libraries: LNCS Vol 2163. Berlin:Springer, 2001 : 402-414.
3东波.聚类/分类理论研究及其在文本挖掘中的应用[D].北京:中国科学院计算技术研究所,2000.
4季铎,朱靖波.基于词分布的初始点选取方法[c]//中文信息处理前沿进展--中国中文信息学会二十五周年学术会议论文集.北京:清华大学出版社,2006:315-321.
5CHRISTOPHER D M,HINRICHS.统计自然语言处理基础[M].苑春法,李庆中,李伟,等译.北京:电子工业出版社,2005:335-338.
6STEINBACH M,KARYPIS G,KUMAR V. A comparison of document clustering techniques[C]//KDD 2000 Workshop on Text Mining. New York : ACM Press, 2000:109-110.
7ZHAO Ying, KARYPIS G. Criterion functions for document clustering experiments and analysis [R]. Minneapolis, MN :Department of Computer Seience ,University of Minnesota,2001.
8ZHAO Ying,KARYPIS G. Evaluation of hierarchical clustering algorithms for document dataset[C]//Proceedings of the Eleventh International Conference on Information and Knowledge Management. New York:ACM Press, 2002: 515-524.

共引文献1

1刘海峰,王元元,姚泽清,陈琦.文本分类中一种基于选择的二次特征降维方法[J].情报学报,2009,28(1):23-27. 被引量：8

同被引文献42

1张石磊,武装.一种基于Hadoop云计算平台的聚类算法优化的研究[J].计算机科学,2012,39(S2):115-118. 被引量：29
2江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
3朱克斌,唐菁,杨炳儒.Web文本挖掘系统及聚类分析算法[J].计算机工程,2004,30(13):138-139. 被引量：7
4张亮,冯冲,陈肇雄,黄河燕.基于语句相似度计算的FAQ自动回复系统设计与实现[J].小型微型计算机系统,2006,27(4):720-723. 被引量：19
5史庆伟,赵政,朝柯.一种基于后缀树的中文网页层次聚类方法[J].辽宁工程技术大学学报（自然科学版）,2006,25(6):890-892. 被引量：11
6钱丽萍,汪立东.基于中心短语及权值的相似度计算[J].郑州大学学报（理学版）,2007,39(2):149-152. 被引量：6
7袁春兰.招生咨询领域问答系统中答案抽取的研究与实现[D].上海:上海海事大学,2009.
8董振东.[EB/OL].知网http://www.keenage.com,1999.
9张民李生赵铁军陈力为袁琦等.一种汉语句子间相似度的度量算法及其实现[C].陈力为,袁琦等.计算语言学进展与应用[C].北京:清华大学出版社,1995.152-158.
10穗志方俞士汶.基于骨架依存树的语句相似度计算模型[C]..中文信息处理国际会议(ICCIP98)论文集[C].,1998.458-465.

引证文献3

1张琳,胡杰.FAQ问答系统句子相似度计算[J].郑州大学学报（理学版）,2010,42(1):57-61. 被引量：11
2武森,冯小东,杨杰,张晓楠.基于MapReduce的大规模文本聚类并行化[J].北京科技大学学报,2014,36(10):1411-1419. 被引量：9
3刘澎,陆介平.基于MapReduce的改进k-means文本聚类算法[J].信息技术,2016,40(11):201-205. 被引量：3

二级引证文献23

1贾善崇,周兰江,张建安,周枫.融入多特征的汉-老双语对齐方法[J].中国水运（下半月）,2020,20(3):78-80. 被引量：2
2翟菊叶,马吴迪.电子商务问答系统的研究[J].科技信息,2011(18).
3李敬伟,刘丹.一种基于FAQ的自动应答系统的研究与设计[J].河南机电高等专科学校学报,2012,20(4):27-30. 被引量：1
4卜伟琼,方逵,陈益能.农业知识问答系统句子相似度算法研究[J].农业网络信息,2012(10):17-20. 被引量：2
5吴云芳,石静,万富强,吕学强.汉语并列复句的自动识别方法[J].北京大学学报（自然科学版）,2013,49(1):1-6. 被引量：6
6田卫东,强继朋.基于问句类型的问句相似度计算[J].计算机应用研究,2014,31(4):1090-1093. 被引量：3
7李兰英,董义明,孔银,周秋丽.改进K-means算法的MapReduce并行化研究[J].哈尔滨理工大学学报,2016,21(1):31-35. 被引量：7
8刘澎,陆介平.基于MapReduce的改进k-means文本聚类算法[J].信息技术,2016,40(11):201-205. 被引量：3
9刘业峰.基于BS结构的B2C电子商务管理系统设计与开发[J].沈阳工程学院学报（自然科学版）,2017,13(1):59-65. 被引量：6
10李莉.基于云计算平台Hadoop的并行k-means聚类算法设计研究[J].网络安全技术与应用,2017(12):46-47. 被引量：2

1钱雪忠,孙华峰,贺庆和.关于Web服务动态组合的约束性满足的研究[J].沈阳工业大学学报,2007,29(3):326-329.
2武森,冯小东,杨杰,张晓楠.基于MapReduce的大规模文本聚类并行化[J].北京科技大学学报,2014,36(10):1411-1419. 被引量：9
3段新涛,李伟超.基于图像似然度的人脸检测[J].福建电脑,2006,22(4):124-125.
4黎银环,张剑.改进的K-means算法在入侵检测中的应用[J].计算机技术与发展,2013,23(1):165-168. 被引量：3
5宁忠磊,王宏琦,张正.一种基于协方差矩阵的自动目标检测方法[J].中国科学院研究生院学报,2010,27(3):370-375. 被引量：4
6申利民,杨益良,陈真.考虑相似比率的Web服务QoS协同预测[J].计算机集成制造系统,2016,22(1):144-154. 被引量：5
7廖海亮,胡光岷,钱峰,杨志豪.网络拓扑识别:基于traceroute的层析成像方法[J].计算机应用研究,2009,26(1):276-279.
8薛志东,李利军,邱德红,王乘.基于SVM的虚拟人彩色切片图像自动分割[J].华中科技大学学报（自然科学版）,2006,34(1):42-45. 被引量：2
9李燕萍,唐振民,丁辉,张燕.基于非参数直方图模型的鲁棒说话人识别算法[J].数据采集与处理,2010,25(1):81-85. 被引量：1
10付慧,刘峡壁,贾云得.基于最大-最小相似度学习方法的文本提取[J].软件学报,2008,19(3):621-629. 被引量：1

广西师范大学学报（自然科学版）

2008年第3期

浏览历史

内容加载中请稍等...

基于文本最小相似度的中心选取方法被引量：3

参考文献8

共引文献1

同被引文献42

引证文献3

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

基于文本最小相似度的中心选取方法 被引量：3

参考文献8

共引文献1

同被引文献42

引证文献3

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

基于文本最小相似度的中心选取方法被引量：3