具有特征语义权重的数据聚类方法被引量：1

Data Clustering Method with Feature Semantic Weight

下载PDF

导出

摘要针对聚类中的特征选择问题,提出一种基于特征语义权重的数据聚类方法。该方法由用户指定必需的特征集,通过计算特征之间的语义相关度,选择和指定特征集相关的特征集作为补充。利用语义相关度确定各个特征的语义权重,在特征语义权重计算的基础上对传统的K-Means聚类算法进行改进,提出具有特征语义权重的FSW-KMeans算法。实验结果表明,FSW-KMeans算法较大地提高了聚类算法准确率和效率。 This paper proposes a data clustering method based on feature semantic weight for feature selection in clustering. The method acquires Must-Link set from user, and chooses the features which are relevant to the Must-Link as a supplement by calculating the semantic relativity and calculates feature semantic weight by the semantic relativity. It improves the traditional K-Means clustering algorithm based on the calculation of semantic relativity and presents FSW-KMeans clustering algorithm with feature semantics weight. Experimental results show that the clustering accuracy and efficiency of FSW-KMeans algorithm are improved.

作者周川祥孟凡荣张磊王志愿

机构地区中国矿业大学计算机学院

出处《计算机工程》 CAS CSCD 北大核心 2011年第4期64-66,共3页 Computer Engineering

基金国家自然科学基金资助项目(50674086) 江苏省社会发展科技计划基金资助项目(BS2006002) 高等学校博士学科点专项科研基金资助项目(20060290508) 中国矿业大学校基金资助项目(0D090229)

关键词本体特征语义权重语义相关度 FSW-KMeans算法 ontology feature semantic weight semantic relativity FSW-KMeans algorithm

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献6

1卫威,王建民.一种大规模数据的快速潜在语义索引[J].计算机工程,2009,35(15):35-37. 被引量：10
2Nagar A, AI-Mubaid H. A New Path Length Measure Based on GO for Gene Similarity with Evaluation[C]//Proc. of the 21st IEEE International Symposium on Computer-based Medical Systems. Washington D. C., USA: IEEE Press, 2008.
3Esther G, Nayak R, Xu Yue, et al. A User Driven Data Mining Process Model and Learning System[C]//Proc. of the 13th International Conference on Database Systems for Advanced Applications. New Delhi, India: Is. n.], 2008.
4Huang J Z, Ng M K, Rong H, et al. Automated Variable Weighting in k-mean Type Clustering[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005, 27(5): 657-668.
5Huang Haichao, Cheng Yong, Zhao Ruilian. A Semi-supervised Clustering Algorithm Based on Must-link Set[C]//Proc. of the 4th International Conference on Advanced Data Mining and Applications. Chengdu, China: [s. n.], 2008.
6曹文平.一种有效k-均值聚类中心的选取方法[J].计算机与现代化,2008(3):95-97. 被引量：9

二级参考文献13

1何明,冯博琴,傅向华.基于Rough集潜在语义索引的Web文档分类[J].计算机工程,2004,30(13):3-5. 被引量：7
2Scott C D,Dumais S T,Thomas K L,et al.Indexing by Latent Semantic Analysis[J].Journal of the American Society for Information Sciences,1990,41 (6):391-407.
3Tang Chunqiang,Dwarkadas S,Xu Zhichen.On Scaling Latent Semantic Indexing for Large Peer-to-Peer Systems[C]//Proceedings of the 27th Annual international ACM SIGIR Conference on Research and Development in Information Retrieval.NY,USA:ACM Press,2004:112-121.
4Kolda T G,O'Leary D P.A Semidiscrete Matrix Decomposition for Latent Semantic Indexing Information Retrieval[J].ACM Trans.on Inf.Syst.,1998,16(4):322-346.
5Karypis G,Hart E H S.Concept Indexing:A Fast Dimensionality Reduction Algorithm with Application to Document Retrieval and Categorization[C]//Proceedings of CIKM'00.McLean,VA,USA:[s.n.],2000:12-19.
6Bingham E,Mannila H.Random Projection in Dimensionality Reduction:Applications to Image and Text Data[C]//Proceedings of KDD'01.San Francisco,CA,USA:[s.n.],2001:245-250.
7P S Bradley, Usmna M Fayyad. Refinining initial points for k-means clustering [ C ]//15th International Conf. on Machine Learning, 1998.
8Pavel Berkhin. Survey of Clustering Data Mining Techniques [ DB/OL]. http://www.ee. ucr. edu/-barth/ EE242/clustering_survey. pdf,2002-03-01.
9Siddheswar Ray, Rose H Turi. Determination of Number of Clusters in k-means Clustering and Application in Colour Image Segmentation [ DB/OL ]. http ://www. esse. monash. edu. au/-roset/papers/ca199.pdf, 1999-03-01.
10J M Pena, J A Lozano, P Larranaga. An empirical comparison of four initialization methods for the k-means algorithm [J]. Pattern Recognition Letters, 1999,20 (10) : 1027- 1040.

共引文献17

1向剑平,唐常杰,陈瑜,胡进军,左劼,易树鸿.基于动力学聚类技术的银行信贷风险挖掘[J].计算机工程与设计,2009,30(14):3478-3480. 被引量：1
2顾洪博,张继怀.聚类算法初始聚类中心的优化[J].西安工程大学学报,2010,24(2):222-226. 被引量：7
3张彪,刘贵全.基于关联分析的文本分类特征选择算法[J].计算机工程,2010,36(22):184-186. 被引量：3
4高仕龙.基于奇异值分解的英文文本检索算法[J].计算机工程,2011,37(1):78-80. 被引量：2
5钱晓东,肖强,王婷婷.基于信号传递的神经网络文本降维算法[J].计算机工程,2011,37(5):213-215.
6李旻松,段琢华.基于支持向量机的隐含语意特征选择方法[J].计算机应用,2011,31(9):2429-2431. 被引量：2
7陈海彬,郭金玉,谢彦红.基于改进K-means聚类的kNN故障检测研究[J].沈阳化工大学学报,2013,27(1):69-73. 被引量：8
8王越,王泉,吕奇峰,曾晶.基于初始聚类中心优化和维间加权的改进K-means算法[J].重庆理工大学学报（自然科学）,2013,27(4):77-80. 被引量：7
9侯一民,金新会.基于字符密度与聚类分析的多车牌定位方法[J].计算机技术与发展,2013,23(7):124-126. 被引量：3
10白宁.一种基于k-均值聚类的异常检测技术[J].计算机与现代化,2014(1):93-95. 被引量：4

同被引文献8

1周丽娟,王慧,王文伯,张宁.面向海量数据的并行KMeans算法[J].华中科技大学学报（自然科学版）,2012,40(S1):150-152. 被引量：31
2朱良兵,纪希禹.基于Topic Maps的叙词表再工程[J].现代图书情报技术,2006(9):81-84. 被引量：20
3胡熠,陆汝占,陈玉泉,刘慧.基于词典中词语量化关系的中文文本聚类研究[J].高技术通讯,2007,17(8):778-782. 被引量：1
4刘磊,曹存根,张春霞,田国刚.概念空间中上下位关系的意义识别研究[J].计算机学报,2009,32(8):1651-1661. 被引量：14
5安建成,武俊丽.基于语义树的概念语义相似度计算方法研究[J].微电子学与计算机,2011,28(1):138-141. 被引量：10
6谢雄程,刘之家.基于聚类与分类混合算法的应用研究[J].广西师范学院学报（自然科学版）,2011,28(3):82-87. 被引量：3
7安爱芬.一种加速的k-均值聚类方法[J].韶关学院学报,2012,33(12):15-18. 被引量：1
8刘一佳,车万翔,刘挺,张梅山.基于序列标注的中文分词、词性标注模型比较分析[J].中文信息学报,2013,27(4):30-36. 被引量：12

引证文献1

1张东香,江长柱.基于多重语义的词典管理方法和实现[J].信息技术,2015,39(9):191-195.

1冀俊忠,张玲玲,吴晨生,吴金源.基于知识语义权重特征的朴素贝叶斯情感分类算法[J].北京工业大学学报,2014,40(12):1884-1890. 被引量：11
2钟敏娟,万常选,刘德喜,江腾蛟.基于高质量反馈源的XML查询扩展[J].情报学报,2013,32(6):610-617. 被引量：1
3董立岩,张高祥,孙博,郎一宁.从自然语言向SPARQL语言映射的歧义消解算法[J].吉林大学学报（理学版）,2016,54(3):535-538.
4秦恺.不完全语义认知过程中信息特征正确识别仿真[J].计算机仿真,2017,34(2):242-245. 被引量：6
5万常选,鲁远.基于用户相关反馈的带结构语义的XML查询词扩展[J].情报学报,2009,28(3):382-388. 被引量：2
6吴晨,张全,贾宁.一种基于概念的信息检索方法(英文)[J].Journal of Southeast University(English Edition),2006,22(3):324-329. 被引量：1
7陈叶旺,钟必能,王靖,李海波.一种基于本体与描述文本的网络图像语义标注方法[J].计算机科学,2012,39(B06):293-299. 被引量：4
8温馨,陈群,娄颖.基于词项扩展的XML信息检索反馈技术[J].计算机工程,2011,37(20):36-38. 被引量：2
9张玲玲,冀俊忠,贝飞,吴晨生.基于句法分析和属性概率权重的跨语言情感分类算法[J].模式识别与人工智能,2015,28(11):1002-1012. 被引量：3

计算机工程

2011年第4期

浏览历史

内容加载中请稍等...

具有特征语义权重的数据聚类方法被引量：1

参考文献6

二级参考文献13

共引文献17

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史

具有特征语义权重的数据聚类方法 被引量：1

参考文献6

二级参考文献13

共引文献17

同被引文献8

引证文献1

相关作者

相关机构

相关主题

浏览历史

具有特征语义权重的数据聚类方法被引量：1