基于词性和中心点改进的文本聚类方法被引量：6

A Text Clustering Method Based on Speech to Text and Improved Center Selection

导出

摘要针对k-均值算法对初始点敏感、易陷入局部最优的问题,提出一种基于词性和中心点改进的文本聚类方法(STICS).通过改进文本的语义型表示,优化中心点的选取,并消除孤立点的负面影响,从而获得较好的聚类效果.STICS考虑不同词性特征对文本的贡献,采用加权的向量空间模型来表示文本.对于中心点的选取,首先度量每个样本的样本平均相似度,其次选取样本平均相似度最大的样本作为第一个聚类中心.此外,STICS消除孤立点的负面影响,以此提高聚类效果.实验结果表明文中方法确实具有更好的聚类效果. The traditional k-means algorithm is sensitive to the initial point and easy to fall into local optimum. An improved speech to text and improved center selection （STICS） based text clustering method is proposed. Taking into account the speech to text, the optimal selection of centers and treatment of outliers concurrently, STICS has three aspects of improvement. The weighted vector space model （VSM） is used to represent text according to the speech to text. For the selection of the center, the sample average similarity is measured for each sample, and the sample with the largest sample average similarity is selected as the first center. In addition, STICS method eliminates the negative influences of isolated points, or outliers. Both theoretical analysis and experimental results prove that the proposed algorithm has better clustering results.

作者施侃晟刘海涛宋文涛

机构地区上海交通大学电子信息与电气工程学院

出处《模式识别与人工智能》 EI CSCD 北大核心 2012年第6期996-1001,共6页 Pattern Recognition and Artificial Intelligence

基金国家自然科学基金资助项目(No.60970107)

关键词文本聚类 K-均值词性特征样本平均相似度孤立点 Text Clustering, k-means, Speech to Text, Sample Average Similarity, Outlier

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
2MacQueen J. Some Methods for Classification and Analysis of Muhi- variate Observations // Proc of the 5th Berkeley Symposium on Mathematical Statistics and Probability. Berkeley, USA, 1967, I : 281-297.
3陈浩,何婷婷,姬东鸿.基于k-means聚类的无导词义消歧[J].中文信息学报,2005,19(4):10-16. 被引量：16
4Shameem M U S, Ferdous R. An Efficient k-means Algorithm Inte- grated with Jaccard Distance Measure for Document Clustering // Proc of the 1st Asian Himalayas International Conference on Inter- net. Kathmandu, Nepal, 2009:1-6.
5Qing Xiaoping, Zheng Shijue. A New Method for Initializing the K-means Clustering Algorithm//Proc of the 2nd International Sym- posium on Knowledge Acquisition and Modeling. Wuhan, China, 2009 : 41-44.
6Chen Xuhui, Xu Yong, K-means Clustering Algorithm with Refined Initial Center// Proc of the 2nd International Conference on Bio- medical Engineering and Informatics. Tianjin, China, 2009:1-4.
7许厚金,刘永炎,邓成玉,刘永山.基于相似中心的k-cmeans文本聚类算法[J].计算机工程与设计,2010,31(8):1802-1805. 被引量：12
8Sahon G, Wong A, Yang CS. A Vector Space Model for Informa- tion Retrieval. Communications of the ACM, 1975, 18(11 ) : 613- 620.
9Sahon G, Buckley B. Term-Weighting Approaches in Automatic Text Retrieval. Information Processing and Management, 1988, 24 (5) : 513-523.
10赵世奇,刘挺,李生.一种基于主题的文本聚类方法[J].中文信息学报,2007,21(2):58-62. 被引量：23

二级参考文献62

1李孝明,曹万华.文本信息检索的精确匹配模型[J].计算机科学,2004,31(9):100-102. 被引量：7
2黄昌宁,李涓子.词义排歧的一种语言模型[J].语言文字应用,2000(3):85-90. 被引量：16
3陈浩,何婷婷,姬东鸿.基于k-means聚类的无导词义消歧[J].中文信息学报,2005,19(4):10-16. 被引量：16
4K.haled M Hammouda,Mohamed S Kamel.Efficient phrase-based document indexing for web document clustering[J].IEEE Transactions on Knowledge and Data Engineering,2004,16(10):1279- 1296.
5Joshua Zhexue Huang, Michael K Ng, Hongqiang Rong, et al. Automated variable weighting in k-means type clustering [J]. IEEE Transactions on Pattern Analysis and Machine Intelligence,2005,27(5):657-668.
6Shehroz S Khan,Amir Ahmad.A cluster center initialization algorithm for k-means clustering[J].Pattem Recognition Letters, 2004,25(11):1293-1302.
7Ramiz M Aliguliyev.Clustering of document collection- a weighting approach [J]. Expert Systems with Applications, 2009,36(4) :7904-7916.
8Tapas Kanungo,David M Mount,Nathan S Net-anyahu,et al.An efficient k-means clustering algorithm [J]. Analysis and Implementation,IEEE Transactions on Pattern Analysis and Machine InteUigence,2002,24(7):881-892.
9Ajith Abraham, Swagatam Das, Amit Konar. Document clustering using differential evolution[C].Vancouver, BC:IEEE Congress on Evolutionary Computation,2006:1784-1791.
10Richard Nock, Frank Nielsen.On weighting clustering[J].IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006,28(8): 1223-1235.

共引文献108

1吴英杰,李军莲,孙海霞,王蕾,陈颖.基于著者共现的CBM机构名称规范研究[J].医学信息学杂志,2019,40(12):48-53. 被引量：3
2李春妍,王勇.个性化服务中用户兴趣聚类算法研究[J].信息技术,2007,31(10):77-80. 被引量：3
3庞秀丽,冯玉强,姜维.电子商务个性化文档推荐技术研究[J].中国管理科学,2008,16(S1):581-586. 被引量：10
4王瑞琴,孔繁胜.基于无导词义消歧的语义查询扩展[J].情报学报,2011,30(2):131-137. 被引量：4
5刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
6陈浩,程良伦,张小波.基于向量空间模型的无导词义消歧[J].计算机工程与设计,2007,28(5):1215-1218. 被引量：1
7何婷婷,戴文华,焦翠珍.基于混合并行遗传算法的文本聚类研究[J].中文信息学报,2007,21(4):55-60. 被引量：11
8张云,冯博琴,麻首强,刘连梦.蚁群-遗传融合的文本聚类算法[J].西安交通大学学报,2007,41(10):1146-1150. 被引量：15
9王晓东,郭雷,方俊,杨宁,邓涛.一种基于本体的抽象度可调文档聚类[J].计算机工程与应用,2007,43(29):172-175. 被引量：3
10王凌峰.基于构成要素的聚类算法[J].统计与决策,2007,23(19):26-28. 被引量：1

同被引文献42

1刘珣.新一代对外汉语教材的展望——再谈汉语教材的编写原则[J].世界汉语教学,1994,8(1):58-67. 被引量：74
2彭京,杨冬青,唐世渭,王腾蛟,高军.基于概念相似度的文本相似计算[J].中国科学（F辑:信息科学）,2009,39(5):534-544. 被引量：17
3李绍山.易读性研究概述[J].解放军外国语学院学报,2000,23(4):1-5. 被引量：99
4金博,史彦军,滕弘飞.基于语义理解的文本相似度算法[J].大连理工大学学报,2005,45(2):291-297. 被引量：79
5洪铭材,张阔,唐杰,李涓子.基于条件随机场(CRFs)的中文词性标注方法[J].计算机科学,2006,33(10):148-151. 被引量：56
6Han J W, Kamber M, Pei J. Data Mining: Concept and Techniques. 2nd Edition. Amsterdam, Holland: Elsevier, 2006.
7Sanchez J A, Medina M A, Starostenko O, et al. Organizing Open Archives via Lightweight Ontolog to Facilitate the Use of Heterogeneous Collections. Aslib Proceedings, 2012, 64(1): 46-66.
8Vicient C, Sdnchez D, Moreno A. An Automatic Approach for Ontology-Based Feature Extraction from Heterogeneous Documental Resources. Engineering Applications of Artificial Intelligence, 2013, 26: 1092-1106.
9刘群,李素建.基于知网的词汇语义相似度计算//第3届汉语词汇语义学研讨会.台北,中国,2002:59-76.
10Abdalgader K, Skabar A. Unsupervised Similarity-Based Word Sense Disambiguation Using Context Vectors and Sentential Word Importance. ACM Trans on Speech and Language Processing, 2012. DOI: 10.1145/2168748.2168750.

引证文献6

1张佩云,陈传明,黄波.基于子树匹配的文本相似度算法[J].模式识别与人工智能,2014,27(3):226-234. 被引量：13
2李志华,陈超群,李村,胡振宇,张华伟.基于关键词重提取的密文文本相似性度量方法研究[J].计算机科学,2016,43(8):95-99. 被引量：2
3张考,赵永忠,齐超.基于树形结构的评论文本相似度计算算法[J].信息工程大学学报,2016,17(5):555-558. 被引量：1
4李武,赵娇燕,严太山.基于平均差异度优选初始聚类中心的改进K-均值聚类算法[J].控制与决策,2017,32(4):759-762. 被引量：30
5张鹏,廖涛.基于改进K-means算法的时间和地点识别[J].电脑知识与技术,2017,13(12X):182-184. 被引量：1
6杨文娣,曾致中.基于随机森林算法的对外汉语文本可读性评估[J].中国教育信息化,2019,25(14):89-96. 被引量：5

二级引证文献52

1许能闯,袁健,高喜龙.含代码的IT社区答案质量评价模型[J].小型微型计算机系统,2019,40(1):158-163. 被引量：1
2李雪琴,李聪,马丽,梁昌勇.树型网络相似性度量方法研究：一个分类视角[J].情报学报,2014,33(11):1146-1159.
3吴德,刘三阳,梁锦锦.多类文本分类算法GS-SVDD[J].计算机科学,2016,43(8):190-193. 被引量：4
4詹志建,杨小平.一种基于复杂网络的短文本语义相似度计算[J].中文信息学报,2016,30(4):71-80. 被引量：14
5张考,赵永忠,齐超.基于树形结构的评论文本相似度计算算法[J].信息工程大学学报,2016,17(5):555-558. 被引量：1
6曾文,徐红姣,李颖,王莉军,赵婧.基于VSM的科技期刊文献与专利文献的相似度计算方法研究[J].情报工程,2016,2(3):37-42. 被引量：10
7于玲玲,独家卿,陈龙.改进的K-均值算法在商业客户识别中的应用研究[J].通化师范学院学报,2017,38(10):75-77. 被引量：2
8李成龙,杨冬菊,韩燕波.基于分词矩阵模型的模糊匹配查重算法研究[J].计算机科学,2017,44(B11):55-60. 被引量：4
9王日宏,崔兴梅.融合集群度与距离均衡优化的K-均值聚类算法[J].计算机应用,2018,38(1):104-109. 被引量：3
10韦祥,李本威,张赟.采用符号时间序列分析的轴承早期微弱故障预警[J].西安交通大学学报,2018,52(6):84-90. 被引量：3

1邱莎,王付艳,申浩如,段玻,阿圆,丁海燕.基于含边界词性特征的中文命名实体识别[J].计算机工程,2012,38(13):128-130. 被引量：7
2肖宇伦,欧阳纯萍,刘志明.基于SVM和词向量的Web新闻倾向性分析[J].现代计算机（中旬刊）,2016(5):52-55. 被引量：1
3郭建波,谢飞.基于多特征的关键词抽取算法[J].合肥工业大学学报（自然科学版）,2015,38(9):1215-1219. 被引量：7
4韩普,王东波,刘艳云,苏新宁.词性对中英文文本聚类的影响研究[J].中文信息学报,2013,27(2):65-73. 被引量：11
5孙伟强.自适应通用学习框架改进FLDA的人脸识别[J].电视技术,2014,38(7):207-210.
6赛迪亚古丽.艾尼瓦尔,向露,宗成庆,艾克白尔.帕塔尔,艾斯卡尔.艾木都拉.融合多策略的维吾尔语词干提取方法[J].中文信息学报,2015,29(5):204-210. 被引量：12
7吴明芬,陈涛.基于SVM的以词性和依存关系为特征的句子倾向性判断分析[J].五邑大学学报（自然科学版）,2012,26(4):66-71. 被引量：1
8邱云飞,陈艺方,王伟,邵良杉.基于词性特征与句法分析的商品评价对象提取[J].计算机工程,2016,42(7):173-180. 被引量：9
9来新民,王以忠,曾子平,张大卫.一种激光位移传感器的试验研究和改进[J].河北工业大学学报,1997,26(3):10-16. 被引量：1
10黄毅,王庆林,刘禹.一种基于条件随机场的领域术语上下位关系获取方法[J].中南大学学报（自然科学版）,2013,44(S2):355-359. 被引量：5

模式识别与人工智能

2012年第6期

浏览历史

内容加载中请稍等...

基于词性和中心点改进的文本聚类方法被引量：6

参考文献12

二级参考文献62

共引文献108

同被引文献42

引证文献6

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

基于词性和中心点改进的文本聚类方法 被引量：6

参考文献12

二级参考文献62

共引文献108

同被引文献42

引证文献6

二级引证文献52

相关作者

相关机构

相关主题

浏览历史

基于词性和中心点改进的文本聚类方法被引量：6