基于LDA改进的K-means算法在短文本聚类中的研究被引量：6

Improved K-means algorithm based on Latent Dirichlet Allocation for short text clustering

下载PDF

导出

摘要在短文本聚类的过程中,常发现特征词的稀疏性质、高维空间处理的复杂性.由于微博的内容长度限制和特征稀疏性,特征向量的高维度被执行,导致模糊聚类结果.本文使用了Latent Dirichlet Allocation主题模型,对训练数据进行建模,并将主题术语扩展原始微博的特征,从而丰富了聚类文本特征,提高聚类效果.实验结合K-means和Canopy聚类算法对文本数据进行处理,提出了LKC算法,弥补了K-means算法对初始聚类中心点选取的敏感性,结果实现了更高的精度和聚类F1-measure的测量值.F1值提高了10%,准确度提高了2%. In the process of short text clustering, the sparse nature of the characteristic words, the complexity of the high- dimensional space processing are often found. Due to the content length limitation of the micro blog and its feature sparsity, the high dimensionality of feature vectors is performed, resulted in obscured clustering results. A Latent Dirichlet Allocation （LDA）theme model is proposed to the training data, and extend the subject term into the characteristics of the original micro blog, such that to enrich the category features to improve the clustering consequent. Our experiment combines K-means and Canopy clustering algorithm to process the text data and the results achieve higher accuracy and Fl-measure.The F1 value improved by 10%, and the accuracy improved by 2%.

作者冯靖莫秀良王春东 FENG Jing;MO Xiu-liang;WANG Chun-dong(School of Computer Science and Engineering, Tianjin Key Laboratory of Intelligence Computing and Novel Software Technology, Tianjin University of Technology, Tianjin 300384, Chin)

机构地区天津理工大学计算机科学与工程学院天津市智能计算及软件新技术重点实验室

出处《天津理工大学学报》 2018年第3期7-11,共5页 Journal of Tianjin University of Technology

基金天津市科委基金(15JCYBJC15600)

关键词短文本 LDA K-MEANS聚类 Canopy聚类 short text LDA K-means clustering Canopy clustering

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1贺涛,曹先彬,谭辉.基于免疫的中文网络短文本聚类算法[J].自动化学报,2009,35(7):896-902. 被引量：18
2张群,王红军,王伦文.一种结合上下文语义的短文本聚类算法[J].计算机科学,2016,43(S2):443-446. 被引量：11
3赵庆.基于Hadoop平台下的Canopy-Kmeans高效算法[J].电子科技,2014,27(2):29-31. 被引量：39
4邱云飞,赵彬,林明明,王伟.结合语义改进的K-means短文本聚类算法[J].计算机工程与应用,2016,52(19):78-83. 被引量：14

二级参考文献44

1钟将,吴中福,吴开贵,欧灵.基于人工免疫网络的动态聚类算法[J].电子学报,2004,32(8):1268-1272. 被引量：24
2马静.语言学视野中的网络语言[J].西北工业大学学报（社会科学版）,2002,22(1):52-56. 被引量：22
3黄永光,刘挺,车万翔,胡晓光.面向变异短文本的快速聚类算法[J].中文信息学报,2007,21(2):63-68. 被引量：17
4袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
5王永恒,贾焰,杨树强.海量短语信息文本聚类技术研究[J].计算机工程,2007,33(14):38-40. 被引量：13
6Wang L,Jia Y,Han W H.Instant message clustering based on extended vector space model.In:Proceedings of the 2nd International Symposium on Intelligence Computation and Applications.Wuhan,China:Springer,2007.435-443
7He H,Chen B,Xu W R,Guo J.Short text feature extraction and clustering for web topic mining.In:Proceedings of the 3rd International Conference on Semantics,Knowledge and Grid.Washington D.C.,USA:IEEE,2007.382-385
8de Castro L N,Von Z F J.aiNet:an artificial immune network for data analysis.Data Mining:A Heuristic Approach.New York:Idea Group Publishing,2001.231-259
9Xia Y Q,Wong K F.Anomaly detecting within dynamic Chinese chat text.In:Proceedings of New Text Workshop st the 11th Conference for European Chapter of the Association for Computational Linguistics.Trento,Italy:Acl Anthology Network,2006.48-55
10Xia Y Q,Wong K F,Gao W.NIL is not nothing:recognition of Chinese network informal language expressions.In:Proceedings of the 4th SIGHAN Workshop on Chinese Langunge Processing.Jeju Island,Republic of Korea:Acl Anthology Network,2005.95-102

共引文献77

1彭泽映,俞晓明,许洪波,刘春阳.大规模短文本的不完全聚类[J].中文信息学报,2011,25(1):54-59. 被引量：35
2潘章明.基于亲和度累积的人工免疫网络聚类[J].计算机应用,2011,31(6):1660-1663. 被引量：2
3时睿,封化民.一种基于名词的微博语义计算方法[J].北京电子科技学院学报,2011,19(4):16-22. 被引量：4
4刘金岭,王新功.基于中文短信文本聚类的热点事件发现[J].情报杂志,2013,32(2):30-33. 被引量：4
5张志飞,苗夺谦,高灿.基于LDA主题模型的短文本分类方法[J].计算机应用,2013,33(6):1587-1590. 被引量：77
6田进华,张韧志.基于MapReduce数字图像处理研究[J].电子设计工程,2014,22(15):93-95. 被引量：7
7吕超镇,姬东鸿,吴飞飞.基于LDA特征扩展的短文本分类[J].计算机工程与应用,2015,51(4):123-127. 被引量：49
8武霞,董增寿,孟晓燕.基于大数据平台hadoop的聚类算法K值优化研究[J].太原科技大学学报,2015,36(2):92-96. 被引量：11
9孟海东,任敬佩.基于云计算平台的聚类算法[J].计算机工程与设计,2015,36(11):2990-2994. 被引量：10
10李天彩,席耀一,王波,张佳明.一种改进的短文本层次聚类算法[J].信息工程大学学报,2015,16(6):743-748. 被引量：5

同被引文献66

1文勖,张宇,刘挺,马金山.基于句法结构分析的中文问题分类[J].中文信息学报,2006,20(2):33-39. 被引量：82
2王森,杨克俭.基于双线性插值的图像缩放算法的研究与实现[J].自动化技术与应用,2008,27(7):44-45. 被引量：81
3汤艳君.关键字搜索方法在电子数据取证中的应用[J].中国刑警学院学报,2008(2):25-27. 被引量：2
4刘喜平,龚晓彦,郭希娟.基于互信息的医学图像匹配中的改进插值算法[J].计算机仿真,2010,27(7):194-197. 被引量：5
5叶鸥,张璟,李军怀.中文数据清洗研究综述[J].计算机工程与应用,2012,48(14):121-129. 被引量：42
6李湘东,廖香鹏,黄莉.LDA模型下书目信息分类系统的研究与实现[J].现代图书情报技术,2014(5):18-25. 被引量：12
7穆翠霞,刘振华,武涛.面向电子商务的网页检索聚类方法[J].计算机与现代化,2014(5):70-73. 被引量：1
8刘小敏,王昊,李心蕾,邓三鸿.不同特征粒度在微博短文本分类中作用的比较研究[J].情报科学,2018,36(12):126-133. 被引量：10
9陈海燕.基于搜索引擎的词汇语义相似度计算方法[J].计算机科学,2015,42(1):261-267. 被引量：21
10刘里,肖迎元.基于动词依存集的领域概念聚类方法[J].哈尔滨工程大学学报,2015,36(7):949-953. 被引量：2

引证文献6

1曲琦,张正凯,许胜之.基于LSTM-ICNN的网络情报信息技术研究[J].电子测量技术,2019,42(18):144-148. 被引量：7
2刘艳文,魏赟.基于LDA主题模型的情感分析研究[J].电子科技,2020,33(7):12-16. 被引量：4
3汤艳君,苏梅,许彩滇,屈丽.利用Doc2Vec及改进K-means聚类实现文本取证分析[J].中国刑警学院学报,2020(4):115-121. 被引量：3
4高志君,郑俊生,安敬民.支持用户偏好查询的领域概念图模型[J].计算机工程与设计,2022,43(3):744-750.
5沈东义,姬银秀,毛火明,郭林,袁秋霞.基于Word2vec和K-Means算法的勘探开发成果文档聚类研究[J].湖北大学学报（自然科学版）,2023,45(1):113-119.
6张丽艳,王娟,夏承遗.基于VGG-16的子宫颈癌变分级预测[J].天津理工大学学报,2023,39(5):21-28.

二级引证文献14

1熊漩,严佩敏.融合多头自注意力机制的中文分类方法[J].电子测量技术,2020(10):125-130. 被引量：7
2周贤来.基于语义分割的异构多核平台大数据挖掘算法[J].计算机与现代化,2020(10):40-43. 被引量：1
3段辉.基于云计算平台的大型图书馆馆藏书籍快速检索研究[J].电子测量技术,2020,43(14):45-49. 被引量：5
4庞渊源,田然,朱晓鸿,王鑫,陈鑫.基于动态路由胶囊架构的电网客服优化设计[J].电子设计工程,2021,29(7):152-156.
5朱斌,陈磊,邬金萍.基于改进卷积神经网络结构的机器视觉室内定位算法[J].国外电子测量技术,2021,40(1):58-64. 被引量：7
6陈宇峰.采用CNN-LSTM与迁移学习的虚假评论检测[J].软件导刊,2022,21(2):63-67. 被引量：1
7梁家富,李家华.基于Doc2Vec和随机森林的外卖评价预测方法[J].微型电脑应用,2022,38(6):142-144. 被引量：1
8何传鹏,尹玲,黄勃,王明胜,郭茹燕,张帅,巨家骥.基于BERT和LightGBM的文本关键词提取方法[J].电子科技,2023,36(3):7-13. 被引量：5
9张岱松,盛文婷,谷峥,刘静.基于多模块深度神经网络的陶瓷图像视觉问答方法[J].南京理工大学学报,2023,47(2):192-198.
10全龙翔,王茜璇,艾力·海如拉.基于云存储与智能分析的电网运营数据处理系统[J].电子设计工程,2023,31(10):79-82. 被引量：1

1陈婉琦,张旺,尹微,王朵,沈越,黄云辉.无机熔融盐电解质在锂空气电池的应用[J].储能科学与技术,2017,6(6):1273-1279. 被引量：1

天津理工大学学报

2018年第3期

浏览历史

内容加载中请稍等...

基于LDA改进的K-means算法在短文本聚类中的研究被引量：6

参考文献4

二级参考文献44

共引文献77

同被引文献66

引证文献6

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于LDA改进的K-means算法在短文本聚类中的研究 被引量：6

参考文献4

二级参考文献44

共引文献77

同被引文献66

引证文献6

二级引证文献14

相关作者

相关机构

相关主题

浏览历史

基于LDA改进的K-means算法在短文本聚类中的研究被引量：6