基于改进相似度与类中心向量的半监督短文本聚类算法被引量：1

A semi-supervised short text clustering algorithm based on improved similarity and class-center vector

下载PDF

导出

摘要通过分析现有短文本聚类算法的缺陷,提出了一种基于改进相似度与类中心向量的半监督短文本聚类算法。首先,定义强类别区分度词,利用已加标数据的类别信息提取并构造强类别区分度词集合,并对基于初始特征的余弦相似度和基于强类别区分度词项的相似度进行有效融合,得到更加合理的改进的短文本相似度计算公式。然后,通过计算样本与类中心向量的相似度实现对未分类样本的正确划分,与此同时,更新加标数据集合、类中心向量,重新抽取强类别区分度词。重复这个过程,直到实现所有数据的类别划分。实验表明:与其他同类算法相比,本文算法在聚类准确性和时间效率上有了较大的改进。 By analyzing the shortcomings of the existing short text clustering algorithms,a semi-supervised short text clustering algorithm based on improved similarity and class-center vector is proposed.Firstly,strong category differentiation word is defined,and the set of strong category differentiation words is constructed by using labeled data.Then,an effective short text similarity measurement method is designed by combining the similarity based on cosine theorem and the similarity based on strong category differentiation words.Secondly,the correct classification of the unclassified samples is achieved by calculating the similarity between the sample and the class-center vector.At the same time,the labeled data set and the class-center vector are updated,and the strong category differentiation words are extracted again.This process is repeated until all the data is divided into categories.Experiments show that,compared with other similar algorithms,the proposal can achieve both higher accuracy and better time efficiency.

作者李晓红冉宏艳龚继恒颜丽马慧芳 LI Xiao-hong;RAN Hong-yan;GONG Ji-heng;YAN Li;MA Hui-fang(College of Computer Science and Engineering,Northwest Normal University,Lanzhou 730070,China)

机构地区西北师范大学计算机科学与工程学院

出处《计算机工程与科学》 CSCD 北大核心 2018年第9期1710-1716,共7页 Computer Engineering & Science

基金国家自然科学基金(61163039) 甘肃省青年科技基金(1606RJYA269 145RJYA259) 甘肃省高等学校科研项目(2015A-008) 西北师范大学青年教师科研能力提升计划项目(NWNU-LKQN-14-5 NWNU-LKQN-16-20)

关键词强类别区分度相似度类中心向量半监督聚类短文本 strong category differentiation similarity class-center vector semi-supervised clustering short text

分类号 TP391.3 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1王仲远,程健鹏,王海勋,文继荣.短文本理解研究[J].计算机研究与发展,2016,53(2):262-269. 被引量：50
2刘建伟,刘媛,罗雄麟.半监督学习方法[J].计算机学报,2015,38(8):1592-1617. 被引量：133
3赵卫中,马慧芳,李志清,史忠植.一种结合主动学习的半监督文档聚类算法[J].软件学报,2012,23(6):1486-1499. 被引量：30
4肖宇,于剑.基于近邻传播算法的半监督聚类[J].软件学报,2008,19(11):2803-2813. 被引量：165
5文翰,肖南峰.基于强类别特征近邻传播的半监督文本聚类[J].模式识别与人工智能,2014,27(7):646-654. 被引量：10
6王纵虎,刘速.一种成对约束限制的半监督文本聚类算法[J].计算机科学,2016,43(12):183-188. 被引量：5

二级参考文献63

1杨剑,王珏,钟宁.流形上的Laplacian半监督回归[J].计算机研究与发展,2007,44(7):1121-1127. 被引量：15
2王玲,薄列峰,焦李成.密度敏感的半监督谱聚类[J].软件学报,2007,18(10):2412-2422. 被引量：94
3Chapelle O, Seholkopf B, Zien A. Semi-Supervised Learning. Cam- bridge, USA : MIT Press, 2006.
4Zhu X J. Semi-Supervised Learning Literature Survey [ EB/OL]. [ 2008 - 07 - 19 ]. http ://www. leexiang, com/semi-supervised- learning-literature -survey.
5Zhong S. Semi-Supervised Model-based Document Clustering: A Comparative Study. Machine Learning, 2006, 65( 1 ) : 3-29.
6Dueck D, Frey B J. Non-metric Affinity Propagation for Unsuper- vised Image Categorization// Proc of the 11 th IEEE International Conference on Computer Vision. Rio de Janeiro, Brazil, 2007:1-8.
7Bodenhofer U, Kothmeier A, Hochreiter S. APCluster: An R Pack- age for Affinity Propagation Clustering. Bioinfornmties, 2011, 27(17) : 2463-2464.
8Wu X J. An Improved Extreme Learning Machine for Classification Problem Based on Affinity Propagation Clustering. International Journal of Advancements in Computing Technology, 2012, 4 (10) : 274 -280.
9Culp M, Michailidis G. Graph-Based Semi-Supervised Learning. IEEE Trans on Pattern Analysis and Machine Intelligence, 2008, 30(1) : 174-179.
10Huang R Z, Lam W. An Active Learning Framework for Semi- Supervised Document Clustering with Language Modeling. Data & Knowledge Engineering, 2009, 68 ( 1 ) : 49-67.

共引文献379

1孟威,尉永清,刘文锋.基于CRT机制混合神经网络的特定目标情感分析[J].计算机应用研究,2020,37(2):360-364. 被引量：1
2文莎.基于神经网络的文本分类[J].信息通信,2019,0(12):173-174.
3张颖,王琳,王丽华,王飞,张苗.基于最小二乘法和聚类的用电数据异常分析算法[J].河北电力技术,2019,0(5):4-6. 被引量：2
4常瑞花.基于密集度量元的近邻传播聚类算法[J].微电子学与计算机,2015,32(5):1-5. 被引量：1
5李昆仑,曹铮,曹丽苹,张超,刘明.半监督聚类的若干新进展[J].模式识别与人工智能,2009,22(5):735-742. 被引量：50
6梁吉业,高嘉伟,常瑜.半监督学习研究进展[J].山西大学学报（自然科学版）,2009,32(4):528-534. 被引量：32
7郝建柏,陈贤富,黄双福,杨俊.一种基于模糊近邻标签传递的半监督分类算法[J].微电子学与计算机,2010,27(2):30-33. 被引量：6
8郭景峰,马鑫,代军丽.基于文本—链接模型和近邻传播算法的网页聚类[J].计算机应用研究,2010,27(4):1255-1258. 被引量：3
9何海江,何文德,刘华富.集成最近邻规则的半监督顺序回归算法[J].计算机应用,2010,30(4):1022-1025. 被引量：1
10潘章明.半监督的自动聚类[J].计算机应用,2010,30(10):2614-2617. 被引量：2

同被引文献15

1文勖,张宇,刘挺,马金山.基于句法结构分析的中文问题分类[J].中文信息学报,2006,20(2):33-39. 被引量：82
2刘小敏,王昊,李心蕾,邓三鸿.不同特征粒度在微博短文本分类中作用的比较研究[J].情报科学,2018,36(12):126-133. 被引量：10
3马丽菲,莫倩,杜辉.面向中文短影评的分类技术研究[J].山东大学学报（理学版）,2016,51(1):52-57. 被引量：4
4李志宇,梁循,周小平.基于属性主题分割的评论短文本词向量构建优化算法[J].中文信息学报,2016,30(5):101-110. 被引量：6
5周飞燕,金林鹏,董军.卷积神经网络研究综述[J].计算机学报,2017,40(6):1229-1251. 被引量：1737
6梁斌,刘全,徐进,周倩,章鹏.基于多注意力卷积神经网络的特定目标情感分析[J].计算机研究与发展,2017,54(8):1724-1735. 被引量：138
7卢玲,杨武,杨有俊,陈梦晗.结合语义扩展和卷积神经网络的中文短文本分类方法[J].计算机应用,2017,37(12):3498-3503. 被引量：19
8王义真,郑啸,后盾,胡昊.基于SVM的高维混合特征短文本情感分类[J].计算机技术与发展,2018,28(2):88-93. 被引量：15
9刘德喜,付淇,韦亚雄,万常选,刘喜平,钟敏娟,邱家洪.基于多重增强图和主题分析的社交短文本检索方法[J].中文信息学报,2018,32(3):110-119. 被引量：5
10冯靖,莫秀良,王春东.基于LDA改进的K-means算法在短文本聚类中的研究[J].天津理工大学学报,2018,34(3):7-11. 被引量：6

引证文献1

1曲琦,张正凯,许胜之.基于LSTM-ICNN的网络情报信息技术研究[J].电子测量技术,2019,42(18):144-148. 被引量：7

二级引证文献7

1熊漩,严佩敏.融合多头自注意力机制的中文分类方法[J].电子测量技术,2020(10):125-130. 被引量：7
2周贤来.基于语义分割的异构多核平台大数据挖掘算法[J].计算机与现代化,2020(10):40-43. 被引量：1
3段辉.基于云计算平台的大型图书馆馆藏书籍快速检索研究[J].电子测量技术,2020,43(14):45-49. 被引量：5
4庞渊源,田然,朱晓鸿,王鑫,陈鑫.基于动态路由胶囊架构的电网客服优化设计[J].电子设计工程,2021,29(7):152-156.
5朱斌,陈磊,邬金萍.基于改进卷积神经网络结构的机器视觉室内定位算法[J].国外电子测量技术,2021,40(1):58-64. 被引量：7
6张岱松,盛文婷,谷峥,刘静.基于多模块深度神经网络的陶瓷图像视觉问答方法[J].南京理工大学学报,2023,47(2):192-198.
7顾玉恒.基于ARM内核单片机的体育比赛模拟控制系统[J].计算机测量与控制,2023,31(11):228-234.

1盛魁,马健.基于核密度估计的物联网聚类分析模型[J].控制工程,2018,25(6):1098-1102. 被引量：3
2王勇,王李福,邹辉,何养明.结合类别与语义贡献度的特征权重计算方法[J].计算机工程与设计,2018,39(6):1619-1622. 被引量：4
3王红军,谷玉海,王茂,赵川.高端数控装备多源信息融合状态识别模型[J].仪器仪表学报,2018,39(4):61-66. 被引量：7
4邹盛,马青连.公民言论自由权利行使与网络言论型犯罪的界限[J].哈尔滨师范大学社会科学学报,2018,9(4):68-71.
5周萍,姜宏,章翔峰.VMD奇异值和FCM的转子故障特征提取与识别[J].机械设计与制造,2018(6):161-164. 被引量：1
6王霞.分层模式教学在初中英语教学中的应用研究[J].校园英语,2018,0(34):178-178.
7岳晓峰,刘复秋宣,周小龙,马国元.基于CEEMDAN奇异值熵和SVM的转子故障诊断[J].制造技术与机床,2018(8):78-83.
8陈佳俊,张光宇,孙杰,沈浩.基于最优探测的移动代理WSN目标跟踪算法[J].火力与指挥控制,2018,43(8):85-90. 被引量：1
9王晋.基于压力传感器及支持向量机的人体运动识别系统[J].电子设计工程,2018,26(18):92-95. 被引量：7
10杨灿.空间数据快速索引技术研究[J].电子技术与软件工程,2018(19):207-208. 被引量：3

计算机工程与科学

2018年第9期

浏览历史

内容加载中请稍等...

基于改进相似度与类中心向量的半监督短文本聚类算法被引量：1

参考文献6

二级参考文献63

共引文献379

同被引文献15

引证文献1

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于改进相似度与类中心向量的半监督短文本聚类算法 被引量：1

参考文献6

二级参考文献63

共引文献379

同被引文献15

引证文献1

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于改进相似度与类中心向量的半监督短文本聚类算法被引量：1