融合无监督SimCSE的短文本聚类研究被引量：1

Study on Short Text Clustering with Unsupervised SimCSE

下载PDF

导出

摘要传统的浅层文本聚类方法在对短文本聚类时,面临上下文信息有限、用词不规范、实际意义词少等挑战,导致文本的嵌入表示稀疏、关键特征难以提取等问题。针对以上问题,文中提出一种融合简单数据增强方法的深度聚类模型SSKU(SBERT SimCSE K-means Umap)。该模型采用SBERT对短文本进行嵌入表示,利用无监督SimCSE方法联合深度聚类K-Means算法对文本嵌入模型进行微调,改善短文本的嵌入表示使其适于聚类。使用Umap流形降维方法学习嵌入局部的流形结构来改善短文本特征稀疏问题,优化嵌入结果。最后使用K-Means算法对降维后嵌入进行聚类,得到聚类结果。在StackOverFlow,Biomedical等4个公开短文本数据集进行大量实验并与最新的深度聚类算法作对比,结果表明所提模型在准确度与标准互信息两个评价指标上均表现出良好的聚类性能。 Traditional shallow text clustering methods face challenges such as limited context information,irregular use of words,and few words with actual meaning when clustering short texts,resulting in sparse embedding representations of the text and difficulty in extracting key features.To address these issues,a deep clustering model SSKU(SBERT SimCSE Kmeans Umap)incorporating simple data augmentation methods is proposed in the paper.The model uses SBERT to embed short texts and fine-tunes the text embedding model using the unsupervised SimCSE method in conjunction with the deep clustering KMeans algorithm to improve the embedding representation of short texts to make them suitable for clustering.To improve the sparse features of short text and optimize the embedding results,Umap manifold dimension reduction method is used to learn the local manifold structure.Using K-Means algorithm to cluster the dimensionality-reduced embeddings,and the clustering results are obtained.Extensive experiments are carried out on four publicly available short text datasets,such as StackOverFlow and Biomedical,and compared with the latest deep clustering algorithms.The results show that the proposed model exhibits good clustering performance in terms of both accuracy and standard mutual information evaluation metrics.

作者贺文灏吴春江周世杰何朝鑫 HE Wenhao;WU Chunjiang;ZHOU Shijie;HE Chaoxin(School of Information and Software Engineering,University of Electronic Science and Technology of China,Chengdu 610054,China)

机构地区电子科技大学信息与软件学院

出处《计算机科学》 CSCD 北大核心 2023年第11期71-76,共6页 Computer Science

关键词短文本深度聚类预训练模型降维方法自然语言处理 Short text Deep clustering Pre-training model Dimension reduction Natural language processing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

同被引文献28

1卢泰宏.社会的情报意识和社会的情报能力[J].情报科学,1983,4(3):1-7. 被引量：16
2包昌火,李艳,包琰.论竞争情报学科的构建[J].情报理论与实践,2012,35(1):1-9. 被引量：61
3卢胜军,赵需要,栗琳.钱学森科技情报理论体系及其意义[J].情报科学,2012,30(9):1418-1423. 被引量：22
4张家年.情报视角下我国智库能力体系建设的研究[J].情报资料工作,2016,37(1):92-98. 被引量：52
5计宏亮,赵楠,缐珊珊,谭惠文.构建智库型国防科技情报研究能力体系的探索[J].情报理论与实践,2017,40(7):6-10. 被引量：15
6王延飞,赵柯然,陈美华,刘记.情报感知的研究解析[J].情报理论与实践,2018,41(8):1-4. 被引量：76
7李阳,孙建军.面向智慧应急的情报资源保障能力建构[J].情报学报,2019,38(12):1310-1319. 被引量：36
8杜礼玲,唐毅.基于供应链视角的高校图书馆科技情报服务能力评价指标体系研究[J].农业图书情报,2019,31(12):64-69. 被引量：8
9蔡永明,刘璐,王科唯.网络虚拟学习社区重要用户与核心主题联合分析[J].数据分析与知识发现,2020,4(6):69-79. 被引量：5
10王莉娜,胡广伟,刘建霞.数据赋能视角下应急情报服务价值共创过程及能力提升——以新冠疫情防控为例[J].图书情报知识,2021(1):23-33. 被引量：17

引证文献1

1孙亚洲,吕彬,李晓松.面向任务描述的国防科技情报能力评估指标体系构建研究——基于主题挖掘和对比学习方法[J].情报理论与实践,2024,47(10):107-117.

1任建伟,石远凯,韩晓红.免疫检查点抑制剂治疗肿瘤合并自身免疫病患者研究进展[J].中国肿瘤临床与康复,2023,30(3):175-179. 被引量：1
2潘博阳.融合多尺度注意力和分离解耦头的红外弱小目标检测算法[J].首都师范大学学报（自然科学版）,2023,44(5):30-36. 被引量：1
3孙杰,王斌,王宏,吾守尔·斯拉木.基于小波特征的维吾尔语方言识别[J].实验室研究与探索,2023,42(4):148-152.
4过伶俐,陈秀宏.潜在多步马尔可夫概率的鲁棒无监督特征选择[J].智能系统学报,2023,18(5):1017-1029.
5赵光华,杨焘,付冬梅.数据流形边界及其分布条件的增量式降维算法[J].智能系统学报,2023,18(5):975-983. 被引量：1
6东方证券“资本市场高质量发展研究”课题组.量化投资与资本市场高质量发展[J].中国金融,2023(20):54-55. 被引量：1
7杨硕,李书琴.多模态知识图谱增强葡萄种植问答对的答案选择模型[J].农业工程学报,2023,39(14):207-214. 被引量：5
8吴雅玲.听唱玩创,音阶训练的四个台阶——小学音乐课堂音阶训练的现象与改进策略[J].大众文摘,2022(51):166-168.
9朱建勇,李兆祥,徐彬,杨辉,聂飞平.基于图嵌入的正交局部保持投影无监督特征选择[J].计算机科学,2023,50(S02):540-548.
10崔艳芬.浅谈古诗文教学的有效方法[J].语文世界（上旬刊）,2023(10):40-40.

计算机科学

2023年第11期

浏览历史

内容加载中请稍等...

融合无监督SimCSE的短文本聚类研究被引量：1

同被引文献28

引证文献1

相关作者

相关机构

相关主题

浏览历史

融合无监督SimCSE的短文本聚类研究 被引量：1

同被引文献28

引证文献1

相关作者

相关机构

相关主题

浏览历史

融合无监督SimCSE的短文本聚类研究被引量：1