一种面向故障短文本的改进聚类方法研究

A study of an Improved Clustering Method for Fault-oriented Short Texts

下载PDF

导出

摘要在航空制造领域中,为了解决故障数据质量不高且多为短文本的问题,本文提出了一种改进的短文本聚类方法。首先通过自动编码器模块提取文本的全局语义信息,再通过关键语义提取模块提取文本中的关键语义信息,最终将两者提取的特征融合后使用K-means进行文本聚类。该方法有效地解决了传统自动编码器在训练过程中丢失语义信息和过度依赖原始数据质量的问题。实验表明,本文提出的方法聚类效果优于现有的聚类算法,同时聚类结果也证明了关键语义信息对文本聚类的重要性。 In the field of aeronautical manufacturing,in order to solve the fault data with low quality and mostly short text,this paper pin proposes a text clustering method.Firstly,the method extracts the global semantic information of the text through the AutoEncoder module,then extracts the key semantic information in the text through the key semantic extraction module,and finally fuses the two extracted features to perform text clustering using K-Means.The method effectively solves the problems of losing semantic information and over-reliance on raw data quality in the training process of traditionalAutoEncoder.Experiments show that the clustering effect of the method proposed in this paper is better than the existing clustering algorithms,and the clustering results also prove the importance of key semantic information for text clustering.

作者周志宇郭朝阳余志斌张士举杨丰玉 Zhou Zhiyu;Guo Chaoyang;Yu Zhibin;Zhang Shiju;Yang Fengyu(AVIC Jiangxi Hongdu Aviation Industry Group Compa,Nanchang,China;College of Software,Nanchang Hangkong University,Nanchang,China)

机构地区中航工业江西洪都航空工业集团有限责任公司南昌航空大学软件学院

出处《科学技术创新》 2024年第10期70-73,共4页 Scientific and Technological Innovation

基金江西省重点研发计划(20202BBEL53002)。

关键词文本聚类自动编码器 K-MEANS 关键语义特征融合 text clustering auto encoder K-Means key semantics feature fusion

分类号 TP393 [自动化与计算机技术—计算机应用技术] TP301 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献1

1范缜,都云程,施水才.文本聚类技术综述[J].软件导刊,2023,22(1):236-242. 被引量：3

二级参考文献7

1曹晓.文本聚类研究综述[J].情报探索,2016(1):131-134. 被引量：16
2吕琳,尉永清,任敏,潘晓.基于蚁群优化算法的凝聚型层次聚类[J].计算机应用研究,2017,34(1):114-117. 被引量：16
3孙昭颖,刘功申.面向短文本的神经网络聚类算法研究[J].计算机科学,2018,45(B06):392-395. 被引量：14
4章永来,周耀鉴.聚类算法综述[J].计算机应用,2019,39(7):1869-1882. 被引量：205
5赵晓平,黄祖源,黄世锋,王永和.一种结合TF-IDF方法和词向量的短文本聚类算法[J].电子设计工程,2020,28(21):5-9. 被引量：12
6潘成胜,张斌,吕亚娜,杜秀丽,邱少明.改进灰狼优化算法的K-Means文本聚类[J].计算机工程与应用,2021,57(1):188-193. 被引量：15
7李玥,穆维松,褚晓泉,傅泽田.基于改进量子粒子群的K-means聚类算法及其应用[J].控制与决策,2022,37(4):839-850. 被引量：27

共引文献2

1赵殿国.面向无监督学习的大数据聚类方法及其应用研究[J].统计与咨询,2023(6):7-11. 被引量：1
2冯芫,徐文婷,王敏,任欣,靳宇阳.基于大数据的输变电全过程造价管控评价[J].黑龙江电力,2024,46(2):179-184.

1王红林,李忠伟.大数据场景下用户评论聚类文本挖掘算法[J].计算机仿真,2024,41(3):352-358.
2李梦奇,谢帆,薛亚军.发电机组并网故障分析与排查[J].航海技术,2024(2):58-61.
3张贤,李帝铨,胡艳芳,朱云起,李富.基于IITD和PNN的广域电磁法数据信噪分离方法[J].地球物理学进展,2024,39(1):241-252.
4胡广.磨煤机加载系统典型液压故障诊断与处理[J].中文科技期刊数据库（全文版）工程技术,2024(4):0103-0107.
5贺添,孟国杰,吴伟伟,苏小宁,赵国强,魏聪敏,董志华.中国地震科学实验场BDS-3定位精度和地壳运动初步分析[J].测绘学报,2024,53(4):653-665.

科学技术创新

2024年第10期

浏览历史

内容加载中请稍等...

一种面向故障短文本的改进聚类方法研究

参考文献1

二级参考文献7

共引文献2

相关作者

相关机构

相关主题

浏览历史