关键语义信息补足的深度文本聚类算法被引量：1

Deep document clustering method via key semantic information complementation

下载PDF

导出

摘要针对大多数现有的深度文本聚类方法在特征映射过程中过于依赖原始数据质量以及关键语义信息丢失的问题,提出了一种基于关键语义信息补足的深度文本聚类算法(DCKSC)。该算法首先通过提取关键词数据对原始文本数据进行数据增强;其次,设计了一个关键语义信息补足模块对传统的自动编码器进行改进,补足映射过程中丢失的关键语义信息;最后,通过综合聚类损失与关键词语义自动编码器的重构损失学习适合于聚类的表示特征。实验证明,提出算法在五个现实数据集上的聚类效果均优于当前先进的聚类方法。聚类结果证明了关键语义信息补足方法和文本数据增强方法对深度文本聚类的重要性。 The most existing deep text clustering methods only use traditional autoencoder to learn representation for clustering,and neglect the problems with over-reliance on raw data quality and loss of key semantic information during feature mapping.This paper proposed a deep document clustering method via key semantic information complementation(DCKSC)mo-del.The DCKSC model firstly enriched the original text data by extracting keyword data.Secondly,this model designed a key semantic information complement module which used data enhancement representation to improve the traditional autoencoder,and compensated for the key semantic information lost in the mapping process.Finally,the algorithm synthesized the clustering loss and the reconstruction loss of the keyword semantic autoencoder,optimized the cluster label assignment and learned the presentation characteristics suitable for clustering.Experimental results show that DCKSC is superior to many mainstream deep document clustering algorithms.

作者郑璐依黄瑞章任丽娜白瑞娜林川 Zheng Luyi;Huang Ruizhang;Ren Lina;Bai Ruina;Lin Chuan(State Key Laboratory of Public Big Data,Guizhou University,Guiyang 550025,China;College of Computer Science&Technology,Guizhou University,Guiyang 550025,China)

机构地区贵州大学公共大数据国家重点实验室贵州大学计算机科学与技术学院

出处《计算机应用研究》 CSCD 北大核心 2023年第6期1653-1659,共7页 Application Research of Computers

基金国家自然科学基金资助项目(62066007)。

关键词深度文本聚类表征学习自动编码器自监督聚类数据增强 deep text clustering representative learning autoencoder self-supervised clustering data argumentation

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献5

1杨博,刘大有,LIU Jiming,金弟,马海宾.复杂网络聚类方法[J].软件学报,2009,20(1):54-66. 被引量：209
2赵京胜,宋梦雪,高祥,朱巧明.自然语言处理中的文本表示研究[J].软件学报,2022,33(1):102-128. 被引量：52
3尚敬文,王朝坤,辛欣,应翔.基于深度稀疏自动编码器的社区发现算法[J].软件学报,2017,28(3):648-662. 被引量：17
4黄学雨,向驰,陶涛.基于MapReduce和改进密度峰值的划分聚类算法[J].计算机应用研究,2021,38(10):2988-2993. 被引量：7
5任丽娜,秦永彬,黄瑞章,姚茂宣.基于多层子空间语义融合的深度文本聚类[J].计算机应用研究,2023,40(1):70-74. 被引量：4

二级参考文献88

1张政馗,庞为光,谢文静,吕鸣松,王义.面向实时应用的深度学习研究综述[J].软件学报,2020(9):2654-2677. 被引量：36
2杨楠,弓丹志,李忺,孟小峰.Web社区发现技术综述[J].计算机研究与发展,2005,42(3):439-447. 被引量：35
3徐通锵.“字本位”和语言研究[J].语言教学与研究,2005(6):1-11. 被引量：56
4Watts D J, Strogatz SH. Collective dynamics of Small-World networks. Nature, 1998,393(6638):440-442.
5Barabasi AL, Albert R. Emergence of scaling in random networks. Science, 1999,286(5439):509-512.
6Barabasi AL, Albert R, Jeong H, Bianconi G. Power-Law distribution of the World Wide Web. Science, 2000,287(5461):2115a.
7Albert R, Barabasi AL, Jeong H. The Internet's Achilles heel: Error and attack tolerance of complex networks. Nature, 2000, 406(2115):378-382.
8Girvan M, Newman MEJ. Community structure in social and biological networks. Proc. of the National Academy of Science, 2002,9(12):7821-7826.
9Guimera R, Amaral LAN. Functional cartography of complex metabolic networks. Nature, 2005,433(7028):895-900.
10Palla G, Derenyi I, Farkas I, Vicsek T. Uncovering the overlapping community structures of complex networks in nature and society. Nature, 2005,435(7043):814-818.

共引文献283

1宋鹏,葛洪伟,乔宇鑫.加权最近邻分配的局部间隙密度聚类[J].南京大学学报（自然科学版）,2022,58(5):827-835. 被引量：2
2汪欣,张铭毅,刘亚萍.精准推荐技术的工作逻辑和前沿应用[J].传媒论坛,2022,5(16):16-18.
3宋智玲.蚁群算法优化结点和聚类技术在复杂网络中发现社团的研究[J].实验室研究与探索,2010,29(7):79-82.
4王晓芳.基于边链接权重的局部社团探测算法[J].农业网络信息,2012(12):32-33.
5智源,行飞.复杂网络社区结构问题综述[J].阴山学刊（自然科学版）,2011,25(3):31-34. 被引量：2
6邓波,张玉超,金松昌,林旺群.基于MapReduce并行架构的大数据社会网络社团挖掘方法[J].计算机研究与发展,2013,50(S2):187-195. 被引量：10
7赵金利,张群华,余贻鑫,贾宏杰,杨锦.输电网网架结构的谱聚类分析算法[J].电力系统及其自动化学报,2009,21(4):8-11. 被引量：10
8田野,刘大有,杨博.复杂网络聚类算法在生物网络中的应用[J].计算机科学与探索,2010,4(4):330-337. 被引量：9
9王娟,靳京,钱伟中,秦志光.基于小波分解的群落流量异常检测[J].电子测量与仪器学报,2010,24(4):365-370. 被引量：5
10李峻金,向阳,牛鹏,刘丽明,芦英明.一种新的复杂网络聚类算法[J].计算机应用研究,2010,27(6):2097-2099. 被引量：8

同被引文献2

1王跃飞,于炯,苏国平,钱育蓉,廖彬,刘粟.ODIC-DBSCAN:一种新的簇内孤立点分析算法[J].自动化学报,2019,45(11):2107-2127. 被引量：7
2常黎明,刘颜红,徐恕贞.基于数据分布的聚类联邦学习[J].计算机应用研究,2023,40(6):1697-1701. 被引量：8

引证文献1

1王跃飞,曾世杰,于曦,刘兴蕊,李越.一种基于荧光信息导航的聚类算法[J].计算机应用研究,2024,41(1):116-125.

1耿伟峰,王翔,景丽萍,于剑.共识图学习驱动的自监督集成聚类[J].中国图象图形学报,2023,28(4):1069-1078. 被引量：1
2王才雪,陈坚,傅志妍,陈钉钧.基于社交网络数据的城市轨道交通服务质量评价模型[J].铁道科学与工程学报,2023,20(5):1871-1879.
3王桐,王伟,车宏鑫,吴可凡,陈祥.基于学位论文主题挖掘的医学信息专业跨学科研究特征分析[J].医学信息学杂志,2023,44(5):91-96.
4温廷新,高倩.基于AE-CLSSA-ELM的煤与瓦斯突出危险性预测模型[J].中国安全生产科学技术,2023,19(5):73-79. 被引量：2
5杨滔,孙博,杨晓君.基于超像素锚层收敛选点的高光谱图像聚类算法[J].电子测量技术,2023,46(6):77-83. 被引量：1
6王英霄.卫姒簋的自名修饰语研究[J].民俗典籍文字研究,2022(1):129-135.
7Gang Chen,Jie Cai,Niels Gorm Maly Rytter,Marie Lützen.一种船舶作业中原始数据质量的实用评估方法[J].哈尔滨工程大学学报（英文版）,2023,22(2):370-380.
8申秋萍,张清华,高满,代永杨.基于局部半径的三支DBSCAN算法[J].计算机科学,2023,50(6):100-108. 被引量：3
9袁萌萌,张泽旭.三维点云与图像双模态融合的空间目标部件识别方法[J].宇航学报,2023,44(5):796-804.
10宋丽萍,刁文芳,石雅芳,韩昕媛.开放科学环境下科研人员的负责任评价新取向分析[J].图书情报工作,2023,67(9):63-71.

计算机应用研究

2023年第6期

浏览历史

内容加载中请稍等...

关键语义信息补足的深度文本聚类算法被引量：1

参考文献5

二级参考文献88

共引文献283

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

关键语义信息补足的深度文本聚类算法 被引量：1

参考文献5

二级参考文献88

共引文献283

同被引文献2

引证文献1

相关作者

相关机构

相关主题

浏览历史

关键语义信息补足的深度文本聚类算法被引量：1