期刊文献+

关键语义信息补足的深度文本聚类算法 被引量:1

Deep document clustering method via key semantic information complementation
下载PDF
导出
摘要 针对大多数现有的深度文本聚类方法在特征映射过程中过于依赖原始数据质量以及关键语义信息丢失的问题,提出了一种基于关键语义信息补足的深度文本聚类算法(DCKSC)。该算法首先通过提取关键词数据对原始文本数据进行数据增强;其次,设计了一个关键语义信息补足模块对传统的自动编码器进行改进,补足映射过程中丢失的关键语义信息;最后,通过综合聚类损失与关键词语义自动编码器的重构损失学习适合于聚类的表示特征。实验证明,提出算法在五个现实数据集上的聚类效果均优于当前先进的聚类方法。聚类结果证明了关键语义信息补足方法和文本数据增强方法对深度文本聚类的重要性。 The most existing deep text clustering methods only use traditional autoencoder to learn representation for clustering,and neglect the problems with over-reliance on raw data quality and loss of key semantic information during feature mapping.This paper proposed a deep document clustering method via key semantic information complementation(DCKSC)mo-del.The DCKSC model firstly enriched the original text data by extracting keyword data.Secondly,this model designed a key semantic information complement module which used data enhancement representation to improve the traditional autoencoder,and compensated for the key semantic information lost in the mapping process.Finally,the algorithm synthesized the clustering loss and the reconstruction loss of the keyword semantic autoencoder,optimized the cluster label assignment and learned the presentation characteristics suitable for clustering.Experimental results show that DCKSC is superior to many mainstream deep document clustering algorithms.
作者 郑璐依 黄瑞章 任丽娜 白瑞娜 林川 Zheng Luyi;Huang Ruizhang;Ren Lina;Bai Ruina;Lin Chuan(State Key Laboratory of Public Big Data,Guizhou University,Guiyang 550025,China;College of Computer Science&Technology,Guizhou University,Guiyang 550025,China)
出处 《计算机应用研究》 CSCD 北大核心 2023年第6期1653-1659,共7页 Application Research of Computers
基金 国家自然科学基金资助项目(62066007)。
关键词 深度文本聚类 表征学习 自动编码器 自监督聚类 数据增强 deep text clustering representative learning autoencoder self-supervised clustering data argumentation
  • 相关文献

参考文献5

二级参考文献88

  • 1张政馗,庞为光,谢文静,吕鸣松,王义.面向实时应用的深度学习研究综述[J].软件学报,2020(9):2654-2677. 被引量:36
  • 2杨楠,弓丹志,李忺,孟小峰.Web社区发现技术综述[J].计算机研究与发展,2005,42(3):439-447. 被引量:35
  • 3徐通锵.“字本位”和语言研究[J].语言教学与研究,2005(6):1-11. 被引量:56
  • 4Watts D J, Strogatz SH. Collective dynamics of Small-World networks. Nature, 1998,393(6638):440-442.
  • 5Barabasi AL, Albert R. Emergence of scaling in random networks. Science, 1999,286(5439):509-512.
  • 6Barabasi AL, Albert R, Jeong H, Bianconi G. Power-Law distribution of the World Wide Web. Science, 2000,287(5461):2115a.
  • 7Albert R, Barabasi AL, Jeong H. The Internet's Achilles heel: Error and attack tolerance of complex networks. Nature, 2000, 406(2115):378-382.
  • 8Girvan M, Newman MEJ. Community structure in social and biological networks. Proc. of the National Academy of Science, 2002,9(12):7821-7826.
  • 9Guimera R, Amaral LAN. Functional cartography of complex metabolic networks. Nature, 2005,433(7028):895-900.
  • 10Palla G, Derenyi I, Farkas I, Vicsek T. Uncovering the overlapping community structures of complex networks in nature and society. Nature, 2005,435(7043):814-818.

共引文献283

同被引文献2

引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部