一种基于改进相似度计算的文本聚类方法被引量：3

A Text Clustering Method Based on Improved Similarity Calculation

导出

摘要针对文本在聚类或分类时,由于数据高维稀疏导致相似度值低的问题,提出一种基于改进文本相似度计算的聚类方法.首先,利用向量空间模型VSM表示文本,采用余弦函数计算文本之间的相似度;然后,基于网络中节点的相似性传播原理,通过设置阈值找到与各个文本相似度较大的文本集合,进而使用Jaccard系数将两个文本之间相似度计算转化为两个文本集合之间的相似度计算;最后根据得到的文本相似度矩阵,利用谱聚类算法对文本进行聚类.在WebKB上的实验结果表明,与传统的K-means、谱聚类方法相比,该方法提高了聚类的准确度,召回率与F值. When clustering or classifying texts, high dimensional and sparse data maybe lead to low similarity. As for this problem, this paper proposed a clustering method based on improved textual similarity calculation. Firstly, we use VSM to represent the texts, and used cosine function to calculate the similarity between texts. Then, based on the similarity propagation principle of the nodes in network, for each text, we selected the corresponding texts set with greater similarity by setting a threshold, to further calculate the similarity between each two texts sets by using Jaccard coefficients. Finally, according to the obtained text similarity matrix, we used the spectral clustering algorithm to conduct text clustering. Experimental results on WebKb dataset show that our proposed method improves the clustering accuracy, recall and F-value compared with the traditional algorithms of K-means and spectral clustering.

作者李征李斌 LI Zheng;LI Bin(School of Computer and Information Engineering,Henan University,Henan Kaifeng 475004,China;Key Laboratory of Intelligent Vision Monitoring for Hydropower Project of Hubei Province,China Three Gorges University,Hubei Yichang 443002,China)

机构地区河南大学计算机与信息工程学院三峡大学湖北省水电工程智能视觉监测重点实验室

出处《河南大学学报（自然科学版）》 CAS 2018年第4期415-420,共6页 Journal of Henan University:Natural Science

基金国家重点基础研究发展计划(973)项目(2014CB340404) 国家自然科学基金资助项目(61402150 61402151) 中国博士后科学基金资助项目(2016M592286) 河南大学科研基金项目(2013YBZR015) 三峡大学水电工程智能视觉监测湖北省重点实验室开放基金项目(2016KLA04) 河南省科技研发专项(182102410063)

关键词文本相似度 Jaccard系数文本集合谱聚类算法 text similarity Jaccard coefficient texts set spectral clustering algorithm

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献2

1彭敏,黄佳佳,朱佳晖,黄济民,刘纪平.基于频繁项集的海量短文本聚类与主题抽取[J].计算机研究与发展,2015,52(9):1941-1953. 被引量：31
2TIAN Gang,WANG Jian,HE Keqing,SUN Cheng'ai.Leveraging Auxiliary Knowledge for Web Service Clustering[J].Chinese Journal of Electronics,2016,25(5):858-865. 被引量：5

二级参考文献31

1彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：44
2Yang X, Ghoting A, Ruan Y, et al. A framework for summarizing and analyzing Twilter feeds [C] //Proc of the 18th ACM SIGKDD lnt Conf on Knowledge Discovery and Data Mining (KDD'12). New York: ACM, 2012:370-378.
3Zhang X, Zhu S, Liang W. Detecting spare and promoting campaigns in the Twitter social network [C] //Proc of the 12th IEEE Int Conf on Data Mining (ICDM'12). Los Alamitos, CA: IEEEComputer Society, 2012:1194-1199.
4Peng Min, Huang Jiaiia, Fu Hui, et al. High quality microblog extraction based on multiple features fusion and time frequency lransformation [G] //LNCS 8181 : Proc of the 14th Int Conf of Web Information Systems Engineering (WlSE'13). Berlin: Springer, 2013:188- 201.
5Lin D. An information theoretic definition of similarity [C]// Proc of the 15th Int Conf on Machine I.earning (ICMI.'98). San Francisco, CA: Morgan Kaufmann, 1998, 296-304.
6Schiitze H, Silverstein C. Projections for efficient document clustering [C] //Proc of the 20th Annual Int ACM SIGIR Conf on Research and Development in Information Retrieval (SIGIR'97). New York: ACM, 1997: 74-81.
7Ramage D, Heymann P, Manning C D, et al. Clustering the tagged Web [C] //Proc of the 2nd ACM Int Conf on Web Search and Data Mining (WSDM'09). New York: ACM, 2009:54-63.
8Freeman R, Yin H. Self-organising maps for hierarchical tree view document clustering using contextual information [G]//LNCS 2412: Proc of the IEEE Int Joint Conf on Neural Networks. Berlin: Springer, 2002:123-128.
9Sahami M, Heilman T D. A Web based kernel function for measuring the similarity of short text snippets [C] //Proc of the 15th Int Conf on World Wide Web (WWW'06). New York: ACM, 2006: 377-386.
10Bollegala D, Matsuo Y, Ishizuka M. Measuring semantic sinMarity between words using Web search engines [C]// Proc of the 16th Int Conf on World Wide Web (WWW'07). New York: ACM, 2007:757- 766.

共引文献34

1薛苏琴,牛永洁.基于向量空间模型的中文文本相似度的研究[J].电子设计工程,2016,24(10):28-31. 被引量：12
2张银明,黄廷磊,林科,张嫱嫱.一种改进的k均值文本聚类算法[J].桂林电子科技大学学报,2016,36(4):311-314. 被引量：5
3王海艳,曹攀.一种大规模Web文本的分类方法[J].南京邮电大学学报（自然科学版）,2016,36(4):60-67.
4张少磊,王忠.基于闭频繁项集短文本聚类[J].计算机应用,2016,36(A02):227-229. 被引量：1
5王灿伟.基于主题提取的海量微博情感分析[J].南京大学学报（自然科学版）,2017,53(3):549-556. 被引量：7
6梁晓贺,田儒雅,吴蕾,张学福.微博主题发现研究方法述评[J].图书情报工作,2017,61(14):141-148. 被引量：9
7马慧芳,朱志强,成玉丹,贾俊杰.基于核心词项平均划分相似度的短文本聚类算法[J].计算机工程与科学,2017,39(8):1562-1569.
8贺伟雄,严骏,缪德志.基于关键词语义距离的装备故障文本聚类算法[J].信息工程大学学报,2017,18(3):305-310. 被引量：2
9陈建,沈潇军,姚一杨,邢雅菲,琚小明.基于密文策略属性基加密系统访问机制的缓存替换策略[J].计算机应用,2017,37(10):2964-2967. 被引量：4
10张雪松,贾彩燕.一种基于频繁词集表示的新文本聚类方法[J].计算机研究与发展,2018,55(1):102-112. 被引量：14

同被引文献13

1张杰,卓灵,朱韵攸.一种K-means聚类算法的改进与应用[J].电子技术应用,2015,41(1):125-128. 被引量：20
2李勇,张克亮.面向LDA和VSM模型的微博热点话题发现研究[J].自动化技术与应用,2016,35(8):52-57. 被引量：5
3车蕾,杨小平.多特征融合文本聚类的新闻话题发现模型[J].国防科技大学学报,2017,39(3):85-90. 被引量：10
4张雪松,贾彩燕.一种基于频繁词集表示的新文本聚类方法[J].计算机研究与发展,2018,55(1):102-112. 被引量：14
5魏小锐.基于整体相似度的文档主题匹配研究[J].网络安全技术与应用,2018(3):44-46. 被引量：1
6朱振国,刘民康,赵凯旋.基于用户联合相似度的推荐算法[J].计算机系统应用,2018,27(5):126-132. 被引量：6
7吴海涛,郭丽红,杨洁.基于矩阵存储的XML相似度检测算法[J].计算机应用研究,2018,35(7):2025-2029. 被引量：4
8徐建民,许彩云.基于文本和公式的科技文档相似度计算[J].数据分析与知识发现,2018,2(10):103-109. 被引量：8
9石磊,杜军平,梁美玉.基于RNN和主题模型的社交网络突发话题发现[J].通信学报,2018,39(4):189-198. 被引量：15
10谭梦婕,吕鑫,陶飞飞.基于多特征融合的财经新闻话题检测研究[J].计算机工程,2019,45(3):293-299. 被引量：6

引证文献3

1刘菲.基于加权层次子树模型的XML文档相似度的计算[J].中国科技纵横,2019,0(14):39-40.
2李海磊,杨文忠,李东昊,温杰彬,钱芸芸.基于特征融合的K-means微博话题发现模型[J].电子技术应用,2020,46(4):24-28. 被引量：6
3王小良,郑巍,夏传林.基于神经网络的相似编程题目推荐[J].计算机工程与设计,2022,43(1):260-268.

二级引证文献6

1曹树金,岳文玉.突发公共卫生事件微博舆情主题挖掘与演化分析[J].信息资源管理学报,2020,10(6):28-37. 被引量：60
2刘鹏,宁鹏飞.基于VSM的海量医学资源特定信息优化聚类模型[J].计算机仿真,2021,38(6):383-386.
3颜端武,梅喜瑞,杨雄飞,朱鹏.基于主题模型和词向量融合的微博文本主题聚类研究[J].现代情报,2021,41(10):67-74. 被引量：24
4侯博元,崔喆,谢欣冉.BERT-Single:半监督的话题检测与追踪方法[J].计算机应用,2022,42(S01):21-27. 被引量：1
5郭田雨,赵书霖,李铮,郝洁,贾斯瑶.重大药品安全事件中网络舆情对刑事立法的影响研究[J].科技情报研究,2024,6(3):111-126.
6许文晴,王成龙,陈梅梅,沈惠璋.基于文本分析的网络舆情主题演化及主体特征研究[J].新闻传播科学,2023,11(4):1056-1066.

1唐宇.应用聚类分析方法串并案件的距离计算问题研究[J].刑事技术,2018,43(2):123-129. 被引量：1
2俞勇.弄懂才能做实:金融科技在金融行业中的应用回望[J].当代金融家,2018,0(4):83-87. 被引量：7
3祁燕,岳添骏,杨大为.基于用户打分和评论的推荐算法研究[J].沈阳理工大学学报,2018,37(2):11-17. 被引量：1
4刘展,彭谨,江华.基于Jaccard系数提高核磁共振波谱代谢物数据库匹配的精度[J].化学研究与应用,2017,29(12):1947-1952. 被引量：1
5张利萍,邢凯,周慧,芮伟康,丁玲.基于病情自述和知识图谱的疾病辅助诊断[J].计算机应用与软件,2018,35(2):161-166. 被引量：4
6周涛,尤焱南,张成思,赵霞.中医儿科标准化诊疗方案对比分析[J].中医杂志,2018,59(14):1198-1202. 被引量：14
7邱先标,陈笑蓉.一种基于特征加权的文本相似度计算算法[J].贵州大学学报（自然科学版）,2018,35(1):63-68. 被引量：4
8朱茂然,王奕磊,高松,王洪伟,张晓鹏.基于LDA模型的主题演化分析:以情报学文献为例[J].北京工业大学学报,2018,44(7):1047-1053. 被引量：25
9邸雪菁,崔宗敏,唐利华,喻静.关于数据流上发布订阅空间文本相似度的研究[J].福建电脑,2018,34(8):1-3.
10王勇,王李福,邹辉,何养明.结合类别与语义贡献度的特征权重计算方法[J].计算机工程与设计,2018,39(6):1619-1622. 被引量：4

河南大学学报（自然科学版）

2018年第4期

浏览历史

内容加载中请稍等...

一种基于改进相似度计算的文本聚类方法被引量：3

参考文献2

二级参考文献31

共引文献34

同被引文献13

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

一种基于改进相似度计算的文本聚类方法 被引量：3

参考文献2

二级参考文献31

共引文献34

同被引文献13

引证文献3

二级引证文献6

相关作者

相关机构

相关主题

浏览历史

一种基于改进相似度计算的文本聚类方法被引量：3