基于关键词聚类的新闻文本相似度计算

News Text Similarity Calculation based on Keyword Clustering

下载PDF

导出

摘要针对新闻文本篇幅长、冗余信息多、文本相似度难以准确高效计算的问题,提出一种基于关键词聚类的新闻文本相似度计算方法。首先对文本数据进行预处理,挖掘出文本中的关键信息。使用以TF-IDF值为权重的加权采样方法抽取文本数据集中的关键词,基于聚类的方法光滑噪声数据。聚类形成簇后,在簇间词语相似度计算上,使用word2vec融合TF-IDF词语加权的计算方法,同时关注词语间的语义信息和词语频率。最后,基于各簇的相似度计算两篇文本的相似度。实验表明,所提新闻文本相似度计算方法在计算效果上优于传统计算方法。 Aiming at the problems of long news text,too much redundant information,and difficulty in accurately and efficiently calculating text similarity,a news text similarity calculation method based on keyword clustering is proposed.First,the text data is preprocessed to extract the key information in the text.The weighted sampling method weighted by TF-IDF values was used to extract keywords in the text dataset,and the clustering-based method was used to smooth noise data.After getting clusters from clustering,word2vec is used to calculate the word similarity between clusters,and the TF-IDF word weighting calculation method is used,and the semantic information and word frequency between words are considered.Finally,the similarity of the two texts is calculated based on the similarity of each cluster.Experiments show that the proposed news text similarity calculation method performs better than the traditional calculation method.

作者祝婷胡建成 ZHU Ting;HU Jiancheng(College of Applied Mathematics,Chengdu University of Information Techology,Chengdu 610225,China)

机构地区成都信息工程大学应用数学学院

出处《成都信息工程大学学报》 2024年第2期163-169,共7页 Journal of Chengdu University of Information Technology

关键词新闻文本相似度 word2vec TF-IDF 关键词聚类 news text similarity word2vec TF-IDF keyword clustering

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1王春柳,杨永辉,邓霏,赖辉源.文本相似度计算方法研究综述[J].情报科学,2019,37(3):158-168. 被引量：76
2张焕炯,王国胜,钟义信.基于汉明距离的文本相似度计算[J].计算机工程与应用,2001,37(19):21-22. 被引量：56
3廖运春,舒坚.基于加权Word2Vec和TextCNN的新闻文本分类[J].长江信息通信,2022,35(9):32-35. 被引量：1

二级参考文献18

1周荫清，信息理论基础M，1993年
2潘谦红,王炬,史忠植.基于属性论的文本相似度计算[J].计算机学报,1999,22(6):651-655. 被引量：63
3刘宏哲,须德.基于本体的语义相似度和相关度计算研究综述[J].计算机科学,2012,39(2):8-13. 被引量：98
4詹志建,梁丽娜,杨小平.基于百度百科的词语相似度计算[J].计算机科学,2013,40(6):199-202. 被引量：20
5尹坤,尹红风,杨燕,贾真.基于SimRank的百度百科词条语义相似度计算[J].山东大学学报（工学版）,2014,44(3):29-35. 被引量：9
6张焕炯,王国胜,钟义信.基于汉明距离的文本相似度计算[J].计算机工程与应用,2001,37(19):21-22. 被引量：56
7高国强,黄吕威,陈丰钰.使用网络搜索引擎计算汉语词汇的语义相似度[J].计算机技术与发展,2014,24(7):84-87. 被引量：4
8陈海燕.基于搜索引擎的词汇语义相似度计算方法[J].计算机科学,2015,42(1):261-267. 被引量：21
9闫红,李付学,周云.基于HowNet句子相似度的计算[J].计算机技术与发展,2015,25(11):53-57. 被引量：10
10陈宏朝,李飞,朱新华,马润聪.基于路径与深度的同义词词林词语相似度计算[J].中文信息学报,2016,30(5):80-88. 被引量：28

共引文献127

1严娇,马静,房康.基于融合共现距离的句法网络下文本语义相似度计算[J].数据分析与知识发现,2019,3(12):93-100. 被引量：3
2周婷玮.基于共现网络与情感分析的多平台消费者评论主题比较研究[J].知识管理论坛,2023(2):79-91. 被引量：2
3赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
4吴汉东,李安.网络版权治理的算法技术与算法规则[J].网络法律评论,2020,20(1):78-101. 被引量：8
5杜小虎,吴宏明,易子博,李莎莎,马俊,余杰.文本对抗样本攻击与防御技术综述[J].中文信息学报,2021,35(8):1-15. 被引量：5
6谢红.基于词频比的改进Jaccard系数文本相似度计算[J].内江科技,2021,42(8):27-28. 被引量：8
7康锋,张会巍.论文查重的技术原理、局限及其合理应用[J].编辑学报,2023,35(3):288-294. 被引量：2
8张骥,张红梅,邵华,郑紫尧,李亮玉.基于全景数字仿真的变电站一键顺控测试技术[J].高电压技术,2023,49(S01):128-134. 被引量：2
9晋耀红.基于语境框架的文本相似度计算[J].计算机工程与应用,2004,40(16):36-39. 被引量：26
10周如旗.基于扩展Petri网的文本分类模型[J].电脑与信息技术,2005,13(4):7-9.

1于金弘,伍鹤皋,石长征,孙海清,汪碧飞,李娇娜.考虑管道自重荷载的埋地钢管结构计算方法[J].长江科学院院报,2024,41(5):155-161.
2张运华,豆景乐,姚阳.浅析液压支架应力测试与理论计算[J].中国设备工程,2024(11):88-91.
3邱定国,闫建平,郭伟,廖茂杰,邱小雪,黄毅.川南长宁页岩气储层有机质成熟度测井计算方法适用性分析[J].测井技术,2024,48(2):142-156.
4王春荣,周福平,夏尔冬,高浩.基于改进四阶矩的齿轮可靠性研究[J].机械强度,2024,46(3):636-642.

成都信息工程大学学报

2024年第2期

浏览历史

内容加载中请稍等...

基于关键词聚类的新闻文本相似度计算

参考文献3

二级参考文献18

共引文献127

相关作者

相关机构

相关主题

浏览历史