期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于关键词聚类的新闻文本相似度计算 被引量:1
1
作者 祝婷 胡建成 《成都信息工程大学学报》 2024年第2期163-169,共7页
针对新闻文本篇幅长、冗余信息多、文本相似度难以准确高效计算的问题,提出一种基于关键词聚类的新闻文本相似度计算方法。首先对文本数据进行预处理,挖掘出文本中的关键信息。使用以TF-IDF值为权重的加权采样方法抽取文本数据集中的关... 针对新闻文本篇幅长、冗余信息多、文本相似度难以准确高效计算的问题,提出一种基于关键词聚类的新闻文本相似度计算方法。首先对文本数据进行预处理,挖掘出文本中的关键信息。使用以TF-IDF值为权重的加权采样方法抽取文本数据集中的关键词,基于聚类的方法光滑噪声数据。聚类形成簇后,在簇间词语相似度计算上,使用word2vec融合TF-IDF词语加权的计算方法,同时关注词语间的语义信息和词语频率。最后,基于各簇的相似度计算两篇文本的相似度。实验表明,所提新闻文本相似度计算方法在计算效果上优于传统计算方法。 展开更多
关键词 新闻文本相似度 word2vec TF-IDF 关键词聚类
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部