期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于语义相似度的文本聚类研究 被引量:8
1
作者 毕强 刘健 鲍玉来 《现代图书情报技术》 CSSCI 2016年第12期9-16,共8页
【目的】为解决传统的文本聚类无法充分挖掘文本资源语义信息以及相似度矩阵高维性、稀疏性等问题,并进一步改善文本聚类质量,提出基于语义相似度的文本聚类方法。【方法】通过《同义词词林扩展版》计算词语的语义相似度并得到文本语义... 【目的】为解决传统的文本聚类无法充分挖掘文本资源语义信息以及相似度矩阵高维性、稀疏性等问题,并进一步改善文本聚类质量,提出基于语义相似度的文本聚类方法。【方法】通过《同义词词林扩展版》计算词语的语义相似度并得到文本语义相似度矩阵,根据文本语义相似度矩阵进行谱聚类,将文本聚集为文本簇。【结果】利用复旦大学文本语料库与搜狗文本语料库中的文本资源作为数据来源分别对传统聚类算法与本文提出的算法进行实验,结果表明,当聚类个数为10时,本文算法的准确率最高,并且Purity值高于传统聚类算法的Purity值。【局限】《同义词词林扩展版》中包含的领域术语不完整,部分相似度计算结果需要手工进行调整。【结论】该方法考虑了词语间语义关系,充分挖掘文本主体潜在信息,并且改善了聚类质量,为文本聚类和推荐提供了一条新途径。 展开更多
关键词 同义词词林扩展版 语义相似度 谱聚类 文本挖掘
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部