期刊文献+

一种改进的短文本层次聚类算法 被引量:5

Improved Short Text Hierarchical Clustering Algorithm
下载PDF
导出
摘要 互联网上存在着海量蕴含丰富信息的短文本数据,由于短文本存在特征稀疏、用语不规范的特点,使用传统的聚类算法效果较差。提出了一种使用词向量表示特征并结合关键词提取的短文本聚类算法:定义特征权重计算公式,计算类簇中特征的权重,得到类簇的关键词;使用Skip-gram模型训练得到的词向量计算关键词之间的语义相似度进而得到类簇的相似度实现聚类。在4个数据集上进行的实验结果表明文章的方法效果优于传统的聚类算法,宏平均较次优结果分别提高了22.3%、24.9%、2.9%和34.4%。 A large amount of short text data which contains a variety of information exits on the Internet. However,traditional clustering algorithms work poorly because of the presence of the scarcity and informality of short text. This paper presents a novel short text clustering algorithm based on feature representation with word vectors and keyword extraction. The study defines a feature weight calculation formula and calculates the feather weight of every word in clusters to get the key words to represent them. It then calculates semantic similarity between keywords based on word vectorstrained by Skip-gram model and get the similarity between clusters to cluster. Experimental results on four datasets show that this method works better than traditional clustering algorithms,with the macro-F increasing 22. 3% 、24. 9% 、2. 9% and 34. 4% compared with the second-best result.
机构地区 信息工程大学
出处 《信息工程大学学报》 2015年第6期743-748,752,共7页 Journal of Information Engineering University
基金 国家社会科学基金资助项目(4BXW028)
关键词 短文本 聚类 词向量 关键词提取 short texts clustering word vector keyword extraction
  • 相关文献

参考文献21

二级参考文献99

共引文献131

同被引文献50

引证文献5

二级引证文献10

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部