期刊文献+

基于多视角聚类模型的微博文本数据挖掘算法研究 被引量:2

Data Mining Algorithm Based on Multi-view Clustering Model
下载PDF
导出
摘要 本文提出了一种能够同时考虑关键词和发生时间的新型算法。该算法首先对数据预处理后,建立微博事件集合的LDA模型,生成主题词集合作为事件的描述标志,通过DTW算法对事件关键词间的语义、时序相似度进行计算,得到对应的相似度矩阵,最后采用协同训练普聚类方法,迭代生成最终的特征向量并完成事件选取。仿真实验结果表明,本文提出的算法同以往算法相比具有准确率高以及效率高的特点。 This paper proposes a new algorithm can simultaneously consider keywords and time, the algorithm firstly after data preprocessing, weibo event collection of LDA model, generates keywords set as the symbol, the description of the event by DTW algorithm for event keyword semantic, sequence similarity calculation, get the corresponding similarity matrix, finally USES the clustering method, the joint training where the iteration to produce the final feature vector and complete the event selection. The simulation results show that the proposed algorithm has high accuracy and efficiency compared with previous algorithms.
出处 《科技通报》 北大核心 2017年第11期129-132,共4页 Bulletin of Science and Technology
关键词 微博文本 文本数据挖掘 多视角 相似矩阵 micro-blog text data mining multiple points of view similar matrix
  • 相关文献

参考文献1

二级参考文献4

  • 1S Gordon,H Greenspan and J Goldberger.Applying theinformation bottleneck principle to unsupervised cluster-ing of discrete and continuous image representations[C]//.In proc.of IEEE ICCV,2003.
  • 2A K Jain,M N Murty and P J Flynn.Data clustering:a re-view[J].ACM Comput.Surv,1999,31(3):264-323.
  • 3G.Qiu.Image and feature co-clustering[C]//.In proc.ofIEEE ICPR,2004.
  • 4乌岚.基于多样约束模型的远程教育数据库优化查询算法[J].科技通报,2013,29(1):154-156. 被引量:35

共引文献3

同被引文献20

引证文献2

二级引证文献4

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部