针对传统话题检测方法在微博短文本上存在高维稀疏的缺陷,提出了一种基于特征融合的K-means微博话题发现模型。为了更好地表达微博话题的语义信息,使用在句子中共现的词对向量模型(Biterm_VSM)代替传统的向量空间模型(Vector Space Mode...针对传统话题检测方法在微博短文本上存在高维稀疏的缺陷,提出了一种基于特征融合的K-means微博话题发现模型。为了更好地表达微博话题的语义信息,使用在句子中共现的词对向量模型(Biterm_VSM)代替传统的向量空间模型(Vector Space Model,VSM),并结合主题模型(Latent Dirichlet Allocation,LDA)挖掘出微博短文本中的潜在语义,把两个模型得到的特征进行特征融合,并应用K-means聚类算法进行话题的发现。实验结果表明,与传统的话题检测方法相比,该模型的调整兰德系数(Adjusted Rand index,ARI)为0.80,比传统的话题检测方法提高了3%~6%。展开更多
[目的/意义]针对CTM模型与K-means算法在文本聚类中存在的不足,提出将二者融合的CKM算法。该算法利用CTM模型确定聚类数和初始聚类中心,利用K-means算法进行聚类。[方法/过程]以Web of Science为数据来源,建立涵盖6个主题的多学科文献集...[目的/意义]针对CTM模型与K-means算法在文本聚类中存在的不足,提出将二者融合的CKM算法。该算法利用CTM模型确定聚类数和初始聚类中心,利用K-means算法进行聚类。[方法/过程]以Web of Science为数据来源,建立涵盖6个主题的多学科文献集,以F值为评价指标,利用R语言中的k-means函数和topicmodels包,比较K-means算法、CTM模型、CKM算法的聚类效果。[结果 /结论]结果表明,与单纯使用K-means算法、CTM模型相比,CKM算法的聚类效果更优,稳定性更好。展开更多
当前高速公路各类信息化系统建设日趋完善,获取的数据日益增多,如何利用这些数据精准地还原高速公路运行态势场景是一大难题。研究基于数据融合JDL(Joint Directors of Laboratories)模型的数据修正和平滑,研究基于k-Means聚类分析算法...当前高速公路各类信息化系统建设日趋完善,获取的数据日益增多,如何利用这些数据精准地还原高速公路运行态势场景是一大难题。研究基于数据融合JDL(Joint Directors of Laboratories)模型的数据修正和平滑,研究基于k-Means聚类分析算法的数据分析,设计开发一种具有可视、可测等核心功能的高速公路运行监测系统。应用结果表明,该系统能有效提升高速公路管理单位开展高速公路运行监测业务的时效性、实时性和预见性。展开更多
文摘[目的/意义]针对CTM模型与K-means算法在文本聚类中存在的不足,提出将二者融合的CKM算法。该算法利用CTM模型确定聚类数和初始聚类中心,利用K-means算法进行聚类。[方法/过程]以Web of Science为数据来源,建立涵盖6个主题的多学科文献集,以F值为评价指标,利用R语言中的k-means函数和topicmodels包,比较K-means算法、CTM模型、CKM算法的聚类效果。[结果 /结论]结果表明,与单纯使用K-means算法、CTM模型相比,CKM算法的聚类效果更优,稳定性更好。
文摘当前高速公路各类信息化系统建设日趋完善,获取的数据日益增多,如何利用这些数据精准地还原高速公路运行态势场景是一大难题。研究基于数据融合JDL(Joint Directors of Laboratories)模型的数据修正和平滑,研究基于k-Means聚类分析算法的数据分析,设计开发一种具有可视、可测等核心功能的高速公路运行监测系统。应用结果表明,该系统能有效提升高速公路管理单位开展高速公路运行监测业务的时效性、实时性和预见性。