-
题名基于主题模型和词向量融合的微博文本主题聚类研究
被引量:26
- 1
-
-
作者
颜端武
梅喜瑞
杨雄飞
朱鹏
-
机构
南京理工大学经济管理学院
-
出处
《现代情报》
CSSCI
2021年第10期67-74,共8页
-
基金
国家自然科学基金面上项目“个体调节定向与信息瀑布演进交互作用机制研究”(项目编号:71874082)
江苏省2011社会公共安全协同创新中心
江苏省研究生科研与实践创新计划项目“基于专利技术路线图和社交媒体挖掘的新兴技术监测研究”(项目编号:KYCX20_0403)。
-
文摘
[目的/意义]针对微博短文本数据存在的高维稀疏和上下文语义缺失等问题,提出一种融合主题模型和词向量的文本特征表达方式,以期提高微博主题聚类的效果。[方法/过程]以新浪微博为数据源,结合LDA文档—主题分布特征和加权Word2Vec词向量特征构建微博短文本的融合特征,基于K-means算法进行主题聚类,并与单一特征聚类、标准LDA主题模型的实验结果进行对比,根据F1值评估主题聚类方法的优劣。[结果/结论]相较于其他方法,融合特征主题聚类模型表现最佳,其F1值达到83.7%。实验表明,融合特征能够更加全面、准确地描述文本的语义信息,能更有效地表征微博文本。
-
关键词
微博主题聚类
LDA主题模型
Word2Vec
特征融合
K-MEANS
-
Keywords
microblog topic clustering
LDA topic model
Word2Vec
feature fusion
K-means
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
G203
[文化科学—传播学]
-
-
题名基于微博热点分析的改进聚类算法
- 2
-
-
作者
宋华明
-
机构
咸宁市公安局公安科学技术信息规划建设部
-
出处
《湖北科技学院学报》
2016年第9期1-3,52,共4页
-
文摘
微博中热点话题的自动发现对于舆情监测与研判具有重要的价值和意义,已有的研究一直在速度与效率之间缺乏有效的平衡。本文在KMeans聚类算法的基础上,提出了一种改进的KMeans Plus算法来试图发现微博的热点话题。通过随机选取的10 000条微博语料对比实验分析表明,与传统的KMeans算法相比较,KMeans Plus算法能够在很大程度上有效提高计算的速度。
-
关键词
微博聚类算法
KMeans算法
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于kNN的聚类算法研究
被引量:1
- 3
-
-
作者
郑诚
俞青云
-
机构
安徽大学计算机科学与技术学院
-
出处
《赤峰学院学报(自然科学版)》
2016年第8期14-17,共4页
-
文摘
聚类分析在数据挖掘领域中占有重要地位,到目前为止学者们提出了许多的聚类算法.本文提出了一种基于k NN的聚类算法k-Nearest Neighbor Cluster(k NNC).该算法首先找到每个数据点的k个邻居点,然后设置匹配点数n,通过使用每个点的邻居点进行匹配进而达到聚类效果.本文通过三个实验去验证该算法,并且与k-means算法进行比较.实验结果表明,该算法具有稳定的正确率,而其最大的优点是不需要预先设定聚类簇数,它可以大致的找到聚类的簇数.
-
关键词
KNN算法
K-MEANS算法
聚类分析
微博文本聚类
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于k-means算法的微博用户推荐功能研究
被引量:16
- 4
-
-
作者
杨尊琦
张倩楠
-
机构
天津财经大学
-
出处
《情报杂志》
CSSCI
北大核心
2013年第8期142-144,131,共4页
-
文摘
将微博中的兴趣关注根据现有的类别进行再次分类。以新浪微博达人为研究对象,提取他们关注的名人以及机构,并将这些名人、机构根据主页描述和标签进行归类。基于共链关系统计同时关注每两个类别之间的用户人数。最后将统计结果制成相关性矩阵,导入SPSS软件中进行k-means聚类,结果为具有相似性的兴趣可以聚为一组。最后根据聚类结果结合现实情况分析各类别之间的相似性与区别。挖掘用户关注兴趣的隐性信息,并对微博用户推荐兴趣提出建议。
-
关键词
微博关注兴趣共同关注矩阵k-means聚类新浪微博微博用户
用户推荐
-
Keywords
Attention Recommendation Similarity Matrix K-means Cluster Analysis Sina Microblog Microblog users recommen-clarion
-
分类号
C931
[经济管理—管理学]
-
-
题名基于微博挖掘技术的企业产品信息监测研究
被引量:4
- 5
-
-
作者
汤丽娟
章成志
-
机构
南京理工大学信息管理系
-
出处
《图书情报工作》
CSSCI
北大核心
2012年第16期37-41,共5页
-
基金
2011年<图书情报工作>杂志社出版基金项目"文本挖掘在情报分析中的应用
创新及最佳实践研究"(项目编号:2011CB005)
江苏省研究生创新工程项目"基于多语言标签聚类的社会关系网络发现及其应用研究"(项目编号:CXLX11_0281)研究成果之一
-
文摘
依据微博信息资源对企业产品信息进行监测,可以使企业更好地了解用户的相关信息。监测的基本步骤为:采集相关用户的描述标签与相关博文,对标签和博文分别进行聚类,从而发现兴趣社区与相关热门话题。其后以某一知名微博系统为平台,以某一品牌为例,进行相应的实证研究,结果表明所提方法具有一定的实践价值。
-
关键词
产品信息监测
微博挖掘
标签聚类
微博聚类
社会网络
-
Keywords
monitoring of product information microblog mining tag clustering microblog clustering social network
-
分类号
F49
[经济管理—产业经济]
F273.2
[经济管理—企业管理]
F224
[经济管理—国民经济]
-