-
题名融合词项关联关系的半监督微博聚类算法
被引量:3
- 1
-
-
作者
马慧芳
贾美惠子
袁媛
张志昌
-
机构
西北师范大学计算机科学与工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2015年第5期202-206,212,共6页
-
基金
国家自然科学基金资助项目(61163039
61363058)
甘肃省教育厅基金资助项目(2013A-016)
-
文摘
针对微博文本内容短、稀疏、高维等特点,提出一种改进的半监督微博聚类算法。该算法利用词项间的关系丰富文本特征,通过定义词项文档间关联关系和词项文档内关联关系揭示词项间语义的关联程度,并由此自动生成有标记的数据来指导聚类过程。对词项先验信息进行成对约束编码,构建基于词项间成对约束的三重非负矩阵分解模型来实现微博的半监督聚类。实验结果表明,该算法可以减少繁琐的人工标记过程,并能高效地进行微博聚类。
-
关键词
微博
词项关联关系
成对约束
半监督聚类
非负矩阵分解
-
Keywords
microblog
term correlation relationship
pair-wise constraints
semi-supervised clustering
non-negative matrix factorization
-
分类号
TP18
[自动化与计算机技术—控制理论与控制工程]
-
-
题名基于词项关联关系的FCM微博聚类算法
- 2
-
-
作者
程玉胜
黎康
王一宾
任勇
-
机构
安庆师范大学计算机与信息学院
-
出处
《安庆师范学院学报(自然科学版)》
2016年第3期68-72,共5页
-
基金
安徽省高等学校自然科学基金(KJ2013A177)
-
文摘
针对微博内容的稀疏、高维等特征,提出了一种基于词项关联关系的模糊C均值聚类算法。该算法通过挖掘词项间语义的关联程度,将文本特征最大化,并用提前标注部分同类文本的方式来指导模糊C均值算法在初始聚类中心上的选择,从而达到优化效果。实验结果表明,该算法一定程度上克服了微博本身存在的数据稀疏性问题,能高效地进行微博聚类。
-
关键词
微博
词项关联关系
模糊聚类
-
Keywords
micro-blog
term correlation relationship
fuzzy clustering
-
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
-
-
题名基于离散粒子群优化的微博热点话题发现算法
被引量:9
- 3
-
-
作者
马慧芳
吉余岗
李晓红
周汝南
-
机构
西北师范大学计算机科学与工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2016年第3期208-213,共6页
-
基金
国家自然科学基金资助项目(61363058
61163039)
+2 种基金
中国科学院计算技术研究所智能信息处理重点实验室开放基金资助项目(IIP2014-4)
甘肃省自然科学基金资助项目(145RJZA232)
甘肃省青年科技基金资助项目(145RJYA259)
-
文摘
结合词项关联关系和粒子群优化(PSO)算法的特点,提出一种基于离散PSO(DPSO)的微博热点话题发现算法。通过对词语互信息及内外关联词信息的挖掘,更新传统文本表示模型,利用DPSO算法从寻优角度发现微博热点话题及简化微博聚类过程,并将聚类质量评价指标作为适应度函数对聚类结果进行不断迭代优化,获得聚类结果的最优解。实验结果表明,该算法能够在大量微博中快速发现热点话题,具有较高的热点话题发现准确性及运行效率。
-
关键词
微博
热点话题发现
词项关系
文本表示模型
粒子群优化
-
Keywords
microblog
hot topic discovering
term relationship
text representation model
Particle Swarm Optimization(PSO)
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-