基于HAC的文本话题聚类研究

下载PDF

导出

摘要凝聚层次聚类算法是聚类算法实际应用的核心,算法简单效率高并能有效处理大数据集。本文利用数据挖掘技术文本凝聚层次聚类实现对中文文本的话题聚类,具体过程包括中文特征计算、文本分词、话题聚类以及结果展示,主要研究不同粒度中文文本话题聚类方法的实现,通过构建凝聚层次聚类模型(Hierarchical Agglomerative Cluster,HAC)进行文本话题聚类,采用模型参数的调控来改变聚类的粒度。不同粒度的文本话题聚类能展示不同层次的文本归并结果,有效实现定制式的个性化文本信息聚类。

作者赵旭剑冯健李波张晖王耀彬

机构地区西南科技大学计算机科学与技术学院

出处《通讯世界》 2015年第6期312-313,共2页 Telecom World

基金国家自然科学基金(61202044) 四川省教育厅科研基金(12ZB326) 绵阳市网络融合工程实验室开放课题(12ZXWK04) 西南科技大学博士研究基金(12ZX7116)

关键词文本话题 HAC 层次聚类特征计算

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献3

1姚清耘,刘功申,李翔.基于向量空间模型的文本聚类算法[J].计算机工程,2008,34(18):39-41. 被引量：50
2Wang Weina, Zhang Yun jie. On fuzzy cluster validily indices. Fuzz)" Sets and Systems, 2007,15 (8) : 2095-2.
3刘兴波.凝聚型层次聚类算法的研究[J].科技信息,2008(11):202-202. 被引量：5

二级参考文献8

1王永成.中文信息处理技术及其基础[M].上海:上海交通大学出版社,1990..
2Hatzivassiloglou V. Simfinder: A Flexible Clustering Tool for Summarization[C]//Proc of NAACL Workshop on Automatic Summarization, Association for Computational Linguistics. Pittsburgh, USA: [s. n.]. 2001: 4-14.
3Fang Y C. Parthasarathy S, Schwartz F. Using Clustering to Boost Text Classification[C]//Proc. of the IEEE ICDM Workshop on Text Mining. Maebashi City, Japan: [s. n.], 2002: 1-9.
4Cutting D, Karger D. Scatter/Gather: A Cluster Based Approach to Browsing Large Document Collection[C]//Proc. of SIGIR'92. New York, USA: ACM Press, 1992:318-329.
5Salton G, Wong A, Yang C S. A Vector Space Model for Automatic Indexing[J]. Communications of ACM, 1995, 18( 11 ): 613-620.
6Ackennan M, Billsus D, Gaffney S. Learning Probabilistic User Profiles[J]. AI Magazine, 1997, 18(2): 47-56.
7Cheeseman P, Stutz J. Bayesian Classification(AutoClass): Theory and Results[C]//Proc. of Advances in Knowledge Discovery and Data Mining. Menlo Park, CA, USA: American Association for Artificial Intelligence, 1996: 153-180.
8()MargaretH.Dunham著,郭崇慧,田凤占,靳晓明等.数据挖掘教程[M]清华大学出版社,2005.

共引文献53

1赵晖,林成龙,唐朝京.基于视频三音子的双模态语料自动选取算法[J].计算机工程,2009,35(17):1-3. 被引量：2
2许伟佳.基于向量空间模型的文档聚类研究[J].电脑知识与技术,2009,5(9):7281-7283. 被引量：3
3李燕,张月国,李生红.基于蚁群算法的文本分类和聚类[J].信息安全与通信保密,2009,31(10):57-58. 被引量：2
4吴景岚.一种基于GRASP的文档聚类算法[J].闽江学院学报,2009,30(5):62-65.
5吕楠,罗军勇,刘尧,杨慧洁.基于话题三层结构模型的话题演化分析算法[J].计算机工程,2009,35(23):71-72. 被引量：10
6葛斌,封孝生,汤大权.基于模板的无导词义消歧方法[J].计算机工程与科学,2009,31(12):113-116.
7马世霞,刘丹,贾世杰.基于蚁群算法的文本聚类算法[J].计算机工程,2010,36(8):206-207. 被引量：5
8殷宏威,赵伟,杨志伟.蚁群算法在KNN文本分类中的应用[J].长春理工大学学报（自然科学版）,2010,33(1):159-163. 被引量：2
9李中原,杨守文.基于向量空间模型的网页特征权重计算改进[J].计算机与现代化,2010(6):137-139. 被引量：4
10王利峰.动态索引树文本聚类方法中节点阀值的优化[J].电脑开发与应用,2010,23(9):62-65.

1黄华军,谭骏珊,秦姣华.基于主题模型的微博话题检测算法[J].网络与信息安全学报,2016,2(5):30-38.
2甘勇,姜森,杨佳佳.微博话题检测SP&HC聚类算法分析[J].郑州轻工业学院学报（自然科学版）,2014,29(2):58-61.
3陈亚平,吴陈.FCM聚类算法与改进层次聚类算法的结合[J].科学技术与工程,2009,9(17):5008-5011. 被引量：1
4薄文彦,付文兰,张凤英.聚类算法的改进的研究[J].网络安全技术与应用,2011(6):23-25.
5盛俊杰,谢丽聪.基于成对约束的半监督凝聚层次聚类算法[J].微型机与应用,2012,31(24):67-69.
6常浩,陈莉.基于摘要的web内容挖掘研究[J].微计算机信息,2006,22(08X):302-304. 被引量：1
7谢乾龙,徐蔚然.基于自动机的微博在线突发话题检测算法[J].软件,2012,33(12):109-113. 被引量：1
8王竹婷,邹乐.基于层次聚类模型的矩形优化排样问题研究[J].重庆科技学院学报（自然科学版）,2014,16(2):127-129. 被引量：1
9赵旭剑,涂勇,李波,张晖,杨春明,王耀彬.一种分层机制的网络新闻话题融合方法[J].电脑知识与技术,2015,11(5X):212-214.
10刘俊杰,黄圆圆,任智军,崔碧莹.基于浅层句法分析的术语抽取研究[J].微计算机信息,2010(18):180-182.

通讯世界

2015年第6期

浏览历史

内容加载中请稍等...

基于HAC的文本话题聚类研究

参考文献3

二级参考文献8

共引文献53

相关作者

相关机构

相关主题

浏览历史