基于概率主题模型的文档聚类被引量：23

Document Clustering Based on Probabilistic Topic Model

下载PDF

导出

摘要为了实现普通文本语料库和数字图书语料库的有效聚类,分别提出基于传统LDA(Latent Dirichlet Allo-cation)模型和TC-LDA模型的聚类算法.TC-LDA模型在LDA模型基础上进行扩展,通过对图书文档的目录和正文信息联合进行主题建模.和传统方法不同,基于主题模型的聚类算法能将具备同一主题的文档聚为一类.实验结果表明从主题分析角度出发实现的聚类算法优于传统的聚类算法. To effectively cluster corpus of ordinary documents and digital books,the clustering algorithms based on LDA model and TC-LDA were proposed,respectively.The topic model named TC-LDA,the extension of LDA,is proposed for digital books corpus for jointly topic modeling from both of Texts and Contents.Unlike traditional clustering methods,topic model based methods cluster documents in a group if they share one or more common topics.Empirical evaluation demonstrates that our approach based on topic analysis can substantially improve the clustering results as compared to related methods.

作者王李冬魏宝刚袁杰

机构地区浙江大学计算机科学与技术学院杭州师范大学

出处《电子学报》 EI CAS CSCD 北大核心 2012年第11期2346-2350,共5页 Acta Electronica Sinica

基金国家自然科学青年基金(No.61103171 No.61103099) 浙江省公益性技术应用研究计划(No.2011C31048)

关键词主题模型 LDA模型 TC-LDA模型文档聚类 topic model LDA model TC-LDA model document clustering

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1Newman D,Noh Y, Tally E. Evaluating topic models for digi- tal libraries[ A] .Proc of JCDL[ C]. Gold Coast, Queensland, Australia, 2010.215 - 224.
2Frey B J, Dueck D. Clustering by passing messages between data points[ J]. Science,2007,315(5814) :972- 976.
3Andrzejewski D, Buttler D. Latent topic feedback for informa- tion relrieval[ A ]. Proceedings of 17th ACM SIGKDD Interna- tional Conference on Knowledge Discovery and Data Mining (KDD) [ C] .New York: ACM press,2011.600- 608.
4Ramage D, Heymann P. Clustering the tagged web[ A] .Proc of the Second ACM International Conference on Web Search and Data Mining[ C]. Barcelona, Spain,2009.54- 63.
5曹娟,张勇东,李锦涛,唐胜.一种基于密度的自适应最优LDA模型选择方法[J].计算机学报,2008,31(10):1780-1787. 被引量：82
6Wang X, et al. Topical N-grams:Phrase and topic discovery, with an application to information retrieval[ A]. Proc of the 7th IEEE. International Conference on Data Mining [ C ]. Omaha, Nebraska, USA, 2007.697 - 702.
7Heinrich G. Parameter estimation for text analysis[ Z/OL]. http://www, arbylon, net/publications/text-est, pdf, 2005.
8Shehata S,et al. An efficient concept-based mining model for enhancing text clustering[ J]. IEEE Transactions on Knowledge and Data Engineering,2010,22(10) : 1360 - 1371.
9刘铭,王晓龙,刘远超.基于语义的高维数据聚类技术[J].电子学报,2009,37(5):925-929. 被引量：6

二级参考文献23

1刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23
2Damminda A,Saman K H.Dynamic self-organizing maps with controlled growth for knowleage discovery[J].IEEE Transactions on Neural Networks,2000,11(3):601-614.
3Rauber A,Merkl D.Tie growing hierarchical self-organizing map:exploratory analysis of high-dimensional data[J].IEEE Transactions on Neural Neural Networks,2002,13(6):1331-1341.
4Xu Y D,Xu Z M,et al.Using multiple features and stalistical model to calculate text units similarity[A].Proceedings of 2006 International Conference on Machine Learning and Cybernetics[C].China:IEEE Press,2005.3834-3839.
5Gonenc E,Ilyas C.Using lexical chains for keyword extraction[J].Informtion Processing and Management,2007,43(6):1705-1714.
6Kohonen T,Kaski S,et al.Self organization of a massive document collection[J].IEEE Transactions on Neural Networks,2000,11(3):574-585.
7Shahpurkar S S,Sundareshan M K.Cornparison of self-organizing map with k-means hierarchical clustering for bioinformatics applications[A].International Joint Conference on Neural Networks[C].Hungary;IEEE Press,2004.1221-1226.
8Blei D, Ng A, Jordan M. Latent dirichlet allocation. Journal of Machine Learning Research, 2003, 3:993-1022
9Blei D, Lafferty J. Correlated topic models//Weiss Y, Seholkopf B, Platt J eds. Advances in Neural Information Processing Systems 18. Cambridge, MA: MIT Press, 2006
10Li W, McCallum A. Pachinko allocation: DAG-struetured mixture models of topic correlations//Proceedings of the International Conference on Machine Learning (ICML). Pittsburgh, Pennsylvania, 2006: 577-584

共引文献86

1龚书,瞿有利,田盛丰.基于语义的自动文摘研究综述[J].北京交通大学学报,2009,33(5):126-131. 被引量：4
2王朝飞,王凯.主题模型在数字图书馆Web服务中的应用[J].情报理论与实践,2010,33(2):118-120. 被引量：4
3张小平,周雪忠,黄厚宽,冯奇,陈世波.基于词相似性与CRP的主题模型[J].模式识别与人工智能,2010,23(1):72-76. 被引量：8
4刁宇峰,杨亮,林鸿飞.基于LDA模型的博客垃圾评论发现[J].中文信息学报,2011,25(1):41-47. 被引量：23
5李雄飞,孙涛,武佳薇.对象间矢量感应聚类算法[J].电子学报,2011,39(6):1347-1352.
6徐戈,王厚峰.自然语言处理中主题模型的发展[J].计算机学报,2011,34(8):1423-1436. 被引量：231
7张晓艳,王挺,梁晓波.LDA模型在话题追踪中的应用[J].计算机科学,2011,38(B10):136-139. 被引量：26
8梁建海,潘泉,杨峰.菲波那奇数列变栅格的数据收缩聚类方法研究[J].计算机应用研究,2011,28(11):4067-4070.
9宋双永,李秋丹.面向移动终端的微博信息推荐方法[J].计算机科学,2011,38(11):137-139. 被引量：5
10黄颖.LDA及主题词相关性的新事件检测[J].计算机与现代化,2012(1):6-9. 被引量：4

同被引文献168

1张猛,王大玲,于戈.一种基于自动阈值发现的文本聚类方法[J].计算机研究与发展,2004,41(10):1748-1753. 被引量：16
2王燕.一种改进的K-means聚类算法[J].计算机应用与软件,2004,21(10):122-123. 被引量：9
3刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
4姜园,张朝阳,仇佩亮,周东方.用于数据挖掘的聚类算法[J].电子与信息学报,2005,27(4):655-662. 被引量：67
5于林森,张田文.基于视觉与标注相关信息的图像聚类算法[J].电子学报,2006,34(7):1265-1269. 被引量：6
6袁方,周志勇,宋鑫.初始聚类中心优化的k-means算法[J].计算机工程,2007,33(3):65-66. 被引量：152
7谭松波,王月粉.中文文本分类语料库-TanCorpv1.0[EB/OL].(2007-08-29)[2008-01-20].http://www.searehforum:org.cn/tansongbo/corpus.htm.
8刘群,李素建.基于《知网》的词汇语义相似度计算[EB/OL].http://www.keenage.com/papers.
9Blei D M,Ng A Y,Jordan M I. Latent Dirichlet allocationJ J}. Machine Learning Research,2003,3:993 - 1022.
10LaffertyJ D, Blei MD. Correlated topic models[AJ . Advances in Neural. Information Processing Systems, Proceedings of the 200'5 Cooferencel C]. Vancouver: Bradford Books,2IDU47 -155.

引证文献23

1江雨燕,李平,王清.基于共享背景主题的Labeled LDA模型[J].电子学报,2013,41(9):1794-1799. 被引量：17
2王春龙,张敬旭.基于LDA的改进K-means算法在文本聚类中的应用[J].计算机应用,2014,34(1):249-254. 被引量：21
3崔君君,于林森,李鹏.协同视觉信息与标注信息图像聚类[J].哈尔滨理工大学学报,2014,19(2):57-62. 被引量：3
4邱云飞,郭弥纶,邵良杉.基于主题树的微博突发话题检测[J].计算机应用,2014,34(8):2332-2335. 被引量：6
5苏雪阳,左万利,王俊华.基于本体与模式的网络用户兴趣挖掘[J].电子学报,2014,42(8):1556-1563. 被引量：6
6丁宇新,燕泽权,冯威,薛成龙,周迪.基于有监督主题模型的排序学习算法[J].电子学报,2015,43(2):333-337. 被引量：4
7欧阳继红,刘燕辉,李熙铭,周晓堂.基于LDA的多粒度主题情感混合模型[J].电子学报,2015,43(9):1875-1880. 被引量：23
8张超,陈利,李琼.一种PST_LDA中文文本相似度计算方法[J].计算机应用研究,2016,33(2):375-377. 被引量：18
9陈攀,杨浩,吕品,王海晖.基于LDA模型的文本相似度研究[J].计算机技术与发展,2016,26(4):82-85. 被引量：12
10王庆福,王兴国.基于LDA的网络评论主题发现研究[J].无线互联科技,2016,13(11):103-104. 被引量：1

二级引证文献267

1陈琦,张君冬,郑婉婷,杨硕.基于LDA模型的中医药人工智能领域主题演化分析[J].世界科学技术-中医药现代化,2022,24(9):3315-3324. 被引量：3
2曾金,张耀峰,黄新杰,黄廷海.面向用户评论的主题挖掘研究——以美团为例[J].情报科学,2022,40(11):78-84. 被引量：4
3葛艳,杜坤钰,杜军威,陈卓.基于混合神经网络的实体关系抽取方法研究[J].中文信息学报,2021,35(10):81-89. 被引量：3
4井世洁,邹利.“校园欺凌”的网络表达与治理——基于LDA主题模型的大数据分析[J].青少年犯罪问题,2020(6):60-68.
5李晓军,李少臣,刘星,姚俊萍.消费者在线评论质量影响因素及组态研究[J].火箭军工程大学学报,2020(1):77-82.
6陈济榕.300MW、600MW引进型切向燃烧锅炉温度偏差研究综述[J].锅炉技术,2000,31(3):1-5. 被引量：6
7周梁,方兴龙.基于商品评论主题模型的隐含狄利克雷分布研究[J].安徽工程大学学报,2019,34(1):78-84.
8赵蓉英,王嵩,董克.国内馆藏资源聚合模式研究综述[J].图书情报工作,2014,58(18):138-143. 被引量：20
9陶永才,何宗真,石磊,卫琳,曹仰杰.基于加权动态兴趣度的微博个性化推荐[J].计算机应用,2014,34(12):3491-3496. 被引量：12
10陈千,桂志国,郭鑫,向阳.基于特征本体的文本流主题演化[J].计算机应用,2015,35(2):456-460. 被引量：3

1孙晓天.LBS是在解救还是灭亡寂寞星球？[J].数码设计,2012(6):86-87.
2陈嘉勇.基于WEKA平台的文本聚类研究与实现[J].中国管理信息化,2009,12(21):9-12. 被引量：1
3英风.网页炸弹大揭密[J].电脑采购,2002,0(44):21-21.
4孙温稳.基于国内现存文本语料库规范化的现状研究及改进[J].河南科技,2016,35(11):19-20.
5张滔,徐建波.基于位置预测的社会性DTN路由算法[J].计算机工程与应用,2014,50(18):94-98. 被引量：4
6蒲强,李鑫,刘启和,杨国纬.一种Web主题文本通用提取方法[J].计算机应用,2007,27(6):1394-1396. 被引量：5
7张婉婉,范宇.基于教学的文本语料库设计与实现[J].萍乡高等专科学校学报,2013,30(6):55-58.
8耿治萌,钟春琳,刘玉琴.日语文本语料库的开发与利用[J].中国教育信息化（高教职教）,2015(1):58-60. 被引量：2
9刘鼎甲,刘国华,刘泽权,王伟.面向文本语料库的数据模型及其查询问题[J].小型微型计算机系统,2015,36(8):1711-1716. 被引量：2
10欧建林,林茜,史晓东.潜在语义分析在连续语音识别中的应用[J].计算机工程与应用,2009,45(32):111-113.

电子学报

2012年第11期

浏览历史

内容加载中请稍等...

基于概率主题模型的文档聚类被引量：23

参考文献9

二级参考文献23

共引文献86

同被引文献168

引证文献23

二级引证文献267

相关作者

相关机构

相关主题

浏览历史

基于概率主题模型的文档聚类 被引量：23

参考文献9

二级参考文献23

共引文献86

同被引文献168

引证文献23

二级引证文献267

相关作者

相关机构

相关主题

浏览历史

基于概率主题模型的文档聚类被引量：23