基于稀疏特征的中文微博短文本聚类方法研究被引量：4

下载PDF

导出

摘要微博文本聚类是依据微博主题不同将描述同一类主题的微博文本汇聚到一起的过程。由于微博文本非常短,在使用常规的机器学习方法对微博短文本进行聚类时,常会出现严重的数据稀疏问题,继而对聚类性能产生影响。分析了中文微博文本的数据稀疏特征,并基于这一特征分析比较了几种中文微博文本表示及聚类方法,为中文微博文本聚类分析的难点问题提供了一定的解决途径。

作者熊祖涛

机构地区安庆职业技术学院电子信息系

出处《软件导刊》 2014年第1期133-135,共3页 Software Guide

基金安庆职业技术学院2013年院级自然科学研究项目(2013ZRKX004)

关键词微博短文本聚类 LDA 文本表示

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1时睿.面向短文本的网络舆情分析[D]{H}西安:西安电子科技大学,2012.
2张晨逸,孙建伶,丁轶群.基于MB-LDA模型的微博主题挖掘[J].计算机研究与发展,2011,48(10):1795-1802. 被引量：166
3王永恒,贾焰,杨树强.海量短语信息文本聚类技术研究[J].计算机工程,2007,33(14):38-40. 被引量：13
4索红光,王玉伟.一种用于文本聚类的改进k-means算法[J].山东大学学报（理学版）,2008,43(1):60-64. 被引量：34
5黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：221
6张志飞,苗夺谦,高灿.基于LDA主题模型的短文本分类方法[J].计算机应用,2013,33(6):1587-1590. 被引量：77

二级参考文献69

1张猛,王大玲,于戈.一种基于自动阈值发现的文本聚类方法[J].计算机研究与发展,2004,41(10):1748-1753. 被引量：16
2刘远超,王晓龙,徐志明,关毅.文档聚类综述[J].中文信息学报,2006,20(3):55-62. 被引量：65
3Fung B C M,Wang K,Ester M.Hierarchical document clustering//Wang John ed.The Encyclopedia of Data Warehousing and Mining,idea Group.2005:970-975.
4Salton G.The SMART Retrieval System-Experiments in Automatic Document Processing.Englewood Cliffs,New Jersey:Prentice Hall Inc,1971.
5Wang Y,Julia H.Document clustering with semantic analysis//Proceedings of the 39th Hawaii International Conferences on System Sciences.Hawaii,US,2006:54-63.
6Hotho A,Staab S,Stumme G.Wordnet improves text document clustering//Proceedings of the Semantic Web Workshop at SIGIR-2003,26th Annual International ACM SIGIR Conference.Toronto,Canada,2003:541-550.
7Hall P,Dowling G.Approximate string matching.Computing Survey,1980,12(4):381-402.
8Coelho T,Calado P,Souza L,Ribeiro-Neto B,Muntz R.Image retrieval using multiple evidence ranking.IEEETransactions on Knowledge and Data Engineering,2004,16(4):408-417.
9Ko Y,Park J,Seo J.Improving text categorization using the importance of sentences.lnformation Processing and Management,2004,40(1):65-79.
10Erkan G,Radev D.Lexrank:Graph-based lexical centrality as salience in text summarization.Journal of Artificial Intelligence Research,2004,22(7):457-479.

共引文献496

1杨一,邹昀瑾.以机器学习应对信息“爆炸”时代:公共管理研究的降维可视化探析[J].中国行政管理,2021(1):105-113. 被引量：15
2杨捷,范美位,罗成臣,张思路.面向电力工单文本的服务失误识别[J].云南大学学报（自然科学版）,2020,42(S02):32-37. 被引量：1
3许睿,龙丹,刘佳,刘畅.基于LDA模型的电力投诉文本热点话题识别[J].云南大学学报（自然科学版）,2020,42(S02):26-31. 被引量：3
4赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
5邱小宇,林杰.基于Twitter数据的地点分类方法研究[J].科技通报,2020(4):67-71.
6孙红,黎铨祺,赵娜.基于双层树状支持向量机的观点挖掘与倾向分析[J].智能计算机与应用,2021,11(3):44-47. 被引量：3
7王鹏,郑贵省,郭强,贾蓓.基于网络爬虫的民用运力数据获取[J].军事交通学院学报,2020,22(1):87-90. 被引量：1
8高飞,鱼江,任芳,黄保瑞,次旺多吉.四维文档向量模型的k-means新闻文本聚类算法[J].西藏大学学报（社会科学版）,2013,28(4):109-112.
9刘娜,肖智博,路莹,唐晓君,肖鹏.自适应主题融合的多文档自动摘要算法[J].中南大学学报（自然科学版）,2013,44(S2):205-209.
10姜晓伟,王建民,丁贵广.基于主题模型的微博重要话题发现与排序方法[J].计算机研究与发展,2013,50(S1):179-185. 被引量：12

同被引文献32

1单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
2Jiawei Han,Micheline Kamber.数据挖掘概念与技术[M].北京:机械工业出版社,2008:148-154.
3Changchun Yang, Hong Ding, Jing Yang, Hengxin Xue. Mining Mi-croblog Community Based on Clustering Analysis [C] //Proceedings of the International Conference on Information Engineering and Applica-tions (IEA) 2012. Springer London, 2013:825-832.
4Olariu A. Hierarchical clustering in improving microblog stream sum- marization [M] //Computational Linguistics and Intelligent Text Pro- cessing. Springer Berlin Heidelberg, 2013:424-435.
5Muhammad Atif Qureshi, Colm O'Riordan, Gabriella Pasi. Clustering with Error-Estimation for Monitoring Reputation of Companies on Twit-ter [M] //Information Retrieval Technology Lecture Notes in Computer Science, 2013:170-180.
6Bo Huang, Yan Yang, Amjad Mahmood, Hongjun Wang. Microblog topic detection based on LDA model and single-pass clustering [C] //Rough Sets and Current Trends in Computing. Springer Berlin Hei-delberg, 2012:166-171.
7Elena Baralis, Tania Cerquitelli, Silvia Chiusano, Luigi Grimaudo, Xin Xiao. Analysis of Twitter Data Using a Multiple-level Clustering Strategy [C] //Model and Data Engineering Lecture Notes in Comput- er Science, 2013:13-24.
8黄承慧,印鉴,侯昉.一种结合词项语义信息和TF-IDF方法的文本相似度量方法[J].计算机学报,2011,34(5):856-864. 被引量：221
9张军伟,王念滨,黄少滨,蔄世明.二分K均值聚类算法优化及并行化研究[J].计算机工程,2011,37(17):23-25. 被引量：23
10吴夙慧,成颖,郑彦宁,潘云涛.文本聚类中文本表示和相似度计算研究综述[J].情报科学,2012,30(4):622-627. 被引量：23

引证文献4

1王和勇,洪明.特征融合在微博数据挖掘中的应用研究[J].现代情报,2015,35(5):68-72. 被引量：3
2李卫疆,王真真,余正涛.基于BTM和K-means的微博话题检测[J].计算机科学,2017,44(2):257-261. 被引量：13
3陈龙,徐建,于亚男,胡建洪.基于话题相似性改进的K-means新闻话题聚类[J].计算机与数字工程,2017,45(8):1560-1565. 被引量：7
4郑建灵,张艳玲,田俊雄,黄子豪,梁茵.校园舆情热点问题提取与分析[J].软件导刊,2020,19(4):61-66. 被引量：1

二级引证文献24

1耿元骊.基于数据挖掘的历史学者社交网络行为分析与学思历程发现[J].科研信息化技术与应用,2015,6(6):33-39.
2洪亮,李雪思,周莉娜.领域跨越:数据挖掘的应用和发展趋势[J].图书情报知识,2017,34(4):22-32. 被引量：18
3李少华,李卫疆,余正涛.基于GV-LDA的微博话题检测研究[J].软件导刊,2018,17(2):131-135. 被引量：3
4纪雪梅,徐新然.结合用户位置信息的社交媒体话题空间分布研究[J].情报资料工作,2018,39(5):41-49.
5黄畅,郭文忠,郭昆.面向微博热点话题发现的改进BBTM模型研究[J].计算机科学与探索,2019,13(7):1102-1113. 被引量：3
6陈凤,蒙祖强.基于BTM和加权K-Means的微博话题发现[J].广西师范大学学报（自然科学版）,2019,37(3):71-78. 被引量：2
7苏凯,程昌秀,Nikita Murzintcev,张婷.主题模型在基于社交媒体的灾害分类中的应用及比较[J].地球信息科学学报,2019,21(8):1152-1160. 被引量：14
8代翔,黄细凤,唐瑞,蒋梦婷,陈兴蜀,王海舟,罗梁.基于层次聚类的子话题检测算法[J].华南理工大学学报（自然科学版）,2019,47(8):84-95. 被引量：11
9任凯,吴冬芹,郭黎黎.基于生命周期理论的公共危机舆情事件研究[J].现代信息科技,2019,3(24):1-4. 被引量：6
10陈黎明,黄瑞章,秦永彬,陈艳平.面向新闻事件的故事树构建方法[J].计算机工程与设计,2020,41(7):1910-1919. 被引量：4

1孙海军.基于MapReduce和网格密度的文本聚类分析研究[J].信息系统工程,2014,27(10):25-26. 被引量：1
2庄世芳.一种基于概念聚类的中文文本类簇主题提取方法[J].电脑知识与技术,2008(4):138-140. 被引量：1
3修宇,王士同,朱林,宗成庆.极大熵球面K均值文本聚类分析[J].计算机科学与探索,2007,1(3):331-339. 被引量：1
4王春腾,符传谊,邢洁清.一种改进的谱聚类方法及其在文本分析中的应用[J].电脑知识与技术,2011,7(6):3910-3911.
5姚兴仁,赵刚,吴惟希.基于“智能信息中心”的蚁群文本聚类算法改进[J].信息安全研究,2017,3(2):160-165. 被引量：1
6吴海华,李绍滋,林达真,柯逍,曹冬林.基于新型聚类算法IncreaseK-Means的Blog相似度分析[J].厦门大学学报（自然科学版）,2009,48(2):194-197. 被引量：2
7张霞,王建东,庄毅,邹玉娟.文本聚类分析在故障诊断中的应用[J].计算机技术与发展,2007,17(2):8-11.
8翟东海,鱼江,高飞,于磊,丁锋.最大距离法选取初始簇中心的K-means文本聚类算法的研究[J].计算机应用研究,2014,31(3):713-715. 被引量：108
9钟文良,黄瑞章.一种基于Pitman-Yor过程模型的不平衡文本数据集聚类算法[J].计算机与数字工程,2017,45(2):311-318.
10唐和平,黄曙光,淮甲刚,李永成.漏洞数据库的文本聚类分析[J].计算机应用研究,2010,27(7):2670-2673.

软件导刊

2014年第1期

浏览历史

内容加载中请稍等...

基于稀疏特征的中文微博短文本聚类方法研究被引量：4

参考文献6

二级参考文献69

共引文献496

同被引文献32

引证文献4

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于稀疏特征的中文微博短文本聚类方法研究 被引量：4

参考文献6

二级参考文献69

共引文献496

同被引文献32

引证文献4

二级引证文献24

相关作者

相关机构

相关主题

浏览历史

基于稀疏特征的中文微博短文本聚类方法研究被引量：4