基于LDA主题模型的短文本分类方法被引量：75

Short text classification using latent Dirichlet allocation

下载PDF

导出

摘要针对短文本的特征稀疏性和上下文依赖性两个问题,提出一种基于隐含狄列克雷分配模型的短文本分类方法。利用模型生成的主题,一方面区分相同词的上下文,降低权重;另一方面关联不同词以减少稀疏性,增加权重。采用K近邻方法对自动抓取的网易页面标题数据进行分类,实验表明新方法在分类性能上比传统的向量空间模型和基于主题的相似性度量分别高5%和2.5%左右。 In order to solve the two key problems of the short text classification, very sparse features and strong context dependency, a new method based on latent Dirichlet allocation was proposed. The generated topics not only discriminate contexts of common words and decrease their weights, but also reduce sparsity by connecting distinguishing words and increase their weights. In addition, a short text dataset was constructed by crawling titles of Netease pages. Experiments were done by classifying these short titles using K-nearest neighbors. The proposed method outperforms vector space model and topic-based similarity.

作者张志飞苗夺谦高灿

机构地区同济大学计算机科学与技术系同济大学嵌入式系统与服务计算教育部重点实验室

出处《计算机应用》 CSCD 北大核心 2013年第6期1587-1590,共4页 journal of Computer Applications

基金国家自然科学基金资助项目(60970061 61075056 61103067) 中央高校基本科研业务费专项资金资助项目

关键词短文本分类 K近邻相似度隐含狄列克雷分配 short text classification K-Nearest Neighbor （K-NN） similarity measure latent Dirichlet allocation

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献16

1PARK E K, RA D Y, JANG M G. Techniques for improving Web retrieval effectiveness[J]. Information Processing Management, 2005, 41(5): 1207 -1223.
2LIU W Y, HAO T Y, CHEN W, et al. A Web-based platform for user-interactive question-answering[J]. World Wide Web, 2009, 12(2): 107 -124.
3郑斐然,苗夺谦,张志飞,高灿.一种中文微博新闻话题检测的方法[J].计算机科学,2012,39(1):138-141. 被引量：84
4贺涛,曹先彬,谭辉.基于免疫的中文网络短文本聚类算法[J].自动化学报,2009,35(7):896-902. 被引量：18
5SALTON G, WONG A, YANG C S. A vector space model for auto-matic indexing[J]. Communications of the ACM, 1975, 18 ( 11) : 613 -620.
6PHAN X H, NGUYEN M L, HORIGUCHI S. Learning to classify short and sparse text & Web with hidden topics from large-scale data collections[C] / / Proceedings of the 17 th Conference on World Wide Web. New York: ACM, 2008: 91 -100.
7WANG L, JIA Y, HAN W H. Instant message clustering based on extended vector space model[C] / / Proceedings of the 2nd Interna-tional Conference on Advances in Computation and Intelligence. Berlin: Springer-Verlag, 2007: 435 - 443.
8SAHAMI M, HEILMAN T D. A Web - based kernel function for measuring the similarity of short text snippets[C] / / Proceedings of the 15th Conference on World Wide Web. New York: ACM, 2006: 377 -386.
9YIH W, MEEK C. Improving similarity measures for short segments of text[C] / / Proceedings of the 22nd Conference on Artificial Intel-ligence. Menlo Park: AAAI Press, 2007: 1489 -1494.
10翟延冬,王康平,张东娜,黄岚,周春光.一种基于WordNet的短文本语义相似性算法[J].电子学报,2012,40(3):617-620. 被引量：34

二级参考文献41

1钟将,吴中福,吴开贵,欧灵.基于人工免疫网络的动态聚类算法[J].电子学报,2004,32(8):1268-1272. 被引量：24
2马静.语言学视野中的网络语言[J].西北工业大学学报（社会科学版）,2002,22(1):52-56. 被引量：22
3黄永光,刘挺,车万翔,胡晓光.面向变异短文本的快速聚类算法[J].中文信息学报,2007,21(2):63-68. 被引量：17
4王永恒,贾焰,杨树强.海量短语信息文本聚类技术研究[J].计算机工程,2007,33(14):38-40. 被引量：13
5Wang L,Jia Y,Han W H.Instant message clustering based on extended vector space model.In:Proceedings of the 2nd International Symposium on Intelligence Computation and Applications.Wuhan,China:Springer,2007.435-443
6He H,Chen B,Xu W R,Guo J.Short text feature extraction and clustering for web topic mining.In:Proceedings of the 3rd International Conference on Semantics,Knowledge and Grid.Washington D.C.,USA:IEEE,2007.382-385
7de Castro L N,Von Z F J.aiNet:an artificial immune network for data analysis.Data Mining:A Heuristic Approach.New York:Idea Group Publishing,2001.231-259
8Xia Y Q,Wong K F.Anomaly detecting within dynamic Chinese chat text.In:Proceedings of New Text Workshop st the 11th Conference for European Chapter of the Association for Computational Linguistics.Trento,Italy:Acl Anthology Network,2006.48-55
9Xia Y Q,Wong K F,Gao W.NIL is not nothing:recognition of Chinese network informal language expressions.In:Proceedings of the 4th SIGHAN Workshop on Chinese Langunge Processing.Jeju Island,Republic of Korea:Acl Anthology Network,2005.95-102
10Hang X S,Dai H H.An immune network approach for web document clustering.In:Proceedings of the IEEE/WIC/ACM International Conference on Web Intelligence.Beijing,China:IEEE,2004.278-284

共引文献132

1彭泽映,俞晓明,许洪波,刘春阳.大规模短文本的不完全聚类[J].中文信息学报,2011,25(1):54-59. 被引量：35
2潘章明.基于亲和度累积的人工免疫网络聚类[J].计算机应用,2011,31(6):1660-1663. 被引量：2
3时睿,封化民.一种基于名词的微博语义计算方法[J].北京电子科技学院学报,2011,19(4):16-22. 被引量：4
4赵文清,侯小可.基于词共现图的中文微博新闻话题识别[J].智能系统学报,2012,7(5):444-449. 被引量：30
5唐晓波,王洪艳.基于潜在语义分析的微博主题挖掘模型研究[J].图书情报工作,2012,56(24):114-119. 被引量：31
6潘大庆.基于层次聚类的微博敏感话题检测算法研究[J].广西民族大学学报（自然科学版）,2012,18(4):56-59. 被引量：5
7刘金岭,王新功.基于中文短信文本聚类的热点事件发现[J].情报杂志,2013,32(2):30-33. 被引量：4
8程亮,邱云飞,孙鲁.微博谣言检测方法研究[J].计算机应用与软件,2013,30(2):226-228. 被引量：23
9吴丹,苏一丹.基于多阈连续条件随机场的标签推荐[J].计算机应用研究,2013,30(5):1312-1315. 被引量：2
10朱玉强.图书馆微博辅助管理程序设计[J].现代图书情报技术,2013(5):92-95. 被引量：1

同被引文献592

1陶志勇,李小兵,刘影,刘晓芳.基于双向长短时记忆网络的改进注意力短文本分类方法[J].数据分析与知识发现,2019,3(12):21-29. 被引量：23
2王杨,许闪闪,李昌,艾世成,张卫东,甄磊,孟丹.基于支持向量机的中文极短文本分类模型[J].计算机应用研究,2020,37(2):347-350. 被引量：29
3张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：26
4王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
5徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
6张舜徽.中国校雠学叙论[J].华中师院学报（哲学社会科学版）,1979,18(1):64-78. 被引量：8
7梅家驹,竺一鸣,高蕴琦,殷鸿翔.编纂汉语类义词典的尝试——《同义词词林》简介[J].辞书研究,1983(1):133-138. 被引量：15
8王昱.社科文献的特点、作用及省级社科文献资源建设[J].青海社会科学,1994(6):83-89. 被引量：1
9段瑞雪,王小捷,孙月萍,李文峰.HDP主题模型的用户意图聚类[J].北京邮电大学学报,2011,34(S1):55-58. 被引量：6
10刘群,张华平,俞鸿魁,程学旗.基于层叠隐马模型的汉语词法分析[J].计算机研究与发展,2004,41(8):1421-1429. 被引量：197

引证文献75

1邱小宇,林杰.基于Twitter数据的地点分类方法研究[J].科技通报,2020(4):67-71.
2熊祖涛.基于稀疏特征的中文微博短文本聚类方法研究[J].软件导刊,2014,13(1):133-135. 被引量：4
3李湘东,廖香鹏,黄莉.LDA模型下书目信息分类系统的研究与实现[J].现代图书情报技术,2014(5):18-25. 被引量：12
4唐晓丽,白宇,张桂平,蔡东风.一种面向聚类的文本建模方法[J].山西大学学报（自然科学版）,2014,37(4):595-600. 被引量：8
5张大伟.煤矿安全隐患治理知识库的建立与应用[J].煤矿安全,2015,46(1):230-232. 被引量：8
6陈千,桂志国,郭鑫,向阳.基于特征本体的文本流主题演化[J].计算机应用,2015,35(2):456-460. 被引量：3
7郑併斌,范新南,李敏,张继.基于轨迹分段LDA主题模型的视频异常行为检测方法[J].计算机应用,2015,35(2):515-518. 被引量：9
8盖森,刘建忠,熊伟,孙晨,张心悦.一种结合LDA主题分析的地理信息检索方法[J].测绘科学技术学报,2015,32(3):315-320. 被引量：4
9郑祥云,陈志刚,黄瑞,李博.基于主题模型的个性化图书推荐算法[J].计算机应用,2015,35(9):2569-2573. 被引量：35
10王小宾,邹梦宇,史建军.基于LDA模型的微博话题识别方法研究[J].数字技术与应用,2015,33(10):81-81.

二级引证文献456

1章宣,赵宝奇,孙军梅,葛青青,肖蕾,尉飞.面向微博文本的自杀风险识别模型[J].计算机系统应用,2020,29(11):121-127. 被引量：2
2杨金庆,吴乐艳,魏雨晗,陆伟,罗威.科技文献新兴话题识别研究进展[J].情报学进展,2020(1):202-234. 被引量：3
3冯建英,吴丹丹,王博,王智,穆维松.中文在线评论文本分析对生鲜农产品电商影响研究综述[J].农业机械学报,2021,52(S01):504-512. 被引量：6
4孙振海,张芮,石英宁,宗琦,张国伟,陈守强.基于数据挖掘和网络药理学探析中医药治疗冠心病作用机制[J].辽宁中医药大学学报,2021,23(12):76-82. 被引量：1
5孟威,尉永清,刘文锋.基于CRT机制混合神经网络的特定目标情感分析[J].计算机应用研究,2020,37(2):360-364. 被引量：2
6张振豪,过弋,韩美琪,王吉祥.基于关键词相似度的短文本分类方法研究[J].计算机应用研究,2020,37(1):26-29. 被引量：7
7张雪英,闾国年,叶鹏.大数据地理信息系统:框架、技术与挑战[J].现代测绘,2020(6):1-8. 被引量：5
8刘晓建,雷倩,杜茜,刘柯宏.多上下文特征的Android恶意程序静态检测方法[J].华中科技大学学报（自然科学版）,2020,48(2):85-90. 被引量：7
9戴非凡,司卫云,倪进平.基于机器学习的司法数据分析及建模研究——以“故意伤害罪”为例[J].智能计算机与应用,2020,0(1):89-94. 被引量：1
10徐智威.基于《知网》的词语相似度计算算法研究[J].包装世界,2018,0(4):101-102.

1法隈仙术篇[J].电脑校园,2003(10):89-89.
2吴飞飞,姬东鸿,吕超镇.基于LDA和CTR的用户模型分析[J].计算机工程与应用,2016,52(6):50-54. 被引量：1
3倪志刚.西摩·克雷(Seymour Cray)——隐居丛林的超级计算机之父[J].程序员,2006(8):11-11.
4尼古拉斯克雷亚VERSA铣床系列[J].现代制造,2009(49):46-46.
5唐颖军.基于LDA图像场景分类方法的增量学习研究[J].小型微型计算机系统,2013,34(5):1194-1197. 被引量：3
6邢金彪,崔超远,孙丙宇,宋良图.基于隐含狄列克雷分配分类特征扩展的微博广告过滤方法[J].计算机应用,2016,36(8):2257-2261. 被引量：4
7克雷CX1升级版支持英特尔5600处理器[J].工业设计,2010(4):18-18.
8史蒂夫·布兰科.活着，还是去创造人生[J].企业文化,2013(8):66-68.
9徐家树,覃征,杨盾.基于BP神经网络的Web页面分类算法[J].微电子学与计算机,2006,23(5):83-85. 被引量：3
10唐颖军.基于二次推导狄里克雷分布的图像场景分类模型[J].小型微型计算机系统,2015,36(11):2578-2582. 被引量：2

计算机应用

2013年第6期

浏览历史

内容加载中请稍等...

基于LDA主题模型的短文本分类方法被引量：75

参考文献16

二级参考文献41

共引文献132

同被引文献592

引证文献75

二级引证文献456

相关作者

相关机构

相关主题

浏览历史

基于LDA主题模型的短文本分类方法 被引量：75

参考文献16

二级参考文献41

共引文献132

同被引文献592

引证文献75

二级引证文献456

相关作者

相关机构

相关主题

浏览历史

基于LDA主题模型的短文本分类方法被引量：75