基于LDA高频词扩展的中文短文本分类被引量：38

A New Method of Key words Extraction for Chinese Short-text Classification

导出

摘要针对短文本特征稀疏、噪声大等特点,提出一种基于LDA高频词扩展的方法,通过抽取每个类别的高频词作为向量空间模型的特征空间,用TF-IDF方法将短文本表示成向量,再利用LDA得到每个文本的隐主题特征,将概率大于某一阈值的隐主题对应的高频词扩展到文本中,以降低短文本的噪声和稀疏性影响。实验证明,这种方法的分类性能高于常规分类方法。 Short texts are different from traditional documents in their shortness and sparseness. Feature extension can ease the problem of high sparse in the vector space model, but feature extension inevitably introduces noise. To resolve the problem, this paper proposes a high - frequency words expansion method based on LDA. By extracting high - frequency words from each category as the feature space, using LDA to derive latent topics from the corpus, it extends the topic words into the short -text. Extensive experiments conducted on Chinese short messages and news titles show that the new method proposed for Chinese short - text classification can obtain a higher classification performance comparing with the conventional classification methods.

作者胡勇军江嘉欣常会友

机构地区中山大学管理学院中山大学信息科学与技术学院中山大学软件学院

出处《现代图书情报技术》 CSSCI 北大核心 2013年第6期42-48,共7页 New Technology of Library and Information Service

基金国家863计划基金项目"农产品全供应链多源信息感知技术与产品开发"(项目编号:2012AA101701-03)的研究成果之一

关键词短文本分类高频词 LDA 特征扩展 Short- text classification High frequency words LDA Feature expansion

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献18

1Hotho A, Staab S, Stumme G. Ontologies Improve Text Document Clustering[ C ]. In : Proceedings of the 3rd IEEE International Con- ference on Data Mining ( ICDM' 03 ). Washington, D C : IEEE Computer Society, 2003:541 -544.
2Pinto D, Rosso P, Benajiba Y, et al. Word Sense Induction in the Arabic Language: A Self- Term Expansion Based Approach [ C ]. In: Proceedings of the 7 th Conference on Language Engineering of the Egyptian Society of Language Engineering ( ESOLE 2007 ). 2007 : 235 - 245.
3Banerjee S, Ramanathan K, Gupta A. Clustering Short Texts Using Wikipedia[ C]. In: Proceedings of the 30th Annual International ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'07). New York: ACM, 2007:787-788.
4Pinto D, Jimnez - Salazar H, Rosso P. Clustering Abstracts of Scientific Texts Using the Transition Point Technique [ C ]. In: Proceedings of the 7 th International Conference on Computational Linguistics and Intelligent Text Processing ( CICLing' 06 ). Heidel- berg, Berlin : Springer - Verlag, 2006 : 536 - 546.
5Fan X, Hu H. A New Model for Chinese Short - text Classification Considering Feature Extension [ C ]. In : Proceedings of the Interna- tional Conference on Artificial Intelligence and Computational Intel- ligence (A1CI' 10). Washington, D C: IEEE Computer Society, 2010,2:7 -11.
6Sahami M, Heilman T D. A Web - based Kernel Function for Measuring the Similarity of Short Text Snippets [ C ]. In : Proceed- ings of the 15th International Conference on World Wide Web ( WWW' 06). New York : ACM, 2006 : 377 - 386.
7Hu X, Sun N, Zhang C, et al. Exploiting Internal and External Semantics for the Clustering of Short Texts Using World Knowledge [ C]. In: Proceedings of the 18th ACM Conference on Information and Knowledge Management ( CIKM' 09 ). New York : ACM, 2009 : 919 -928.
8Phan X H, Nguyen L M, Horiguchi S. Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large - scale Da- ta Collections [ C] In: Proceedings of the 17th International Con- ference on World Wide Web (WWW'08). New York: ACM, 2008: 91 - 100.
9Quan x, Liu G, Lu Z, et al. Short Text Similarity Based on Proba- bilistic Topics [ J ]. Knowledge and Information Systems, 2010,25 (3) : 473 -491.
10Deerwester S, Dumais S, Furnas G W, et al. Indexing by Latent Semantic Analysis[J]. Journal of the American Society for Informa- tion Science, 1990, 41 (6) : 391 -407.

同被引文献386

1陶志勇,李小兵,刘影,刘晓芳.基于双向长短时记忆网络的改进注意力短文本分类方法[J].数据分析与知识发现,2019,3(12):21-29. 被引量：23
2陆晓蕾,倪斌.基于预训练语言模型的BERT-CNN多层级专利分类研究[J].中文信息学报,2021,35(11):70-79. 被引量：19
3王成军.寻找公众注意力爆发的起源:以YouTube视频扩散为例[J].东岳论丛,2021(2):142-153. 被引量：4
4王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
5贾学良.浅析物联网发展现状及趋势[J].山西财经大学学报,2012,34(S1). 被引量：11
6王昱.社科文献的特点、作用及省级社科文献资源建设[J].青海社会科学,1994(6):83-89. 被引量：2
7单丽莉,刘秉权,孙承杰.文本分类中特征选择方法的比较与改进[J].哈尔滨工业大学学报,2011,43(S1):319-324. 被引量：25
8张素娟,郑庆华,胡云华,孙霞.一种面向网络答疑的汉语切分歧义消除算法[J].计算机工程与应用,2004,40(25):55-58. 被引量：4
9檀林,张永奎.一种协调迭代的科技文献分类方法[J].山西大学学报（自然科学版）,2004,27(3):249-253. 被引量：1
10李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95

引证文献38

1余本功,曹雨蒙,陈杨楠,杨颖.基于nLD-SVM-RF的短文本分类研究[J].数据分析与知识发现,2020,4(1):111-120. 被引量：10
2李湘东,曹环,丁丛,黄莉.利用《知网》和领域关键词集扩展方法的短文本分类研究[J].现代图书情报技术,2015(2):31-38. 被引量：17
3李湘东,巴志超,黄莉.一种基于加权LDA模型和多粒度的文本特征选择方法[J].现代图书情报技术,2015(5):42-49. 被引量：18
4高永兵,聂知秘,周环宇,钟振华.基于JS综合相似度的个人微博时序事件归类研究[J].计算机应用与软件,2015,32(7):56-59. 被引量：2
5黄炜,姚嘉威.网络舆情事件的主动感知实践[J].现代情报,2015,35(10):7-11. 被引量：4
6黄莉,李湘东.数字图书馆馆藏资源的文献类型研究[J].高校图书情报论坛,2015,0(4):19-22. 被引量：2
7马丽菲,莫倩,杜辉.面向中文短影评的分类技术研究[J].山东大学学报（理学版）,2016,51(1):52-57. 被引量：4
8兰秋军,刘文星,李卫康,胡星野.融合句法信息的金融论坛文本情感计算研究[J].现代图书情报技术,2016(4):64-71. 被引量：4
9李湘东,巴志超,高凡.数字文本自动分类中特征语义关联及加权策略研究综述与展望[J].现代图书情报技术,2016(9):17-26. 被引量：5
10张群,王红军,王伦文.词向量与LDA相融合的短文本分类方法[J].现代图书情报技术,2016(12):27-35. 被引量：40

二级引证文献284

1陆文超,崔海朋.一种基于融合自编码与神经网络的协同过滤算法[J].中国水运（下半月）,2022,22(3):18-20.
2张春颜,陈纪茹.基于多维图谱的高校网络舆情演化路径研究[J].中国应急管理科学,2024(6):86-102.
3叶佳鑫,熊回香,蒋武轩.一种融合患者咨询文本与决策机理的医生推荐算法[J].数据分析与知识发现,2020,4(2):153-164. 被引量：9
4梁艳平,安璐,刘静.同类突发公共卫生事件微博话题共振研究[J].数据分析与知识发现,2020,4(2):122-133. 被引量：13
5余本功,曹雨蒙,陈杨楠,杨颖.基于nLD-SVM-RF的短文本分类研究[J].数据分析与知识发现,2020,4(1):111-120. 被引量：10
6孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
7赵增涛,张豪,余益龙.应用于电网资产模型搜索的交叉权积文本相似度计算方法[J].水利水电技术（中英文）,2020,51(S02):209-214.
8杨一璞,朱永华,高海燕,高文靖.一种结合文章信息的新闻评论情感分析方法[J].上海大学学报（自然科学版）,2022,28(1):170-178. 被引量：1
9王昊,虞为,孟镇,张卫.民生话题下政务微博评论Emotion-Cause Pair抽取方法研究[J].情报科学,2023,41(12):136-146.
10林海香,赵正祥,陆人杰,卢冉,白万胜,胡娜娜.基于字词融合的高铁道岔多级故障诊断组合模型[J].电子测量与仪器学报,2022,36(10):217-226. 被引量：2

1王盛,樊兴华,陈现麟.利用上下位关系的中文短文本分类[J].计算机应用,2010,30(3):603-606. 被引量：38
2范云杰,刘怀亮.基于维基百科的中文短文本分类研究[J].现代图书情报技术,2012(3):47-52. 被引量：34
3刘静雅.西门子PLC技术特性分析与应用[J].中国新技术新产品,2014(2):14-14. 被引量：1
4张俊梅.基于SVM的SAR图像去噪方法[J].数字技术与应用,2011,29(9):178-179.
5刘泽文,丁冬,李春文.基于条件随机场的中文短文本分词方法[J].清华大学学报（自然科学版）,2015,55(8):906-910. 被引量：17
6廖志芳,周国恩,李俊锋,刘飞,蔡飞.中文短文本语法语义相似度算法[J].湖南大学学报（自然科学版）,2016,43(2):135-140. 被引量：13
7高翔,李兵.中文短文本去重方法研究[J].计算机工程与应用,2014,50(16):192-197. 被引量：4
8樊兴华,王鹏.基于两步策略的中文短文本分类研究[J].大连海事大学学报,2008,34(3):121-124. 被引量：7
9张婷婷,王伟军,黄英辉,刘凯,胡祥恩.基于屏幕视觉热区的中文短文本关键词实时提取方法[J].情报学报,2016,35(12):1313-1322. 被引量：2
10郑诚,熊大康,刘倩倩.基于卡方特征选择和LDA主题模型的中文短文本分类[J].电脑知识与技术,2014(5):3182-3185. 被引量：3

现代图书情报技术

2013年第6期

浏览历史

内容加载中请稍等...

基于LDA高频词扩展的中文短文本分类被引量：38

参考文献18

同被引文献386

引证文献38

二级引证文献284

相关作者

相关机构

相关主题

浏览历史

基于LDA高频词扩展的中文短文本分类 被引量：38

参考文献18

同被引文献386

引证文献38

二级引证文献284

相关作者

相关机构

相关主题

浏览历史

基于LDA高频词扩展的中文短文本分类被引量：38