基于LF-LDA和Word2vec的文本表示模型研究被引量：4

Text Representation Model Based on LF-LDA and Word2vec

导出

摘要 LDA(Latent Dirichlet Allocation)在训练的过程中没有结合词向量训练,而LF-LDA(Latent FeatureLDA)在训练过程中利用Word2vec词向量改善了文档的主题分布。但是,文档用主题分布进行表示,没有结合特征词的上下文信息。为此,本文提出利用LF-LDA生成的主题向量结合Word2vec词向量,对文本进行表示。另外,文章还提出了利用LF-LDA生成的主题向量对文档进行表示。在Stack Overflow短文本数据集上的分类结果表明,LF-LDA结合Word2vec的文本表示优于LDA结合Word2vec的文本表示和LF-LDA主题分布的文本表示。基于主题向量的文本表示模型优于LDA模型。 LDA（Latent Dirichlet Allocation） does not consider word vector in training process while LF-LDA（Latent Feature-LDA） uses Word2 vec to improve the distribution of topics. However, document represented by the distribution of topics, which is not combined with context information of feature words. Thus, we propose LF-LDA combined with Word2 vec, which utilize topic vector generated by LF-LDA and word vector generated by Word2 vec to represent text. In addition, we also propose text representation which adopts topic vector generated by LF-LDA. Experimental result on data set of Stack Overflow show that LF-LDA combined with Word2vec＇s text representation is superior to LDA combined with Word2vec＇s text representation and LF-LDA＇s text representation. Text representation model based on topic vector is superior to LDA model.

作者陈磊李俊

机构地区中国科学技术大学信息科学技术学院自动化系

出处《电子技术（上海）》 2017年第7期1-5,共5页 Electronic Technology

关键词文本表示 LDA Word2vec LF-LDA 文本分类 Text Representation LDA Word2vec LF-LDA Text Categorization

分类号 TP391.7 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1唐明,朱磊,邹显春.基于Word2Vec的一种文档向量表示[J].计算机科学,2016,43(6):214-217. 被引量：145

二级参考文献28

1Baeza-Yates R,Ribeiro-Neto B.Modern Information Retrieval[M].New York:ACM press,1999.
2Manning C D,Schütze H.Foundations of Statistical NaturalLanguage Processing [M].Cambridge:MIT press,1999.
3Hwang M,Choi C,Youn B,et al.Word Sense Disambiguation Based on Relation Structure[C]∥International Conference on Advanced Language Processing and Web Information Technology.2008:15-20.
4Wang X,Mccallum A,Wei X.Topical N-Grams:Phrase andTopic Discovery,with an Application to Information Retrieval [C]∥IEEE International Conference on Data Mining.IEEE Computer Society,2007:697-702.
5Haruechaiyasak C,Jitkrittum W,Sangkeettrakarn C,et al.Im-plementing News Article Category Browsing Based on Text Categorization Technique [C]∥2008 IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology.IEEE Computer Society,2008:143-146.
6Mikolov T,Sutskever I,Chen K,et al.Distributed Representations of Words and Phrases and their Compositionality [J].Advances in Neural Information Processing Systems,2013,26:3111-3119.
7Mikolov T,Chen K,Corrado G,et al.Efficient Estimation of Word Representations in Vector Space [C]∥ICLR 2013.2013.
8Joachims T.A Probabilistic Analysis of the Rocchio Algorithm with TFIDF for Text Categorization [M].Springer US,1997:143-151.
9Hinton G E.Learning distributed representations of concepts[C]∥Proceedings of CogSci.1986:1-12.
10Socher R,Bauer J,Manning C D,et al.Parsing with Compositional Vector Grammars [C]∥Meeting of the Association for Computational Linguistics.2013:455-465.

共引文献144

1韩佳良.浅谈综合调度与成本控制[J].城镇供水,2000(2):21-23.
2李文慧,张英俊,潘理虎.多因素影响特征选择的短文本分类方法[J].计算机系统应用,2018,27(12):216-221. 被引量：3
3殷功俊.基于词向量的向量空间模型的改进[J].现代计算机,2018,24(24):32-35. 被引量：1
4秦宇君,史存会,刘悦,俞晓明,程学旗.多源文本下结合实体的事件发现方法ESP[J].山西大学学报（自然科学版）,2019,42(1):41-50. 被引量：2
5苏良良,雷蕾,李景文,黄敏杰.基于Word2Vec技术隐性特征挖掘及潜在升级投诉用户识别研究[J].电信技术,2018(12):36-39. 被引量：1
6冯国明,张晓冬,刘素辉.基于CapsNet的中文文本分类研究[J].数据分析与知识发现,2018,2(12):68-76. 被引量：13
7郑恒毅,廖城霖,李天柱.一种面向网络长文本的话题检测方法[J].工程科学学报,2019,41(9):1208-1214. 被引量：7
8林建洪,翟建桐,徐菁.融合LDA与Word2vector的垃圾邮件过滤方法研究[J].网络安全技术与应用,2017(3):73-75. 被引量：1
9张敬谊,张亚红,李静.基于词向量特征的文本分类模型研究[J].信息技术与标准化,2017(5):71-75. 被引量：7
10郭璇,吴文辉,肖治庭,袁宏国.基于深度学习和公开来源信息的反恐情报挖掘[J].情报理论与实践,2017,40(9):135-139. 被引量：21

同被引文献28

1唐慧丰,谭松波,程学旗.基于监督学习的中文情感分类技术比较研究[J].中文信息学报,2007,21(6):88-94. 被引量：136
2赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848. 被引量：544
3王洪伟,刘勰,尹裴,廖雅国.Web文本情感分类研究综述[J].情报学报,2010,29(5):931-938. 被引量：31
4梁艳红,檀润华,马建红.面向产品创新设计的专利文本分类研究[J].计算机集成制造系统,2013,19(2):382-390. 被引量：17
5周群,左文革,陈仕吉.基于百分位数的文献计量指标研究综述[J].现代图书情报技术,2013(7):82-88. 被引量：13
6史伟,王洪伟,何绍义.基于语义的中文在线评论情感分析[J].情报学报,2013,32(8):860-867. 被引量：42
7覃世安,李法运.文本分类中TF-IDF方法的改进研究[J].现代图书情报技术,2013(10):27-30. 被引量：28
8丁晟春,孟美任,李霄.面向中文微博的观点句识别研究[J].情报学报,2014,33(2):175-182. 被引量：11
9秦春秀,祝婷,赵捧未,张毅.自然语言语义分析研究进展[J].图书情报工作,2014,58(22):130-137. 被引量：31
10周练.Word2vec的工作原理及应用探究[J].科技情报开发与经济,2015,28(2):145-148. 被引量：101

引证文献4

1曾庆田,胡晓慧,李超.融合主题词嵌入和网络结构分析的主题关键词提取方法[J].数据分析与知识发现,2019,3(7):52-60. 被引量：16
2梁艳红,坎启轩,苏翌.基于主题分布优化的模糊文本分类研究[J].计算机工程,2019,45(10):221-226. 被引量：3
3景永霞,苟和平,孙为,刘强.基于语义分析的在线评论文本情感分类算法研究[J].重庆科技学院学报（自然科学版）,2020,22(1):47-50.
4陈登建,杜飞霞,吴瑞雪,杨秀璋,夏换.基于LDA-加权Word2Vec组合的机器学习情感分类模型研究[J].现代计算机,2022,28(18):16-22.

二级引证文献19

1唐晓波,高和璇.基于关键词词向量特征扩展的健康问句分类研究[J].数据分析与知识发现,2020,4(7):66-75. 被引量：10
2柴悦,赵彤洲,江逸琪,高佩东.基于Att-iBi-LSTM的新闻主题词提取方法研究[J].武汉工程大学学报,2020,42(5):575-580.
3陈芳,陈茜,徐碧晨.基于文本挖掘的管制运行风险主题分析[J].中国安全生产科学技术,2020,16(11):47-52. 被引量：12
4陶晨,鲁佳亮,苏淼,周赳.新时期丝绸文化演变的大数据解读[J].丝绸,2020,57(12):74-79. 被引量：4
5张金柱,于文倩.基于短语表示学习的主题识别及其表征词抽取方法研究[J].数据分析与知识发现,2021,5(2):50-60. 被引量：5
6陈翔,黄璐,倪兴兴,刘家润,曹晓丽,王长天.基于动态语义网络分析的主题演化路径识别研究[J].情报学报,2021,40(5):500-512. 被引量：22
7张萌萌,梁艳红.补充语义信息的多特征融合模糊文本分类[J].信息技术与信息化,2021(6):45-47. 被引量：1
8马莉媛,黄勃,朱良奇,黄季涛,李梦君,荆苗苗.基于LightGBM的文本关键词提取方法[J].软件导刊,2021,20(7):18-22. 被引量：5
9王雨.医院综合档案自动分类系统设计[J].自动化技术与应用,2021,40(11):56-59. 被引量：2
10滕婕,胡广伟,王婷.基于动态语义依赖关系网的社会诉求主题识别与演化路径分析[J].情报资料工作,2022,43(3):20-33. 被引量：3

1吴江,周露莎,刘冠君,贺超城.基于LDA的可穿戴设备在线评论主题挖掘研究[J].信息资源管理学报,2017,7(3):24-33. 被引量：27
2李玉,赵翠莲,费森杰,罗林辉.基于ARAT与视触融合的E手套康复评估与训练系统[J].中国医疗器械杂志,2017,41(4):244-247. 被引量：3

电子技术（上海）

2017年第7期

浏览历史

内容加载中请稍等...

基于LF-LDA和Word2vec的文本表示模型研究被引量：4

参考文献1

二级参考文献28

共引文献144

同被引文献28

引证文献4

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于LF-LDA和Word2vec的文本表示模型研究 被引量：4

参考文献1

二级参考文献28

共引文献144

同被引文献28

引证文献4

二级引证文献19

相关作者

相关机构

相关主题

浏览历史

基于LF-LDA和Word2vec的文本表示模型研究被引量：4