基于LDA-TF-IDF和Word2vec文档表示被引量：1

Document Representation Based on LDA-TF-IDF and Word2Vec

下载PDF

导出

摘要针对自然语言处理中传统文档表示方法上下文语义信息不全,干扰词多等问题,提出了一种基于LDA-TFIDF和Word2vec的文档表示方法。首先对数据集进行分词、去停用词等预处理;其次,利用LDA主题模型和TF-IDF抽取文档中具有表征性的特征词,并计算对应权重;最后,应用数据集训练Word2vec模型获取词向量,并将抽取的特征词权重融入Word2vec词向量构建文档语义向量。通过分类任务对该方法进行验证,实验结果表明,与已有方法相比该方法在垃圾短信数据集上表现效果更佳,验证了方法的有效性。 Aiming at the problems of incomplete contextual semantic information and many interfering words in traditional document representation methods in natural language processing,a document representation method based on LDA-TF-IDF and Word2vec is proposed.Firstly,the data set is preprocessed by word segmentation and stopping words.Secondly,the LDA topic model and TF-IDF are used to extract the characteristic words in the document,and the corresponding weight is calculated.Finally,the data set is used to train the Word2vec model to obtain word vectors,and the extracted feature word weights are integrated into Word2vec word vectors to construct document semantic vectors.The proposed method is verified by a classification task.The experimental results show that the proposed method performs better on the spam SMS data set than the existing methods,which verifies the effectiveness of the proposed method.

作者彭俊利王少泫陆正球李兴远 PENG Junli;WANG Shaoxuan;LU Zhengqiu;LI Xingyuan(Zhejiang Fashion Institute of Technology,Ningbo,Zhejiang,315211,China)

机构地区浙江纺织服装职业技术学院

出处《浙江纺织服装职业技术学院学报》 2023年第2期91-96,共6页 Journal of Zhejiang Fashion Institute of Technology

基金浙江省访问工程师项目(编号:FG2021133) 浙江纺织服装职业技术学院科研课题(编号:2022-2B-013)(编号:2022-2B-005)(编号:2021-2B-008)。

关键词 LDA主题模型 TF-IDF word2vec 文档表示 LDA topic model TF-IDF word2vec document representation

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1张志飞,苗夺谦,高灿.基于LDA主题模型的短文本分类方法[J].计算机应用,2013,33(6):1587-1590. 被引量：73
2王振振,何明,杜永萍.基于LDA主题模型的文本相似度计算[J].计算机科学,2013,40(12):229-232. 被引量：91
3石琳,徐瑞龙.基于Word2vec和改进TF-IDF算法的深度学习模型研究[J].计算机与数字工程,2021,49(5):966-970. 被引量：7
4汪静,罗浪,王德强.基于Word2Vec的中文短文本分类问题研究[J].计算机系统应用,2018,27(5):209-215. 被引量：38
5Tu Shouzhong,Huang Minlie.Mining microblog user interests based on TextRank with TF-IDF factor[J].The Journal of China Universities of Posts and Telecommunications,2016,23(5):40-46. 被引量：19
6彭俊利,谷雨,张震,耿小航.融合单词贡献度与Word2Vec词向量的文档表示[J].计算机工程,2021,47(4):62-67. 被引量：15
7陈行健,胡雪娇,薛卫.基于关系拓展的改进词袋模型研究[J].小型微型计算机系统,2019,40(5):1040-1044. 被引量：7
8唐明,朱磊,邹显春.基于Word2Vec的一种文档向量表示[J].计算机科学,2016,43(6):214-217. 被引量：132

二级参考文献94

1王燕.一种改进的K-means聚类算法[J].计算机应用与软件,2004,21(10):122-123. 被引量：9
2张玉芳,彭时名,吕佳.基于文本分类TFIDF方法的改进与应用[J].计算机工程,2006,32(19):76-78. 被引量：120
3PARK E K, RA D Y, JANG M G. Techniques for improving Web retrieval effectiveness[J]. Information Processing Management, 2005, 41(5): 1207 -1223.
4LIU W Y, HAO T Y, CHEN W, et al. A Web-based platform for user-interactive question-answering[J]. World Wide Web, 2009, 12(2): 107 -124.
5SALTON G, WONG A, YANG C S. A vector space model for auto-matic indexing[J]. Communications of the ACM, 1975, 18 ( 11) : 613 -620.
6PHAN X H, NGUYEN M L, HORIGUCHI S. Learning to classify short and sparse text & Web with hidden topics from large-scale data collections[C] / / Proceedings of the 17 th Conference on World Wide Web. New York: ACM, 2008: 91 -100.
7WANG L, JIA Y, HAN W H. Instant message clustering based on extended vector space model[C] / / Proceedings of the 2nd Interna-tional Conference on Advances in Computation and Intelligence. Berlin: Springer-Verlag, 2007: 435 - 443.
8SAHAMI M, HEILMAN T D. A Web - based kernel function for measuring the similarity of short text snippets[C] / / Proceedings of the 15th Conference on World Wide Web. New York: ACM, 2006: 377 -386.
9YIH W, MEEK C. Improving similarity measures for short segments of text[C] / / Proceedings of the 22nd Conference on Artificial Intel-ligence. Menlo Park: AAAI Press, 2007: 1489 -1494.
10BANERJEE S, RAMANATHAN K, GUPTA A. Clustering short texts using Wikipedia[C] / / Proceedings of the 30th Annual Inter-national ACM SIGIR Conference on on Research and Development in Information Retrieval. New York: ACM, 2007: 787 -788.

共引文献345

1孟旭,谢靖,李春旺.基于核心主题特征的作者身份识别研究[J].知识管理论坛,2023(5):351-364.
2邱小宇,林杰.基于Twitter数据的地点分类方法研究[J].科技通报,2020(4):67-71.
3金丹,张娇娇,李依玲,崔立新.一种改进的协同过滤算法研究——以电影推荐系统为例[J].国际商务（对外经济贸易大学学报）,2020,0(1):128-141. 被引量：6
4熊祖涛.基于稀疏特征的中文微博短文本聚类方法研究[J].软件导刊,2014,13(1):133-135. 被引量：4
5李湘东,廖香鹏,黄莉.LDA模型下书目信息分类系统的研究与实现[J].现代图书情报技术,2014(5):18-25. 被引量：12
6郐媛媛.基于语义的文本相似度算法研究[J].计算机光盘软件与应用,2014,17(9):302-303. 被引量：2
7李文慧,张英俊,潘理虎.多因素影响特征选择的短文本分类方法[J].计算机系统应用,2018,27(12):216-221. 被引量：3
8殷功俊.基于词向量的向量空间模型的改进[J].现代计算机,2018,24(24):32-35. 被引量：1
9秦宇君,史存会,刘悦,俞晓明,程学旗.多源文本下结合实体的事件发现方法ESP[J].山西大学学报（自然科学版）,2019,42(1):41-50. 被引量：2
10苏良良,雷蕾,李景文,黄敏杰.基于Word2Vec技术隐性特征挖掘及潜在升级投诉用户识别研究[J].电信技术,2018(12):36-39. 被引量：1

同被引文献1

1李龙,金铄,黄霞.基于改进TF-IDF算法的毕业生就业推荐算法研究[J].计算机与数字工程,2023,51(9):1985-1989. 被引量：1

引证文献1

1刘彦宏,郑琳那,王榕,曲金鑫,毛云,崔永瑞.智慧医疗资讯个性化服务平台医学感知[J].计算机科学与应用,2024,14(2):360-370.

1庄金莲,林倩倩,江慧萍.基于MapReduce计算框架的文档领域本体模型构建[J].龙岩学院学报,2023,41(2):17-23.
2朱芷瑶.网民媒介狂欢现象分析——《乘风破浪的姐姐》第三季微博评论区文本解读[J].新闻前哨,2023(10):57-59.
3张玉莹.重拳出击打击“106垃圾短信”乱象[J].通信世界,2023(8):20-21.
4代婷婷,龚成航.基于文本挖掘的微博公益广告信息特征[J].新闻前哨,2023(9):25-26.
5周婷玮.基于共现网络与情感分析的多平台消费者评论主题比较研究[J].知识管理论坛,2023(2):79-91. 被引量：2
6王清宇,王海瑞,朱贵富,孟顺建.基于FlexUDA模型的SQL注入检测研究[J].计算机科学,2023,50(S01):787-792.
7周裕琼,叶哲佑.从家事到国事:老龄化议题中网络舆论与公共政策的互动关系[J].新闻与写作,2023(6):52-64. 被引量：2
8刘耀,刘茹,翟雨.基于网页源码结构理解的自适应爬虫代码生成方法[J].计算机应用,2023,43(6):1779-1784.
9王倩.浅析企事业单位数字化档案的电子文档归档建议[J].机电兵船档案,2023(3):94-96.
10张亚宁,张春亢,王朝,游晨宇.融合残差和卷积注意力机制的U-Net网络高分影像道路提取[J].航天返回与遥感,2023,44(3):119-132. 被引量：1

浙江纺织服装职业技术学院学报

2023年第2期

浏览历史

内容加载中请稍等...

基于LDA-TF-IDF和Word2vec文档表示被引量：1

参考文献8

二级参考文献94

共引文献345

同被引文献1

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于LDA-TF-IDF和Word2vec文档表示 被引量：1

参考文献8

二级参考文献94

共引文献345

同被引文献1

引证文献1

相关作者

相关机构

相关主题

浏览历史

基于LDA-TF-IDF和Word2vec文档表示被引量：1