结合LDA与Word2vec的文本语义增强方法被引量：22

Text Semantic Enhancement Method Combining LDA and Word2vec

下载PDF

导出

摘要文本的语义表示是自然语言处理和机器学习领域的研究难点,针对目前文本表示中的语义缺失问题,基于LDA主题模型和Word2vec模型,提出一种新的文本语义增强方法Sem2vec(semantic to vector)模型。该模型利用LDA主题模型获得单词的主题分布,计算单词与其上下文词的主题相似度,作为主题语义信息融入到词向量中,代替one-hot向量输入至Sem2vec模型,在最大化对数似然目标函数约束下,训练Sem2vec模型的最优参数,最终输出增强的语义词向量表示,并进一步得到文本的语义增强表示。在不同数据集上的实验结果表明,相比其他经典模型,Sem2vec模型的语义词向量之间的语义相似度计算更为准确。另外,根据Sem2vec模型得到的文本语义向量,在多种文本分类算法上的分类结果,较其他经典模型可以提升0.58%~3.5%,同时也提升了时间性能。 Text semantic representation is one of the most difficulty problems in natural language processing and machine learning.To solve the problem of semantic loss in text representation,this paper proposes a new text semantic representation method named Sem2vec(semantic to vector)model which is based on the LDA topic model and the Word2vec model.The topic similarity is calculated according to the word topic distribution obtained by the LDA model.Then the topic semantic word vectors are inputted into the Sem2vec model instead of the one-hot vector.Constrained by maximizing log-likelihood objective function,the parameters of the Sem2vec model are optimized.Finally,the semantic word vectors are learned by the Sem2vec model and the semantic representation of the text is further obtained.The experimental results on different datasets show that compared with the other classic models,the Sem2vec model is more accurate in calculating semantic similarity between words.Moreover,in different classification algorithms,the text semantic vectors generated by the Sem2vec model can improve the text classification results by 0.58%~3.5%and promote the time performance compared with the other classic models.

作者唐焕玲卫红敏王育林朱辉窦全胜 TANG Huanling;WEI Hongmin;WANG Yulin;ZHU Hui;DOU Quansheng(School of Computer Science and Technology,Shandong Technology and Business University,Yantai,Shandong 264005,China;Co-innovation Center of Shandong Colleges and Universities:Future Intelligent Computing,Yantai,Shandong 264005,China;Key Laboratory of Intelligent Information Processing in Universities of Shandong(Shandong Technology and Business University),Yantai,Shandong 264005,China;School of Information and Electronic Engineering,Shandong Technology and Business University,Yantai,Shandong 264005,China;Shanghai Conversation Intelligence Co.Ltd.,Shanghai 200120,China)

机构地区山东工商学院计算机科学与技术学院山东省高等学校协同创新中心:未来智能计算山东省高校智能信息处理重点实验室(山东工商学院) 山东工商学院信息与电子工程学院上海绘话智能科技有限公司

出处《计算机工程与应用》 CSCD 北大核心 2022年第13期135-145,共11页 Computer Engineering and Applications

基金国家自然科学基金(61976124,61976125,62176140,61873177,61972235,82001775)。

关键词 LDA主题模型 Word2vec模型语义词向量语义相似度文本分类 LDA topic model Word2vec model semantic word vector semantic similarity text categorization

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献8

1Sheng-Luan Hou,Xi-Kun Huang,Chao-Qun Fei,Shu-Han Zhang,Yang-Yang Li,Qi-Lin Sun,Chuan-Qing Wang.A Survey of Text Summarization Approaches Based on Deep Learning[J].Journal of Computer Science & Technology,2021,36(3):633-663. 被引量：1
2吴呈,王朝坤,王沐贤.基于文本化简的实体属性抽取方法[J].计算机工程与应用,2020,56(21):115-122. 被引量：3
3侯强,侯瑞丽.机器翻译方法研究与发展综述[J].计算机工程与应用,2019,55(10):30-35. 被引量：26
4唐焕玲,林正奎,鲁明羽.基于差异性评估对Co-training文本分类算法的改进[J].电子学报,2008,36(B12):138-143. 被引量：4
5江洋洋,金伯,张宝昌.深度学习在自然语言处理领域的研究进展[J].计算机工程与应用,2021,57(22):1-14. 被引量：22
6张志昌,曾扬扬,庞雅丽.融合语义角色和自注意力机制的中文文本蕴含识别[J].电子学报,2020,48(11):2162-2169. 被引量：9
7郭茂盛,张宇,刘挺.文本蕴含关系识别与知识获取研究进展及展望[J].计算机学报,2017,40(4):889-910. 被引量：28
8唐焕玲,窦全胜,于立萍,宋英杰,鲁明羽.有监督主题模型的SLDA-TC文本分类新方法[J].电子学报,2019,47(6):1300-1308. 被引量：10

二级参考文献54

1罗枭.基于深度学习的自然语言处理研究综述[J].智能计算机与应用,2020(4):133-137. 被引量：13
2汪劲,耿立大.机器翻译及其基本概念和常用方法[J].情报科学,1988,9(2):31-38. 被引量：2
3唐焕玲,孙建涛,陆玉昌.文本分类中结合评估函数的TEF-WA权值调整技术[J].计算机研究与发展,2005,42(1):47-53. 被引量：26
4董振东,董强,郝长伶.知网的理论发现[J].中文信息学报,2007,21(4):3-9. 被引量：99
5Seeger M.Leaming with labeled and unlabeled data[ R]. University of Edinburgh, Edinburgh, UK 2001.
6Blum A, Mitchell T. Combining labeled and unlabeled data with co-training[ A]. In Proceedings of the Workshop on Computational Learning Theory[ C] .New York: ACM Press, 1998.92- 100.
7Nigam K, Ghani R. Analyzing the effectiveness and applicability of co-training[ A] . In Proceedings of ninth International Conference on Information and Knowledge Management[ C ]. New York: ACM Press, 2000.86 - 93.
8Balcan M-F,Blum A.A PAC-style model for learning from labeled and unlabeled data[A]. In Proceedings of the 18th Annual Conference on Learning Theory [ C ]. Berlin Heidelberg: Springer-Verlag, 2005.111 - 126.
9Zhou Y, Goldman S. Democratic co-learning [ A ]. In Proceedings of the 16th IEEE International Conference on Tools with Artificial Intelligence [ C ]. Washington, DC: IEEE Computer Society Press, 2004. 594 - 602.
10Zhou Z-H, Li M. Tri-training: exploiting unlabeled data using three classifiers[ J ]. IEEE, Transactions on Knowledge and Data Engineering,2005,17(11 ):1529 - 1541.

共引文献93

1熊伟,高娟娟,刘锴.基于GAN模型优化的神经机器翻译[J].计算机系统应用,2022,31(12):95-103. 被引量：3
2梁慧莹.机器翻译与人工翻译的碰撞与融合[J].现代英语,2021(19):34-36.
3马天欢.语用视角下复述句生成方式的类型考察[J].中文信息学报,2021,35(10):32-38.
4李允,侯学敏.成语识别技术在机器翻译中的研究与实际应用[J].汉字文化,2024(11):175-177.
5章林柯,崔立林.潜艇机械噪声源分类识别的小样本研究思想及相关算法评述[J].船舶力学,2011,15(8):940-947. 被引量：5
6于重重,商利利,谭励,涂序彦,杨扬,王竞燕.一种增强差异性的半监督协同分类算法[J].电子学报,2013,41(1):35-41. 被引量：9
7张凯,任维平,张仰森,尤建清.基于股民评论信息的股票预测方法研究[J].北京信息科技大学学报（自然科学版）,2017,32(5):67-71. 被引量：1
8郭峰,韩云凤.面向期刊论文的搜索技术的研究与设计[J].信息技术,2018,42(8):59-65. 被引量：4
9谭咏梅,刘姝雯,吕学强.基于CNN与双向LSTM的中文文本蕴含识别方法[J].中文信息学报,2018,32(7):11-19. 被引量：23
10李潇,闵华松,林云汉.一种用于CBR推理机的案例学习算法研究[J].计算机应用研究,2018,35(12):3689-3693. 被引量：3

同被引文献326

1李亚兵,夏月.新冠肺炎疫情下零售企业商业模式创新风险识别与评价[J].统计与决策,2021(2):163-167. 被引量：19
2唐晓波,王琼赋,牟昊.基于词共现与词向量的概念层次关系自动抽取模型——以学术论文评价领域为例[J].情报科学,2022,40(10):3-11. 被引量：3
3陆晓蕾,倪斌.基于预训练语言模型的BERT-CNN多层级专利分类研究[J].中文信息学报,2021,35(11):70-79. 被引量：19
4李海原.人工智能大语言模型对高校会计专业人才培养的冲击与启示[J].科教导刊,2023(15):51-53. 被引量：2
5梁瑶,谢春丽,王文捷.基于图嵌入的代码相似性度量[J].计算机科学,2022,49(S02):801-806. 被引量：3
6刘杨,罗振亮,吴大梅,吕冰清,葛玉红.项目驱动式-Seminar-OBE混合教学模式下中医“四诊”学习方式的探索[J].创新创业理论研究与实践,2021,4(21):178-180. 被引量：4
7周丰,殷丽丽,沈琼,杨怀光.基于word2vec的瓶装水线上评论智能分析[J].包装工程,2022,43(S01):48-55. 被引量：1
8戴正华,张庆丹,徐琳,谭光明,冯圣中.基于SSE2的Smith-Waterman算法[J].计算机工程与应用,2006,42(11):85-87. 被引量：2
9梁茂成.学习者书面语语篇连贯性的研究[J].现代外语,2006,29(3):284-292. 被引量：92
10王金铨,梁茂成,俞洪亮.基于N-gram和向量空间模型的语句相似度研究[J].现代外语,2007,30(4):405-413. 被引量：14

引证文献22

1洪海蓝,李文林,杨涛,李玥,梅文静.基于知识图谱的海洋中药智能问答系统的设计与实现[J].世界科学技术-中医药现代化,2023(6):1935-1941. 被引量：4
2赵训新,王卫玉,马泽宁,陈启卷.基于知识图谱的水电机组主动维护体系探讨[J].水电与新能源,2022,36(8):23-27. 被引量：3
3杨益兴,许洪波.基于语义相似度与PROMETHEE的生鲜电商服务质量评价[J].昆明理工大学学报（社会科学版）,2023,23(2):109-118. 被引量：1
4邹丽强,何月顺.多特征融合的文本相似度方法[J].现代电子技术,2023,46(11):103-108. 被引量：1
5周志刚,窦路遥.基于专利视角的企业潜在竞争与合作关系预测——以钙钛矿型太阳能电池为例[J].科技管理研究,2023,43(10):136-145. 被引量：2
6张霁阳,张鹏,李思佳,刘静,窦云莲,兰月新.基于实时社会网络分析的突发舆情事件动态意见领袖识别方法研究[J].情报杂志,2023,42(9):109-116. 被引量：3
7于诗睿,李爱花,林紫洛,陈逸菲,唐小利.基于主题模型的科技文献主题演化及优化方法研究综述[J].医学信息学杂志,2023,44(8):31-36.
8黄婵.社交媒体热点事件挖掘与传播机制研究——基于事件网络文本表示模型[J].互联网周刊,2023(20):18-20. 被引量：2
9尹杰,倪鹏锐.基于深度学习的网站类型识别研究[J].电子设计工程,2023,31(21):42-46.
10陈克院,邱天.危险的恋爱:婚恋类社交App个人信息保护现状研究[J].新媒体研究,2023,9(14):40-46.

二级引证文献23

1游江澄,郑嘉雯,王蔚韬,保俞安.基于社交媒体的网民情感与群体认同分析——以“TI12”AR止步四强为例[J].数字出版研究,2023,2(S02):89-94.
2李德伟,裴震宇.水电站设备故障预测中分类算法的应用[J].设备管理与维修,2023(18):116-117.
3杜春.基于知识图谱的乐山旅游智能问答系统研究及实现[J].电脑知识与技术,2023,19(29):46-48. 被引量：2
4周志刚,窦路遥,李毅.专利视域下融合协同过滤与链路预测的企业潜在合作关系预测研究[J].情报杂志,2023,42(12):144-152. 被引量：1
5王丽丽,冯逸飞,李东方,王温,王伟忠.知识图谱在特种医学研究中的应用[J].海军军医大学学报,2024,45(1):106-112.
6黄运聪,窦路遥,周志刚,任泰锋.招聘市场中MLIS在职人员掌握技能的组合分析与对应岗位的匹配研究[J].图书情报导刊,2023,8(11):41-54.
7罗宝仪,张博.社交媒体环境下危机事件网络舆情研究综述[J].新媒体研究,2023,9(19):12-17.
8杨益兴,吴刚,陈兰芳,郭茜.基于LDA主题模型的多阶段生鲜消费者需求研究——以京东为例[J].管理案例研究与评论,2024,17(1):105-122.
9唐荻音,丁奕州,王轩,赖李媛君,于劲松.知识图谱技术在预测与健康管理中的应用现状与研究展望[J].电光与控制,2024,31(2):1-11. 被引量：1
10张志高,管晓晨,刘畅,李明,徐瑞,杨应福,唐孝舟.基于复杂网络理论的机组精益化管控评价体系研究[J].水电与新能源,2024,38(2):5-8.

1张文轩,殷雁君.基于依存树增强注意力模型的方面级情感分析[J].计算机应用研究,2022,39(6):1656-1662. 被引量：3
2江静,陈渝,孙界平,琚生根.融合后验概率校准训练的文本分类算法[J].计算机应用,2022,42(6):1789-1795.
3张新,付中华.鲁棒的特定人语音分离算法[J].计算机应用研究,2022,39(6):1749-1752.
4陈启明,王效岳,白如江,杜清玲.多源数据融合下突发公共事件社会关注与政策趋向研究--以新冠肺炎疫情为例[J].情报探索,2022(6):15-25. 被引量：6
5李振权,李功燕.基于卷积通道剪枝与多任务的脐橙分级算法[J].计算机应用与软件,2022,39(5):220-224. 被引量：2
6韩金辉,魏艳涛,彭真明,赵骞,陈耀弘,覃尧,李楠.红外弱小目标检测方法综述[J].红外与激光工程,2022,51(4):428-451. 被引量：16
7陶永才,吴文乐,石磊,卫琳.基于注意力机制与情感的多通道RCNN和ON-LSTM模型[J].小型微型计算机系统,2022,43(7):1406-1412. 被引量：1
8腊志垚,钱育蓉,冷洪勇,顾天宇,张继元,李自臣.基于随机游走的图嵌入研究综述[J].计算机工程与应用,2022,58(13):1-13. 被引量：7
9潘慧萍,李宝安,张乐,吕学强.基于多特征融合的政府工作报告关键词提取研究[J].数据分析与知识发现,2022,6(5):54-63. 被引量：2
10滕婕,胡广伟,王婷.基于动态语义依赖关系网的社会诉求主题识别与演化路径分析[J].情报资料工作,2022,43(3):20-33. 被引量：2

计算机工程与应用

2022年第13期

浏览历史

内容加载中请稍等...

结合LDA与Word2vec的文本语义增强方法被引量：22

参考文献8

二级参考文献54

共引文献93

同被引文献326

引证文献22

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

结合LDA与Word2vec的文本语义增强方法 被引量：22

参考文献8

二级参考文献54

共引文献93

同被引文献326

引证文献22

二级引证文献23

相关作者

相关机构

相关主题

浏览历史

结合LDA与Word2vec的文本语义增强方法被引量：22