基于LDA主题模型的情感分析研究被引量：5

Research of Emotional Analysis Based on LDA Topic Model

下载PDF

导出

摘要 LDA主题模型在提取特征时缺乏对词语关联及相关词对的理解,这会影响情感极性分类的准确率。针对这一问题,文中提出一种在LDA主题模型中引入特征情感词对抽取方法的新模型,以改善特征情感词对的抽取效果。利用依存句法分析设计特征情感词对的识别方法,随后将识别方法作为约束条件引入LDA模型对特征情感词对进行抽取。通过吉布斯采样进行参数计算,给出了模型的生成过程。最后利用随机森林分类方法对文本进行情感极性分类。为验证文中模型的有效性,将其和另外两种模型一起进行实验,当主题个数为20时,文中所提模型分类的准确率、召回率、F值分别为81.54%、83.13%和82.33%,显著高于另外两种模型。 LDA topic model lacks understanding of word association and related word pairs when extracting features,which affects the precision of emotional polarity classification.Aiming at this problem,this paper proposed a new model to introduce the feature-opinion pair extraction method in the LDA topic model to improve the extraction effect of the feature opinion pairs.Dependency parsing was used to design feature affective word pairs recognition methods of characteristic affective word pairs.Then the recognition method was introduced as a constraint condition into the LDA model to extract the feature sentiment word pairs.The parameters were calculated by Gibbs sampling,and the generation process of the model was proposed.Finally,the emotional polarity of the text was classified using the random forest classification method.In order to verify the validity of the proposed model,the experiment was carried out together with the other two models.When the number of subject was 20,the results showed that the precision,recall and F-Measure were 81.54%、83.13% and 82.33%,which were significantly higher than the other two models.

作者刘艳文魏赟 LIU Yanwen;WEI Yun(School of Optical-Electrical and Computer Engineering,University of Shanghai for Science and Technology,Shanghai 20009,China)

机构地区上海理工大学光电信息与计算机工程学院

出处《电子科技》 2020年第7期12-16,26,共6页 Electronic Science and Technology

基金国家自然科学基金(1170277,61472256) 上海市科委科研计划项目(16111107502)。

关键词产品评论情感分析依存句法特征抽取 LDA主题模型随机森林算法 product reviews sentiment analysis dependency syntax feature extraction LDA topic model random forest algorithm

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献12

1王伟,周咏梅,阳爱民,周剑峰,林江豪.一种基于LDA主题模型的评论文本情感分类方法[J].数据采集与处理,2017,32(3):629-635. 被引量：7
2马勋,周长胜,吕学强,周建设.基于SAO结构的非分类关系抽取研究[J].计算机工程与应用,2018,54(8):220-225. 被引量：7
3何明,要凯升,杨芃,张久伶.基于标签信息特征相似性的协同过滤个性化推荐[J].计算机科学,2018,45(B06):415-422. 被引量：12
4熊蜀峰,姬东鸿.面向产品评论分析的短文本情感主题模型[J].自动化学报,2016,42(8):1227-1237. 被引量：19
5卿勇,刘梦娟,薛浩,刘冰冰,秦志光.OPEN:一个基于评论的商品特征抽取及情感分析框架[J].计算机应用与软件,2018,35(1):65-71. 被引量：5
6冯靖,莫秀良,王春东.基于LDA改进的K-means算法在短文本聚类中的研究[J].天津理工大学学报,2018,34(3):7-11. 被引量：6
7张志远,杨宏敬,赵越.基于吉布斯采样结果的主题文本网络构建方法[J].计算机工程,2017,34(6):150-157. 被引量：5
8李湘东,廖香鹏,黄莉.LDA模型下书目信息分类系统的研究与实现[J].现代图书情报技术,2014(5):18-25. 被引量：12
9杨荣根,杨忠.基于HMM中文词性标注研究[J].金陵科技学院学报,2017,33(1):20-23. 被引量：3
10王洪伟,宋媛,杜战其,郑丽娟,华瑾,张艺伟.基于在线评论情感分析的快递服务质量评价[J].北京工业大学学报,2017,43(3):402-412. 被引量：25

二级参考文献117

1张桂宾.相对程度副词与绝对程度副词[J].华东师范大学学报（哲学社会科学版）,1997,29(2):92-96. 被引量：78
2朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
3耿焕同,蔡庆生,于琨,赵鹏.一种基于词共现图的文档主题词自动抽取方法[J].南京大学学报（自然科学版）,2006,42(2):156-162. 被引量：30
4杜小勇,李曼,王珊.本体学习研究综述[J].软件学报,2006,17(9):1837-1847. 被引量：241
5Deerwester S, Dumais S, Furnas G W, et al. Indexing by Latent Semantic Analysis[J]. Journal of the American Society for Information Science, 1990, 41(6): 391-407.
6Hofmann T. Prnbabilistie Latent Semantic Indexing [C]. In: Proceedings of the 22nd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval, California, United States. New York: ACM, 1999: 50-57.
7Blei D M, Ng A Y, Jordan M I. Latent Dirichlet Allocation[J]. Journal of Machine Learning Research, 2003, 3: 993-1022.
8Phan X, Nguyen M, Horiguchi S. Learning to Classify Short and Sparse Text & Web with Hidden Topics from Large-scale Data Collections [C]. In: Proceedings of the 17th Conference on World Wide Web. New York: ACM, 2008: 91-100.
9Dempster A P, Laird N M, Rubin D B. Maximum Likelihood from Incomplete Data via the EM Algorithm[J]. Journal of the Royal Statistical Society, 1977, 39(1): 1-38.
10Griffiths T L, Steyvers M. Finding Scientific Topics[J].PNAS, 2004, 101(SI): 5228-5235.

共引文献117

1吕璐成,罗文馨,许景龙,王莉莉,马丽婧,赵亚娟.专利情报方法、工具、应用研究进展及新技术应用趋势[J].情报学进展,2020(1):235-278. 被引量：9
2王晓蜀.快递服务质量与用户支付意愿关系研究——基于新疆快递用户选择实验的分析[J].价格理论与实践,2019(9):141-144. 被引量：2
3张豪杰,毛建华.基于自注意力模型的企业关系抽取[J].电子测量技术,2020,43(10):101-105. 被引量：3
4康静涵.入情入境感悟运用——《颐和园》一课教学谈[J].小学语文教学,2000(7):106-107.
5赵杨,李齐齐,陈雨涵,曹文航.基于在线评论情感分析的海淘APP用户满意度研究[J].数据分析与知识发现,2018,2(11):19-27. 被引量：39
6李贺,祝琳琳,闫敏,刘金承,洪闯.开放式创新社区用户信息有用性识别研究[J].数据分析与知识发现,2018,2(12):12-22. 被引量：8
7佟瑞鹏,梁明添,李春旭.《中国安全科学学报》载文特点及研究主题变化分析[J].中国安全科学学报,2016,26(1):8-14. 被引量：14
8杨海霞,高宝俊,孙含林.基于LDA挖掘计算机科学文献的研究主题[J].现代图书情报技术,2016(11):20-26. 被引量：18
9杨萌萌,黄浩,程露红,马平,包武杰.基于LDA主题模型的短文本分类[J].计算机工程与设计,2016,37(12):3371-3377. 被引量：19
10谢珺,郝洁,苏婧琼,邹雪君,李思宇.一种针对短文本的主题情感混合模型[J].中文信息学报,2017,31(1):162-168. 被引量：4

同被引文献48

1郑恒毅,廖城霖,李天柱.一种面向网络长文本的话题检测方法[J].工程科学学报,2019,41(9):1208-1214. 被引量：7
2刘友波,刘洋,刘俊勇,李勇,刘挺坚,刁塑.基于Hadoop架构的电力系统连锁故障分布式计算技术[J].电力系统自动化,2016,40(7):90-97. 被引量：13
3姚兆旭,马静.面向微博话题的“主题+观点”词条抽取算法研究[J].现代图书情报技术,2016(7):78-86. 被引量：6
4宋杰,孙宗哲,毛克明,鲍玉斌,于戈.MapReduce大数据处理平台与算法研究进展[J].软件学报,2017,28(3):514-543. 被引量：95
5夏天.词向量聚类加权TextRank的关键词抽取[J].数据分析与知识发现,2017,1(2):28-34. 被引量：60
6夏洪涛,施永益,宋国超.Apriori改进算法及其在电网运营数据关联性测算研究[J].电力科技与环保,2017,33(6):58-60. 被引量：1
7熊回香,叶佳鑫.基于LDA主题模型的微博标签生成研究[J].情报科学,2018,36(10):7-12. 被引量：21
8刘甲学,陶易.基于情感分析的评论数据用户满意度影响因素研究[J].现代情报,2017,37(7):66-69. 被引量：11
9肖文,胡娟,周晓峰.基于MapReduce计算模型的并行关联规则挖掘算法研究综述[J].计算机应用研究,2018,35(1):13-23. 被引量：46
10刘玉林,菅利荣.基于文本情感分析的电商在线评论数据挖掘[J].统计与信息论坛,2018,33(12):119-124. 被引量：43

引证文献5

1张腾岳.改进的LDA文档主题模型的实现[J].延安大学学报（自然科学版）,2019,38(4):33-37. 被引量：1
2何传鹏,尹玲,黄勃,王明胜,郭茹燕,张帅,巨家骥.基于BERT和LightGBM的文本关键词提取方法[J].电子科技,2023,36(3):7-13. 被引量：4
3全龙翔,王茜璇,艾力·海如拉.基于云存储与智能分析的电网运营数据处理系统[J].电子设计工程,2023,31(10):79-82. 被引量：1
4景思岚.美妆品牌顾客情感分析——基于电商在线评论的文本挖掘[J].环渤海经济瞭望,2023(6):61-63.
5高晓梅,张永红.基于集成深度学习的培养评估大数据分析与跟踪算法[J].电子设计工程,2023,31(21):51-55. 被引量：1

二级引证文献7

1王啸楠,尹辉平.基于自然语言处理的高校舆情情感倾向分析模型的研究[J].鞍山师范学院学报,2020,22(4):40-44. 被引量：1
2杜新宇,吴俊杰.基于改进的长短期记忆网络模型的电商评论关键词提取[J].信息记录材料,2022,23(8):156-158.
3马晓亮,刘英,杜德泉,安玲玲.运营商智能客服的关键技术和发展趋势[J].电信科学,2023,39(5):76-89.
4兰晓芳,刘卓,许志豪,肖毅.基于TF-IDF和TextRank结合的中文文本关键词提取方法——以体育新闻为例[J].软件工程,2023,26(8):6-10. 被引量：2
5张冠东,姜荣.基于Renyi熵的文本情感分析[J].微型电脑应用,2023,39(12):16-18.
6付晖,王艳飞.深度学习在电力通信数据分析与预测中的应用研究[J].信息与电脑,2023,35(23):184-186.
7董威振.基于云计算的大数据处理与存储系统的设计与实现[J].移动信息,2024,46(5):289-291.

1沈卓,李艳.基于PreLM-FT细粒度情感分析的餐饮业用户评论挖掘[J].数据分析与知识发现,2020,4(4):63-71. 被引量：12
2尹隽,彭艳红,刘鹏,葛世伦.基于信息接受模型的在线评论有用性影响因素研究[J].江苏科技大学学报（自然科学版）,2020,34(3):69-78. 被引量：4
3冯雷,李龙飞.基于BIM的数字样板技术在工程实践中的应用[J].建筑施工,2020,42(6):1049-1051. 被引量：1
4李岩,刘志辉,高影繁.面向科研人员兴趣画像的多语作者主题模型研究[J].情报学报,2020,39(6):601-608. 被引量：5
5周维,陈听海,邱宝鑫.引入特征重检的抗遮挡目标跟踪方法研究[J].计算机工程与应用,2020,56(11):179-184. 被引量：3
6曹丽华,潘同洋,司和勇,姜铁骝,曹兴,赵金峰.热电厂配置调峰电锅炉最佳容量确定方法[J].中国电力,2020,53(6):140-146. 被引量：11
7赵华茗,钱力,余丽.依存句法特征的科研命名实体识别算法[J].图书情报工作,2020,64(11):108-115. 被引量：6
8王晓峰,杨亚东.基于生态演化的通用智能系统结构模型研究[J].自动化学报,2020,46(5):1017-1030. 被引量：4
9吴习沫,朱广宇,张雷.安全类文章的多文本分类系统的设计与实现[J].信息技术与网络安全,2020,39(7):52-56.
10刘淇缘,卢树华,兰凌强.遮挡人脸检测方法研究进展[J].计算机工程与应用,2020,56(13):33-46. 被引量：7

电子科技

2020年第7期

浏览历史

内容加载中请稍等...

基于LDA主题模型的情感分析研究被引量：5

参考文献12

二级参考文献117

共引文献117

同被引文献48

引证文献5

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于LDA主题模型的情感分析研究 被引量：5

参考文献12

二级参考文献117

共引文献117

同被引文献48

引证文献5

二级引证文献7

相关作者

相关机构

相关主题

浏览历史

基于LDA主题模型的情感分析研究被引量：5