融合密度峰值与局部特征的大数据情感分析被引量：3

Big Data Sentiment Analysis Based on Fusion of Peak Density and Local Features

下载PDF

导出

摘要针对现有大数据情感分析方法普遍存在分类不准、效率不高、结果片面等现象,提出了融合密度峰值与局部特征提取分类方法。考虑到大数据场景中情感分析的参量复杂度,设计了局部优化密度峰值聚类对原始数据进行分簇操作,通过区域分割与独立聚类实现并行计算,最终将所有区域输出合并得到全局聚类结果。对于区域分割产生的分簇交集,采取边界扩展,利用高斯核优化密度计算,同时根据密度与距离乘积实时调整门限,使聚类中心能够实现自适应调节。基于聚类结果,设计了局部优化文本特征提取,利用BiLSTM-CNN提取文本词汇与句子特征,并对其采取融合处理,再利用CNN提取的语义局部特征纠正结果,从而使提取的文本特征最接近上下文语义。基于COAE2014数据集的仿真,分别从ARI、Precision、Recall、F1-measure,以及时间指标方面,验证了融合密度峰值与局部特征提取分类方法具有与实际更吻合的聚类性能,显著提高了大数据情感分析的准确性与全面性,且有效提升了大数据应用场景下的实时性。 The existing big data sentiment analysis is generally characterized by inaccurate classification, low efficiency, and one-sided results. For this reason, a classification method based on fusion density peak and local feature extraction was proposed. Considering the parameter complexity of sentiment analysis in big data scenarios, a local optimized density peak clustering was designed to cluster the original data, parallel computing was realized by region segmentation and independent clustering. Finally, the global clustering results were obtained by combining the output of all regions. For the cluster intersection generated by region segmentation, boundary extension was adopted, Gaussian kernel was used to optimize the density calculation, and the threshold was adjusted in real-time according to the product of density and distance so that the cluster center could be adjusted adaptively. Based on the clustering results, the local optimization of text feature extraction was designed, BiLSTM-CNN was used to extract the features of words and sentences, and the fusion processing was adopted. Then, the local semantic features extracted by CNN were used to correct the results, so that the extracted text features were closest to the context semantics. Simulation experiments were based on the COAE2014 dataset. From the aspects of ARI, Precision, Recall, F1-measure, and time index, it is verified that the fusion of density peak and local feature extraction classification method has better clustering performance than the actual one. It significantly improves the accuracy and comprehensiveness of big data sentiment analysis. And it effectively improves the real-time performance of big data application scenarios.

作者孟祥光郭东伟 MENG Xiang-guang;GUO Dong-wei(College of Software,Jilin University,Changchun Jilin 130021,China)

机构地区吉林大学软件学院

出处《计算机仿真》北大核心 2021年第6期238-241,414,共5页 Computer Simulation

基金教育部产学合作协同育人项目(201702001013)。

关键词文本大数据情感分析密度峰值区域分割局部特征提取 Text big data Sentiment analysis Density peak Region segmentation Local feature extraction

分类号 TP389.1 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献8

1张月梅,刘媛华.基于K近邻和随机森林的情感分类研究[J].计算机与数字工程,2020,48(2):367-371. 被引量：8
2李高翡,张洋,杨新凯,毛颖颖.基于集成学习的文本情感分析研究[J].计算机应用研究,2020,37(S01):50-51. 被引量：2
3杨飞,吴颖丹,王鑫颖.基于基础词典扩展的中文酒店评论情感分析[J].湖北工业大学学报,2019,34(1):107-110. 被引量：6
4赵亚欧,张家重,李贻斌,付宪瑞,生伟.融合基于语言模型的词嵌入和多尺度卷积神经网络的情感分析[J].计算机应用,2020,40(3):651-657. 被引量：26
5石磊,张鑫倩,陶永才,卫琳.结合自注意力机制和Tree-LSTM的情感分析模型[J].小型微型计算机系统,2019,40(7):1486-1490. 被引量：22
6翟社平,杨媛媛,邱程,李婧,毋志云.基于注意力机制Bi-LSTM算法的双语文本情感分析[J].计算机应用与软件,2019,36(12):251-255. 被引量：19
7陈俊芬,张明,赵佳成.复杂高维数据的密度峰值快速搜索聚类算法[J].计算机科学,2020,47(3):79-86. 被引量：13
8许红龙,唐颂,毛睿,陈国良,刘刚.改进密度峰值支撑点选取及其在度量空间离群检测的应用[J].小型微型计算机系统,2017,38(5):983-987. 被引量：3

二级参考文献38

1唐慧丰,谭松波,程学旗.基于监督学习的中文情感分类技术比较研究[J].中文信息学报,2007,21(6):88-94. 被引量：136
2徐军,丁宇新,王晓龙.使用机器学习方法进行新闻的情感自动分类[J].中文信息学报,2007,21(6):95-100. 被引量：107
3樊娜,蔡皖东,赵煜.基于最大熵模型的观点句主观关系提取[J].计算机工程,2010,36(2):4-6. 被引量：16
4谢丽星,周明,孙茂松.基于层次结构的多策略中文微博情感分析和特征抽取[J].中文信息学报,2012,26(1):73-83. 被引量：198
5孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1):146-169. 被引量：2378
6杨立公,朱俭,汤世平.文本情感分析综述[J].计算机应用,2013,33(6):1574-1578. 被引量：119
7王洪伟,郑丽娟,尹裴,何绍义.基于句子级情感的中文网络评论的情感极性分类[J].管理科学学报,2013,16(9):64-74. 被引量：26
8周剑峰,阳爱民,周咏梅.基于中文微博的情感词典构建及分类方法[J].计算机与数字工程,2014,42(10):1773-1776. 被引量：6
9肖江,丁星,何荣杰.基于领域情感词典的中文微博情感分析[J].电子设计工程,2015,23(12):18-21. 被引量：20
10梁亚伟.基于表情词典的中文微博情感分析模型研究[J].现代计算机,2015,21(14):7-10. 被引量：4

共引文献90

1丁美荣,冯伟森,黄荣翔,罗嘉俊.基于预训练模型和基础词典扩展的酒店评论情感分析[J].计算机系统应用,2022,31(11):296-308. 被引量：4
2张剑,张立杰.新时代媒体舆论引导下网络语言信息传播耗损及构建研究[J].情报科学,2022,40(8):71-75.
3李高翡,张洋,杨新凯,毛颖颖.基于集成学习的文本情感分析研究[J].计算机应用研究,2020,37(S01):50-51. 被引量：2
4王利,唐宗山,黄宗干.血栓性血小板减少性紫癜1例[J].重庆医科大学学报,2000,25(2):214-214.
5朱南阳,吴昊,尹达恒,王志强,蒋永年,郭亚.基于长短时记忆网络(LSTM)的蟹塘溶解氧估算优化方法[J].智慧农业,2019,1(3):67-76. 被引量：8
6叶福兰.基于离群点检测的不确定数据流聚类算法研究[J].中国电子科学研究院学报,2019,14(10):1094-1099. 被引量：12
7赵亚欧,张家重,李贻斌,付宪瑞,生伟.融合基于语言模型的词嵌入和多尺度卷积神经网络的情感分析[J].计算机应用,2020,40(3):651-657. 被引量：26
8陈盼,钱宇星,黄智生,赵超,刘忠纯,杨冰香,杨芳,张晓丽.微博“树洞”留言的负性情绪特征分析[J].中国心理卫生杂志,2020,34(5):437-444. 被引量：10
9曾祥利,马洁,朱云平,舒坤贤.基于Attention Bi-LSTM模型构建蛋白质诱饵序列库[J].重庆邮电大学学报（自然科学版）,2020,32(4):655-663. 被引量：2
10陈亚茹,陈世平.融合自注意力机制和BiGRU网络的微博情感分析模型[J].小型微型计算机系统,2020,41(8):1590-1595. 被引量：11

同被引文献27

1李明超,张寿明.基于Bert-A-BiR神经网络的文本情感分类模型[J].电视技术,2021,45(10):116-119. 被引量：2
2李媛媛.论群体意识形态对我国主流意识建设的影响[J].学术探索,2013(1):54-56. 被引量：2
3程思琪,喻国明.情感体验:一种促进媒体消费的新动力——试论过剩传播时代的新传播范式[J].编辑之友,2020(5):32-37. 被引量：38
4张晶晶,梁啸岳,陈伊笛,陈庆荣.音乐句法加工的认知机制与音乐结构的影响模式[J].心理科学进展,2020,28(6):883-892. 被引量：3
5邓君,孙绍丹,王阮,宋先智,李贺.基于Word2Vec和SVM的微博舆情情感演化分析[J].情报理论与实践,2020,43(8):112-119. 被引量：50
6原福永,常艳鹏,刘宏阳,雷瑜,黄国言.联合BiLSTM和CNN的评论文本情感分类模型[J].燕山大学学报,2020,44(5):502-507. 被引量：5
7程艳,尧磊波,张光河,唐天伟,项国雄,陈豪迈,冯悦,蔡壮.基于注意力机制的多通道CNN和BiGRU的文本情感倾向性分析[J].计算机研究与发展,2020,57(12):2583-2595. 被引量：43
8刘慧清,郭延哺,李维华.基于贝叶斯网的跨领域情感分析方法[J].计算机应用与软件,2020,37(12):119-126. 被引量：4
9杨雪寒,焦玮,张倩,孟洁.面向医院网络舆情分析的情感文本挖掘[J].微型电脑应用,2020,36(12):31-34. 被引量：4
10张洋,胡燕.基于多通道深度学习网络的混合语言短文本情感分类方法[J].计算机应用研究,2021,38(1):69-74. 被引量：9

引证文献3

1李胤丞,刘继.基于注意力机制和双通道神经网络的文本情感分析[J].信息技术与信息化,2023(12):71-74. 被引量：1
2刘丹.基于CNN-LSTM的社交媒体大数据评论文本情感元自动识别方法[J].微型电脑应用,2024,40(4):195-197.
3王丹丹.提升红色档案类短视频传播效果和教育意义的思维模式研究[J].兰台世界,2024(7):59-61.

二级引证文献1

1田梦影,时维.在线医药电商评论情感分析——基于XGBoost集成加权词向量和大语言模型的情感识别模型[J].科技和产业,2024,24(9):128-135.

1文周,谢宾,邓映峰.基于KPI的高职包装专业实践教学质量评价体系构建[J].中国包装,2021,41(5):40-43.
2秦继芳.测绘工程中应用无人机遥感技术的具体分析[J].门窗,2020(10):37-38.
3黄学雨,程世超.KNN优化的密度峰值聚类算法[J].通信技术,2021,54(7):1608-1618. 被引量：6
4米括.汉语短语的手语表达[J].文学少年,2021(18):0039-0040.
5刘小旭,张振鹏.数字化转型下城市阅读空间的创新发展[J].出版广角,2021(12):20-22. 被引量：1

计算机仿真

2021年第6期

浏览历史

内容加载中请稍等...

融合密度峰值与局部特征的大数据情感分析被引量：3

参考文献8

二级参考文献38

共引文献90

同被引文献27

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

融合密度峰值与局部特征的大数据情感分析 被引量：3

参考文献8

二级参考文献38

共引文献90

同被引文献27

引证文献3

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

融合密度峰值与局部特征的大数据情感分析被引量：3