Spark在集成学习文本情感分析中的应用被引量：3

SPARK S APPLICATION IN TEXT EMOTIONAL ANALYSIS OF ENSEMBLE LEARNING

下载PDF

导出

摘要针对使用集成学习方法进行大规模文本情感分析实验中计算时间瓶颈的问题,提出基于Spark平台的集成学习模型并行化算法。使用三个数量级的文本进行集成学习的对比实验。结果表明,该算法大幅缩短了文本分类时间,F-score等相关评价指标与单机版本接近,且算法的可拓展性良好,大幅降低了模型优化和调参的时间成本。 Aiming at the problem of computing time bottleneck in large-scale text emotional analysis experiments using ensemble learning,this paper proposes a parallel algorithm of ensemble learning model based on Spark platform.Three order of magnitude texts were used to conduct a comparative experiment of ensemble learning.Experiments show that our algorithm greatly shortens the time of text categorization,and F-score and other related evaluation indicators are close to the single version.And it also has good extensibility,which greatly reduces the time cost of model optimization and parameter adjustment.

作者杨立月王移芝 Yang Liyue;Wang Yizhi(College of Computer and Information Technology,Beijing Jiaotong University,Beijing 100044,China)

机构地区北京交通大学计算机与信息技术学院

出处《计算机应用与软件》北大核心 2020年第6期130-134,共5页 Computer Applications and Software

关键词 SPARK 分布式计算模型并行化集成学习文本情感分析 Spark Distributed computing Parallelization of models Ensemble learning Text emotional analysis

分类号 TP3 [自动化与计算机技术—计算机科学与技术]

引文网络
相关文献

参考文献10

1李明峰,贾修一.基于多分类器集成学习的中文反语识别技术[J].计算机与数字工程,2018,46(9):1790-1795. 被引量：6
2孙建旺,吕学强,张雷瀚.基于词典与机器学习的中文微博情感分析研究[J].计算机应用与软件,2014,31(7):177-181. 被引量：50
3冯贵兰,周文刚.基于Spark平台的并行KNN异常检测算法[J].计算机科学,2018,45(B11):349-352. 被引量：9
4于玲,吴铁军.集成学习:Boosting算法综述[J].模式识别与人工智能,2004,17(1):52-59. 被引量：86
5李然,林政,林海伦,王伟平,孟丹.文本情绪分析综述[J].计算机研究与发展,2018,55(1):30-52. 被引量：100
6Guohua Xi,Xibin Zhao,Yan Liu,Jin Huang,Yangdong Deng.A Hierarchical Ensemble Learning Framework for Energy-Efficient Automatic Train Driving[J].Tsinghua Science and Technology,2019,24(2):226-237. 被引量：3
7焦嘉烽,李云.大数据下的典型机器学习平台综述[J].计算机应用,2017,37(11):3039-3047. 被引量：33
8邢长征,李珊.文本情感分析的深度学习方法[J].计算机应用与软件,2018,35(8):102-106. 被引量：16
9刘磊,李学勇,黄永峰.基于集成学习的情感模糊计算分类方法[J].计算机工程与设计,2018,39(7):1872-1876. 被引量：5
10赵志滨,刘欢,姚兰,于戈.中文产品评论的维度挖掘及情感分析技术研究[J].计算机科学与探索,2018,12(3):341-349. 被引量：18

二级参考文献109

1王庆先,孙世新,尚明生,刘宴兵.并行计算模型研究[J].计算机科学,2004,31(9):128-131. 被引量：6
2刘正光.反语理论综述[J].解放军外国语学院学报,2002,25(4):16-20. 被引量：36
3王欢,都志辉.并行计算模型对比分析[J].计算机科学,2005,32(12):142-145. 被引量：7
4林传鼎,无.社会主义心理学中的情绪问题——在中国社会心理学研究会成立大会上的报告(摘要)[J].社会心理科学,2006,21(1):37-37. 被引量：15
5赵积春,王志良,王超.情绪建模与情感虚拟人研究[J].计算机工程,2007,33(1):212-215. 被引量：11
6李玉生,侯忠生.基于遗传算法的列车节能控制研究[J].系统仿真学报,2007,19(2):384-387. 被引量：34
7GuoG D, Zhang H J. Boosting for Fast Face Recognition. In: Proc of 2nd International Workshop on Recognition, Analysis and Tracking of Faces and Gestures in Real-Time Systems. Vancouver, Canada, 2001, 96- 100.
8Abney S, Schapire R E, Singer Y. Boosting Applied to Tagging and PP Attachment. ln: Proc of the Joint SIGDAT Conference on Empirical Methods in Natural Language Processing and Very Large Corpora. New Brunswick, NJ, 1999, 38-45.
9Rochery M, Schapire R E, Rahim M, Gupta N. BoosTexter for Text Categorization in Spoken Language Dialogue. In: Autmmtic Speech Recognition and Understanding Workshop. Madonna di Campiglio Trento, Italy, 2001. Available at http://www, cs.princeton, edu/-schapire/publist, html.
10Rochery M, Schapire R, Rahim M, Gupta N, Riceardi G, Bangalore S, Alshawi H, Douglas S. Combining Prior Knowledge and Boosting for Call Class~flcat~on in Spoken Language DiaLogue. In:Proc of International Conference on Aceousties, Speech and Signal. Orlando, Florida. 2002. Available at http://www, cs/princetonedu/-schapire/whatsnew. html.

共引文献312

1陈欣,杨小兵,姚雨虹.基于BLSTM算法和字词融合的文本情感分类方法[J].中国计量大学学报,2020(2):225-232. 被引量：3
2王龙达,王兴成,刘罡,徐传芳.城市轨道列车速度曲线预测函数控制改进算法[J].仪器仪表学报,2022,43(2):273-283. 被引量：6
3李翔宇.体育热点事件中网络情绪的表达特征与归因分析[J].新闻前哨,2023(3):35-37.
4蔡莉,王淑婷,刘俊晖,朱扬勇.数据标注研究综述[J].软件学报,2020,31(2):302-320. 被引量：59
5王若明.浅谈代价敏感学习[J].网络安全技术与应用,2020(3):52-54.
6包乾辉,李佳利,石淑珍,戴引,刘雪.基于DSLML的鸡蛋消费在线评论情感分析[J].农业机械学报,2021,52(S01):496-503. 被引量：5
7吴早阳,李丹宁,西成峰,崔耀.基于PSO-GBDT综采工作面初次来压预测研究[J].煤炭科学技术,2022,50(S02):7-15. 被引量：1
8程艳,朱海,项国雄,唐天伟,钟林辉,王国玮.融合CNN和EWC算法的不平衡文本情绪分类方法[J].中文信息学报,2020(4):92-100. 被引量：5
9张旭,王旭强,杨青,王扬.面向文本的结构——内容联合表示学习模型[J].计算机应用研究,2020,37(S01):66-68.
10相德宝,覃安琪.信任与期待:国际社交媒体推特上的上海城市情绪研究[J].中华文化与传播研究,2022(2):57-72.

同被引文献27

1李婉华,陈羽中,郭昆,郭松荣,刘漳辉.基于改进粒子群优化的并行极限学习机[J].模式识别与人工智能,2016,29(9):840-849. 被引量：11
2文武,乔龙辉,何鹏.基于自适应差分进化极限学习机的车牌识别算法[J].电子技术应用,2017,43(1):133-136. 被引量：8
3梁俊荣.基于Hadoop的图书馆复合大数据存储系统研究[J].现代情报,2017,37(2):63-67. 被引量：14
4徐保鑫,怀丽波,崔荣一.基于MapReduce的朴素贝叶斯算法在新闻分类中的应用[J].延边大学学报（自然科学版）,2017,43(1):55-59. 被引量：4
5李鹏鹏,范会敏.文本分类中特征权重算法改进研究[J].计算机与现代化,2018(2):66-70. 被引量：5
6宋维维,夏绍模,李赞.基于SPARK大数据处理平台的图书馆智慧服务探索与实践[J].情报科学,2018,36(6):45-49. 被引量：20
7周靖楠,刘振男.基于自适应差分进化算法优化极限学习机的干旱预测方法[J].水电能源科学,2018,36(6):6-9. 被引量：7
8吴信东,嵇圣硙.MapReduce与Spark用于大数据分析之比较[J].软件学报,2018,29(6):1770-1791. 被引量：77
9胡函武,施伟,陈桥,李凯.基于改进差分进化算法优化极限学习机的短期负荷预测[J].宁夏电力,2018(4):36-42. 被引量：1
10赵坤,覃锡忠,贾振红.采用改进的布谷鸟算法优化极限学习机[J].计算机仿真,2018,35(11):236-241. 被引量：9

引证文献3

1张晨跃,刘黎志,邓开巍,刘杰.基于MapReduce的朴素贝叶斯算法文本分类方法[J].武汉工程大学学报,2021,43(1):102-105. 被引量：6
2杨敏,刘黎志,邓开巍,刘杰.基于Spark的自适应差分进化极限学习机研究[J].武汉工程大学学报,2021,43(3):318-323. 被引量：4
3戴宏亮,钟国金,游志铭,戴宏明.基于Spark的舆情情感大数据分析集成方法[J].计算机科学,2021,48(9):118-124. 被引量：12

二级引证文献22

1邹统钎,李艳,王怡宁.国家文化公园视域下长江精神价值诠释与传播研究[J].中华文化与传播研究,2023(1):86-96. 被引量：1
2邵欣欣.改进的贝叶斯算法在商品分类中的应用研究[J].软件工程,2021,24(7):28-30. 被引量：1
3于营,杨婷婷,杨博雄.混淆矩阵分类性能评价及Python实现[J].现代计算机,2021,27(20):70-73. 被引量：22
4戴振邦,江恩杰,刘力嘉,甘江伟.基于分布式管道模式的管道服务框架设计与实现[J].现代信息科技,2021,5(7):44-49.
5王浩.基于深度学习的情感分析系统设计[J].信息与电脑,2021,33(19):80-82.
6胡艳丽,童谭骞,张啸宇,彭娟.融入自注意力机制的深度学习情感分析方法[J].计算机科学,2022,49(1):252-258. 被引量：15
7崔希,刘首明.基于朴素贝叶斯算法的智能电厂监控夜间视频人脸识别方法[J].电子测试,2021,32(24):44-46. 被引量：3
8赵玉琢,张延迟(指导).电网公司针对互联网企业投建光伏电站的应对策略[J].上海电机学院学报,2022,25(1):25-32.
9蔡宇翔,王佳斌,郑天华.Spark 平台下基于加权词向量的文本分类方法[J].现代计算机,2022,28(3):25-30.
10贺丽,张哲,黄林竹.大数据技术在公路治超管理平台中的应用探究[J].电脑知识与技术,2022,18(19):20-21.

1徐龙.基于自注意力和胶囊网络的短文本情感分析[J].计算机与现代化,2020,0(7):61-64. 被引量：2
2蔚敏洁,刘加海.基于表情符号和文本情感倾向分析[J].计算机产品与流通,2020,0(8):232-232. 被引量：3
3释小松,程英蕾,薛豆豆,秦先祥.基于Point-Net的多源融合点云地物分类方法[J].激光与光电子学进展,2020,57(8):170-178. 被引量：16
4段友祥,赵云山,马存飞,姜文煊.基于多层集成学习的岩性识别方法[J].数据采集与处理,2020,35(3):572-581. 被引量：5
5徐震浩,周畅,张凌波,顾幸生.柔性作业车间的成套订单调度问题[J].华东理工大学学报（自然科学版）,2020,46(1):58-67. 被引量：2
6刘秉政,牛智毅.基于无线射频识别的手术器械自适应分类仿真[J].计算机仿真,2020,37(5):367-370.
7李浩,朱焱.基于梯度分布调节策略的Xgboost算法优化[J].计算机应用,2020,40(6):1633-1637. 被引量：8
8杨挺,王双双,盆海波,王兆霞.基于改进SOM的壁画图像裂缝自动识别与修复[J].天津大学学报（自然科学与工程技术版）,2020,53(9):932-938. 被引量：7
9马武彬,王锐,吴亚辉,邓苏.基于改进NSGA-Ⅲ的文本空间树聚类算法[J].华中科技大学学报（自然科学版）,2020,48(5):86-92. 被引量：6

计算机应用与软件

2020年第6期

浏览历史

内容加载中请稍等...

Spark在集成学习文本情感分析中的应用被引量：3

参考文献10

二级参考文献109

共引文献312

同被引文献27

引证文献3

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

Spark在集成学习文本情感分析中的应用 被引量：3

参考文献10

二级参考文献109

共引文献312

同被引文献27

引证文献3

二级引证文献22

相关作者

相关机构

相关主题

浏览历史

Spark在集成学习文本情感分析中的应用被引量：3