基于爬虫和TFIDF-NB算法的微博情感分析被引量：6

Sentiment analysis of Weibo based on TFIDF-NB algorithm

下载PDF

导出

摘要针对微博网络舆情信息量大、无规则、随机变化的特点,提出TFIDF-NB(Term Frequency Inverse Document Frequency-Naive Bayes)用于微博情感分析,设计与实现了一个基于Scrapy框架的微博评论爬虫,将某热点事件的若干条微博评论进行爬取并存进数据库,然后进行文本分割、LDA(Latent Dirichlet Allocation)主题聚类,最后使用TFIDF-NB算法进行情感分类。实验结果表明,TFIDF-NB算法平均准确率高于线性支持向量机算法和K近邻算法,在精确率和召回率方面高于K近邻算法,具有较好的情感分类效果。 In view of the large amount of public opinion information on Weibo,irregular and random changes,this paper proposes a Weibo sentiment analysis method based on TFIDF-NB(Term Frequency Inverse Document Frequency-Naive Bayes)algorithm.By coding a Weibo comment crawler based on the Scrapy framework,several Weibo comments on a hot event are crawled and stored in the database.Then text segmentation and LDA(Latent Dirichlet Allocation)topic clustering are performed.And finally the TFIDF-NB algorithm is used for sentiment classification.Experimental results show that the accuracy of the algorithm is higher than that of the standard linear Support Vector Machine algorithm and the K-Nearest Neighbor algorithm,and it is higher than the K-Nearest Neighbor algorithm in terms of accuracy and recall,and it has a better effect on sentiment classification.

作者杨戈杨麓涛 Yang Ge;Yang Lutao(Key Laboratory of Intelligent Multimedia Technology,Beijing Normal University(Zhuhai Campus),Zhuhai 519087,China;Engineering Lab on Intelligent Perception for Internet of Things(ELIP),Shenzhen Graduate School,Peking University,Shenzhen 518055,China)

机构地区北京师范大学珠海分校智能多媒体技术重点实验室北京大学深圳研究生院深圳物联网智能感知技术工程实验室

出处《电子技术应用》 2021年第4期59-62,66,共5页 Application of Electronic Technique

基金广东高校省级重大科研项目(2018KTSCX288,2019KZDXM015,2020ZDZX3058) 广东省学科建设专项(2013WYXM0122) 智能多媒体技术重点实验室(201762005) 北京师范大学珠海分校2019校级“质量工程”课程思政项目(201932)。

关键词微博舆情网络爬虫情感分类 Weibo public opinion web crawler sentiment classification

分类号 TN011 [电子电信—物理电子学] TP391.41 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献17

1魏德志,陈福集,郑小雪.基于混沌理论和改进径向基函数神经网络的网络舆情预测方法[J].物理学报,2015,64(11):44-51. 被引量：39
2潘晓英,陈柳,余慧敏,赵逸喆,肖康泞.主题爬虫技术研究综述[J].计算机应用研究,2020,37(4):961-965. 被引量：42
3方美玉,郑小林,陈德人,华艺,施艳.商品评论聚焦爬虫算法设计与实现[J].吉林大学学报（工学版）,2012,42(S1):377-381. 被引量：10
4张莉婧,曾庆涛,李业丽,孙华艳,字云飞.面向图书主题的爬虫算法研究[J].计算机科学,2017,44(B11):460-463. 被引量：6
5孟涛,王继民,闫宏飞.网页变化与增量搜集技术[J].软件学报,2006,17(5):1051-1067. 被引量：22
6郑冬冬,赵朋朋,崔志明.Deep Web爬虫研究与设计[J].清华大学学报（自然科学版）,2005,45(S1):1896-1902. 被引量：28
7侯东阳,武昊,王军锋,王明山.基于深层网络爬虫的Web地图服务发现方法[J].地理与地理信息科学,2015,31(5):10-13. 被引量：11
8赵妍妍,秦兵,刘挺.文本情感分析[J].软件学报,2010,21(8):1834-1848. 被引量：543
9李然,林政,林海伦,王伟平,孟丹.文本情绪分析综述[J].计算机研究与发展,2018,55(1):30-52. 被引量：100
10张林,钱冠群,樊卫国,华琨,张莉.轻型评论的情感分析研究[J].软件学报,2014,25(12):2790-2807. 被引量：49

二级参考文献116

1张珊,于留宝,胡长军.基于表情图片与情感词的中文微博情感分析[J].计算机科学,2012,39(S3):146-148. 被引量：55
2孟涛,闫宏飞,王继民.Web网页信息变化的时间局部性规律及其验证[J].情报学报,2005,24(4):398-406. 被引量：8
3刘燕兵,谭建龙,郭莉.可动态增删关键词的串匹配算法[J].计算机工程与应用,2005,41(35):138-140. 被引量：4
4朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
5林传鼎,无.社会主义心理学中的情绪问题——在中国社会心理学研究会成立大会上的报告(摘要)[J].社会心理科学,2006,21(1):37-37. 被引量：15
6苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
7赵积春,王志良,王超.情绪建模与情感虚拟人研究[J].计算机工程,2007,33(1):212-215. 被引量：11
8肖本贤,王晓伟,刘一福.MPSO-RBF优化策略在锅炉过热系统辨识中的仿真研究[J].系统仿真学报,2007,19(6):1382-1385. 被引量：10
9刘伟,孟小峰,孟卫一.Deep Web数据集成研究综述[J].计算机学报,2007,30(9):1475-1489. 被引量：136
10唐慧丰,谭松波,程学旗.基于监督学习的中文情感分类技术比较研究[J].中文信息学报,2007,21(6):88-94. 被引量：136

共引文献966

1陈欣,杨小兵,姚雨虹.基于BLSTM算法和字词融合的文本情感分类方法[J].中国计量大学学报,2020(2):225-232. 被引量：3
2李翔宇.体育热点事件中网络情绪的表达特征与归因分析[J].新闻前哨,2023(3):35-37.
3沈承放,莫达隆,黄文韬.网页数据采集算法及在住户调查中的应用[J].统计与决策,2021(7):52-56. 被引量：5
4蔡莉,王淑婷,刘俊晖,朱扬勇.数据标注研究综述[J].软件学报,2020,31(2):302-320. 被引量：60
5包乾辉,李佳利,石淑珍,戴引,刘雪.基于DSLML的鸡蛋消费在线评论情感分析[J].农业机械学报,2021,52(S01):496-503. 被引量：5
6王弘睿,刘畅,于东.面向人工智能伦理计算的中文道德词典构建方法研究[J].中文信息学报,2021,35(10):39-47. 被引量：3
7程艳,朱海,项国雄,唐天伟,钟林辉,王国玮.融合CNN和EWC算法的不平衡文本情绪分类方法[J].中文信息学报,2020(4):92-100. 被引量：5
8吕鹏,李蒙迪,阳厚.社会物理学:概念体系、工具范式与发展趋向[J].科学．经济．社会,2021,39(2):1-15. 被引量：2
9王昭雨,庄惟敏.情感语义视角:街区更新后评估方法应用研究[J].建筑学报,2020(S02):105-109. 被引量：19
10袁婷婷,杨文忠,仲丽君,张志豪,向进勇.基于性格的微博情感分析模型PLSTM[J].计算机应用研究,2020,37(2):342-346. 被引量：7

同被引文献69

1王茹芳,宁璐.基于用户画像的图书馆推荐系统研究[J].图书馆建设,2020(S01):100-102. 被引量：16
2施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
3高悦尔,王雪松,陈小鸿.幼儿交通安全教育及有效性研究[J].交通运输系统工程与信息,2012,12(1):24-28. 被引量：8
4王丽,王雪松,杨东援.考虑学校和年级差异的精细化小学生交通安全教育研究[J].交通信息与安全,2012,30(1):103-110. 被引量：6
5黄卫东,陈凌云,吴美蓉.网络舆情话题情感演化研究[J].情报杂志,2014,33(1):102-107. 被引量：35
6刘海鸥,黄文娜,苏妍嫄,张亚明.大数据深度融合的移动图书馆情境化推荐[J].情报科学,2019,37(1):68-73. 被引量：26
7安璐,吴林.融合主题与情感特征的突发事件微博舆情演化分析[J].图书情报工作,2017,61(15):120-129. 被引量：112
8叶佳,葛红军,曹春,朱晋,张营.规则驱动的Android应用DFS测试技术[J].计算机科学,2018,45(9):99-103. 被引量：3
9张兰霞,胡文心.基于双向GRU神经网络和双层注意力机制的中文文本中人物关系抽取研究[J].计算机应用与软件,2018,35(11):130-135. 被引量：21
10赵泽昱,陈健,张月琴.基于情感空间的用户阅读兴趣模型研究[J].计算机工程,2019,45(1):308-314. 被引量：2

引证文献6

1王娜娜.基于数据量分布式并行SVM模型的海量舆情分析[J].信息技术,2022,46(11):14-18. 被引量：1
2张思楠,郭佳,陆磊,周海辰,陈菁菁.基于机器学习的交通安全对话机器人开发[J].计算机应用文摘,2023,39(3):91-93.
3郑素萍.基于用户画像的数字化阅读推广平台设计[J].中国科技资源导刊,2023,55(1):45-51. 被引量：1
4张丽,李菊.基于词典和表情符号的微博舆情情感分析研究[J].电脑与电信,2023(7):40-44.
5邹旺,张吴波.基于BERT的BiGRU-Attention-CNN混合模型的中文情感分析[J].计算机与数字工程,2023,51(10):2351-2357.
6游丹丹,骆绍烨.我国网络舆情情感研究综述[J].电脑与电信,2024(3):60-64.

二级引证文献2

1庞家乐,张彦.基于图嵌入算法和用户画像的学术情报推荐模型[J].价值工程,2023,42(12):138-141.
2陈宝辉.基于PCA-SVM算法的矿井涌水水源判别研究[J].内蒙古煤炭经济,2023(5):5-7.

1胡雅敏,吴晓燕,陈方.基于文献计量的新冠肺炎研究进展与国际合作分析[J].科学观察,2021,16(1):82-95. 被引量：5
2张国方,寇姣姣,陈令华.网络评论文本驱动的汽车设计规划方法[J].机械设计,2021,38(2):139-144. 被引量：11
3郑小平,黄秋怡,王瑞梅.国内外口碑研究进展与热点分析:基于文献计量的实证[J].科技促进发展,2021,17(1):124-132. 被引量：2
4李雪松.基于宽度和词向量特征的文本分类模型[J].计算机系统应用,2021,30(3):177-183. 被引量：2
5陈旭.新能源汽车研发设计知识概览(3)动力电池系统选型[J].无线电,2021(3):77-80.
6汪嘉昱,王尧树,唐勇.基于CiteSpace的中国美食旅游研究知识图谱[J].乐山师范学院学报,2021,36(2):58-65. 被引量：1
7刘昉,李奇临,蒋涌,杨永毅,张俊,赵思亮.基于CNN的天气雷达异常回波图像识别算法研究[J].电子设计工程,2021,29(6):74-78. 被引量：5
8黄佩,解文蕊,刘钰.短视频研究的中外对比与差异溯源[J].新闻与写作,2021(3):46-53. 被引量：5
9袁晶,李金玲,陈国盛,余明,徐佳盟,陈锋,张广.基于VF波形多特征参数的除颤成功率预测研究[J].医疗卫生装备,2021,42(3):1-5. 被引量：1
10李久超,王薇,刘枫,张千,李亚秋,陈明章.基于支持向量机的高能效频谱感知算法研究[J].数据采集与处理,2021,36(2):232-239. 被引量：2

电子技术应用

2021年第4期

浏览历史

内容加载中请稍等...

基于爬虫和TFIDF-NB算法的微博情感分析被引量：6

参考文献17

二级参考文献116

共引文献966

同被引文献69

引证文献6

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于爬虫和TFIDF-NB算法的微博情感分析 被引量：6

参考文献17

二级参考文献116

共引文献966

同被引文献69

引证文献6

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于爬虫和TFIDF-NB算法的微博情感分析被引量：6