-
题名基于随机森林算法的网络舆情文本信息分类方法研究
被引量:7
- 1
-
-
作者
吴坚
沙晶
-
机构
浙江大学计算机学院
浙江省公安厅网警总队
公安部第三研究所
-
出处
《信息网络安全》
2014年第11期36-40,共5页
-
基金
国家科技支撑计划[2012BAH95F03]
-
文摘
面对海量增长的互联网舆情信息,对这些舆情文本信息进行分类成为一项非常有意义的任务。首先,文章给出了文本文档的表示模型及特征选择函数的选取。然后,分析了随机森林算法在分类学习算法中的特点,提出了通过构建一系列的文档决策树来完成文档所属类别的判定。在实验中,收集了大量的网络媒体语料,并设定了训练集和测试集,通过对比测试得到了常见算法(包括k NN、SMO、SVM)与本算法RF的对比量化性能数据,证明了本文提出的算法具有较好的综合分类率和分类稳定性。
-
关键词
网络舆情文本
随机森林算法
文档决策树
文档分类
-
Keywords
network public opinion text
random forest algorithm
document detection tree
document classification
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于情感分类和主题挖掘的网络舆情文本分析
被引量:1
- 2
-
-
作者
王世航
汤艳君
-
机构
中国刑事警察学院公安信息技术与情报学院
-
出处
《网络安全技术与应用》
2023年第7期47-49,共3页
-
基金
中国刑事警察学院研究生创新能力提升项目(编号:2022YCYB46)。
-
文摘
在社交网络时代,自媒体已成为群众发布、获取信息的重要渠道,网络舆情研判已经成为各级政府部门的主要任务之一。自媒体在反映个人情感和意见思潮的同时,也会汇聚群众的情感共鸣,因此对舆情文本的情感进行分析并获取其主题成为关键。通过爬虫工具对相关舆情文本进行抓取,将获取的数据使用Python的SnowNLP模块进行情感倾向划分,结合无监督的机器学习算法LDA主题模型进行文本关键词聚类,从而确定舆情规模、情感演变规律和舆情的热点主题词,为完善舆情应对机制提供科学支持。
-
关键词
网络舆情文本
LDA主题模型
情感分析
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-