伪相关反馈的文本情感分类方法被引量：1

Method of Text Sentiment Classification Based on Pseudo Relevance Feedback

下载PDF

导出

摘要机器学习过程中,由于训练集不完备,有必要构建具备主动学习能力的增量模型。对基于伪相关反馈的增量模型,现有的增量学习方法提出了一些选择反馈样本的策略,但对提高反馈样本类置信度的深入研究仍具有重要意义。针对这一问题,提出了基于K-Means聚类的伪相关反馈策略。对朴素贝叶斯分类器分类后的文档,用减量寻找质心向量的方式提取反馈文档以及新特征集合,对NB分类器进行反馈,将伪相关反馈策略运用于中文文本情感分类。实验表明,提取质心向量的准确率随反馈规模的扩大有所提高。方法从一定程度上实现了将后验概率转换为先验概率,随新特征的增加,配合CHI阈值调整可获取较高的查准率和查全率,证明了方法的可行性。 In the process of machine learning, it is necessary to build incremental model with automatic learning capabilities. For incremental model based on Pseudo-relevance feedback, the research on how to improve the confi- dence of feedback samples is still important, although some feedback strategy had been given. This paper presented a pseudo relevance feedback method based on K-Means clustering. For documents classified by Naive Bayesian classi- fier, we searched the center vector by means of reducing the sample number gradually, and extracted feedback sam- ples and feature concentration using for improve the performance of NB classifier. We carried out experiments in Chi- nese text sentiment classification according to the pseudo relevance feedback strategy. This method converts the poste- rior probability into prior probability in a degree. The results show that with the expansion of feature concentration, the strategy can achieve better than baseline in precision and recall.

作者卢玲杨武唐继强

机构地区重庆理工大学计算机科学与工程学院

出处《计算机仿真》 CSCD 北大核心 2013年第11期268-271,共4页 Computer Simulation

关键词伪相关反馈情感分类朴素贝叶斯聚类 Pseudo relevance feedback Sentiment classification Naive Bayesian K-Means clustering

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献10

1蒋望东,陆小艺,林士敏.处理缺失数据的朴素贝叶斯分类增量算法[J].科学技术与工程,2008,8(14):3812-3815. 被引量：2
2罗福星,刘卫国.一种朴素贝叶斯分类增量学习算法[J].微计算机应用,2008,29(6):107-112. 被引量：8
3吴陈,张明华.基于最优朴素贝叶斯分类器的个人信用预测[J].江苏科技大学学报（自然科学版）,2012,26(4):376-380. 被引量：8
4宫秀军,刘少辉,史忠植.一种增量贝叶斯分类模型[J].计算机学报,2002,25(6):645-650. 被引量：55
5周杰,林琛,李弼程.基于机器学习的网络新闻评论情感分类研究[J].计算机应用,2010,30(4):1011-1014. 被引量：27
6刘志明,刘鲁.基于机器学习的中文微博情感分类实证研究[J].计算机工程与应用,2012,48(1):1-4. 被引量：124
7蒋志方,祝翠玲,吴强.一个对不带类别标记文本进行分类的方法[J].计算机工程,2007,33(12):96-98. 被引量：1
8许明英,尉永清,赵静.一种结合反馈信息的贝叶斯分类增量学习方法[J].计算机应用,2011,31(9):2530-2533. 被引量：5
9徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
10李晓毅,徐兆棣.增量式贝叶斯分类的原理和算法[J].沈阳工业大学学报,2006,28(4):422-425. 被引量：7

二级参考文献79

1姜卯生,王浩,姚宏亮.朴素贝叶斯分类器增量学习序列算法研究[J].计算机工程与应用,2004,40(14):57-59. 被引量：10
2程泽凯,林士敏,陆玉昌,蒋望东,陆小艺.基于Matlab的贝叶斯分类器实验平台MBNC[J].复旦学报（自然科学版）,2004,43(5):729-732. 被引量：27
3陈瑞芬.一种结合反馈方法的中文文本分类算法[J].计算机应用,2005,25(12):2862-2864. 被引量：9
4朱嫣岚,闵锦,周雅倩,黄萱菁,吴立德.基于HowNet的词汇语义倾向计算[J].中文信息学报,2006,20(1):14-20. 被引量：326
5苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
6李晓毅,徐兆棣.增量式贝叶斯分类的原理和算法[J].沈阳工业大学学报,2006,28(4):422-425. 被引量：7
7鲁明羽.Bayes文本分类器的改进方法研究[J].计算机工程,2006,32(17):63-65. 被引量：11
8李旭升,郭耀煌.基于贝叶斯网络分类的个人信用评估模型[J].统计与决策,2006,22(20):13-15. 被引量：11
9王玉珍.基于贝叶斯理论的分类模式挖掘方法研究[J].微计算机应用,2007,28(6):664-668. 被引量：4
10宫秀军史忠植.基于贝叶斯潜在语义模型的半监督Web挖掘[J].软件学报，已录用,.

共引文献236

1王曰芬,吴鹏,丁晟春,陈芬.社会舆情分析研究与进展综述[J].情报学进展,2016(1):132-185. 被引量：1
2姜卯生,王浩,姚宏亮.朴素贝叶斯分类器增量学习序列算法研究[J].计算机工程与应用,2004,40(14):57-59. 被引量：10
3杨森,徐海涛,柴乔林.应用支持向量机实现增量入侵检测[J].计算机工程与应用,2004,40(27):142-143. 被引量：1
4张晓辉,李莹,常桂然,赵宏.适于Internet新闻文本实时分类的动态向量空间模型DVSM[J].计算机科学,2004,31(6):64-67. 被引量：1
5李家春,李之棠.分布式入侵告警关联分析[J].计算机研究与发展,2004,41(11):1919-1923. 被引量：6
6王利民,苑森淼.具有抗噪音能力的增量式混合贝叶斯网络[J].仪器仪表学报,2005,26(3):221-225. 被引量：1
7钱玲飞,刘玉树,李侃.朴素贝叶斯分类器在地形评估中的应用方法[J].计算机工程与应用,2005,41(12):189-191. 被引量：6
8王小英,赵海,林涛,张文波,尹震宇.基于信任的普适计算服务选择模型[J].通信学报,2005,26(5):1-8. 被引量：17
9胡学钢,郭亚光.一种基于粗糙集的朴素贝叶斯分类算法[J].合肥工业大学学报（自然科学版）,2006,29(2):169-172. 被引量：11
10周俐霞,何安元.基于流量均衡的垃圾邮件过滤网关集群系统模型[J].盐城工学院学报（自然科学版）,2006,19(1):23-27. 被引量：2

同被引文献9

1岳金媛,徐金安,张玉洁.面向专利文献的汉语分词技术研究[J].北京大学学报（自然科学版）,2013,49(1):159-164. 被引量：16
2崔建明,刘建明,廖周宇.基于SVM算法的文本分类技术研究[J].计算机仿真,2013,30(2):299-302. 被引量：83
3李廷辰,杨艳.基于分词聚类技术的微博热点问题挖掘[J].教学与科技,2013(1):8-13. 被引量：1
4陶荣.中文分词技术及JE中文分词器在Nutch中的运用与实现[J].广西教育,2013(7):184-186. 被引量：1
5刘畅,张猛.中文全文检索系统中基于分词技术的研究[J].吉林大学学报（信息科学版）,2013,31(3):320-323. 被引量：1
6蔡荣彦.面向未登录领域词切分的中文分词技术研究[J].信息系统工程,2013,26(11):133-136. 被引量：1
7吴晓倩,胡学钢.基于N-最短路径的中文分词技术研究[J].安徽理工大学学报（自然科学版）,2014,34(1):72-75. 被引量：5
8孙萌,华却才让,才智杰,姜文斌,吕雅娟,刘群.基于判别式分类和重排序技术的藏文分词[J].中文信息学报,2014,28(2):61-65. 被引量：9
9孟丽,李葆青,胡玲芳,张跃.中文分词技术在社会化媒体分析中的应用[J].中国教育技术装备,2014(16):50-53. 被引量：2

引证文献1

1杨小梅,黎斌.网络复杂文本的分类优化过程仿真分析[J].计算机仿真,2016,33(4):399-402.

1陈震,吴斌,沈崇玮,张忠辉,王柏.一种改进的基于质心的文本分类算法[J].计算机应用与软件,2013,30(1):43-47. 被引量：3
2谢华,王健,林鸿飞,杨志豪.基于特征选择的质心向量构建方法[J].计算机工程,2012,38(1):195-196. 被引量：2
3王德庆,张辉.基于支持向量的迭代修正质心文本分类算法[J].北京航空航天大学学报,2013,39(2):269-274. 被引量：3
4程子成,吴根秀,宋姝婷.基于融合信息熵性质的信任函数概率逼近[J].江西师范大学学报（自然科学版）,2014,38(5):534-538. 被引量：4
5鲁玲,方平,刘辉,李网锁.基于OPC的Matlab与组态软件MCGS数据交换[J].三峡大学学报（自然科学版）,2010,32(2):92-94. 被引量：2
6姜静.在信息技术教学中如何培养学生的学习兴趣[J].中国信息技术教育,2009(20):31-31.
7李玲娟,李冰.一种基于特征加权的蚁群聚类新算法[J].计算机技术与发展,2010,20(8):67-70. 被引量：8
8任思颖,董振华.任务驱动式网络教学平台在高职教学中的实践研究[J].黑龙江科学,2016,7(24):94-95.
9黄家裕,刘连芳.基于多质心的不良文本快速过滤方法[J].广西科学院学报,2010,26(4):436-438.
10邬美银,陈黎.基于深度学习的监控视频树叶遮挡检测[J].武汉科技大学学报,2016,39(1):69-74. 被引量：9

计算机仿真

2013年第11期

浏览历史

内容加载中请稍等...

伪相关反馈的文本情感分类方法被引量：1

参考文献10

二级参考文献79

共引文献236

同被引文献9

引证文献1

相关作者

相关机构

相关主题

浏览历史

伪相关反馈的文本情感分类方法 被引量：1

参考文献10

二级参考文献79

共引文献236

同被引文献9

引证文献1

相关作者

相关机构

相关主题

浏览历史

伪相关反馈的文本情感分类方法被引量：1