基于MIDF(t)的短文本特征权重计算方法研究被引量：1

Feature weight calculation approach based on short text of MDF(t)

下载PDF

导出

摘要随着互联网的飞速发展,传统的文本分类已经不能满足人们对信息服务系统的要求,为了实现大规模海量信息的有效利用,高准确率的分类算法成为近年的研究热点。通常情况下,网络上的影评属于短文本,文本中可供抽取的信息词量较少,而对文本分类不起作用的停用词比例相对较大,产生了向量维度高和特征稀疏这两大难题,因而研究难度更大。针对短文本特征稀疏和样本高度不均衡等特点,本文提出方法作为短文本特征权重的计算方法,既考虑了特征项在单个样本中的分布,又考虑了文本的类别特征,提高了短文本分类的查准率和查全率。实验结果表明,与传统的特征权重计算方法相比,该方法更适合短文本的分类。 With the rapid development of the Internet, the traditional text classification can not satisfy people＇s requirements of information service system, in order to achieve effective use of large-scale mass of information, high accuracy of classification algorithms has become a hot topic in recent years. Under normal circumstances, the film review on network belongs to short text, there are less information words for extraction available in the text, while stop words make a large proportion in the text, resulting in two big issues of high vector dimension and sparse feature that are more difficult to study. In view of the inherent sparse features and unbalanced sample of the short text, the paper proposes a approach to resolve this problem, an approach of short text feature weight named MIDF（t）was proposed. This approach integrated the distribution of features in sample, and improved the precision and recall of short text categorization. The result of experiment indicates that the proposed approach is more suitable for short text classification compared to traditional feature weight calculation methods.

作者夏冰

机构地区哈尔滨金融学院基础教研部

出处《黑龙江科学》 2016年第16期28-29,共2页 Heilongjiang Science

基金黑龙江省哲学社会科学研究规划项目"基于模糊支持向量机的英语语篇情感分析"(13E024)

关键词短文本文本分类特征权重 Short text Text classification Feature weight

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献5

1马雯雯,邓一贵.新的短文本特征权重计算方法[J].计算机应用,2013,33(8):2280-2282. 被引量：8
2汪正中,张洪渊.基于英文博客文本的情感分析研究[J].计算机技术与发展,2011,21(8):153-156. 被引量：8
3林少波,杨丹,徐玲.基于类别相关的新文本特征提取方法[J].计算机应用研究,2012,29(5):1680-1683. 被引量：10
4Liu Zitao,Yu Wenchao,Chen Wei,et al.Short Text Feature Selection for Microblog Mining[C]//The 4th International Conference on Computational Intelligence and Software Engineering.Wuhan,China,2010:1-4.
5Bharath Sriram,David Fuhry,Engin Demir,Hakan Ferhatosmanoglu.Short Text Classification in Twitter to Improve Information Filtering Computer Science and Engineering Department[D].Ohio State University,Columbus,OH 43210,USA.2010:24-34.

二级参考文献35

1王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
2CUI Zifeng,XU Baowen,ZHANG Weifeng,XU Junling.A New Approach of Feature Selection for Text Categorization[J].Wuhan University Journal of Natural Sciences,2006,11(5):1335-1339. 被引量：6
3LiuBing.Web数据挖掘[M].北京:清华大学出版社,2009.
4Pang Bo, Lee Lillian, Vaithyanathan S. Thumbs up? Sentiment Classification using Machine I-earning Techniques [ C ]// In Proceedings of Conf. on EMNLPO2. [ s. 1. ] : [ s. n. ] ,2002.
5Tumey P. Thumbs Up or Thumbs Down? Semantic Orientation Applied to Unsupervised Classification of Reviews [ C ]//In Proc. of the Meeting of the Association for Computational Lin- guistics(ACLlY2). [ s. 1. ]: [ s. n. ], 2002: 417-424.
6Dave K, Lawrence S,Pennock D. Mining the Peanut Gallery: Opinion Extraction and Semantic Classification of Product Re- views[C]//In Proc. of the 12th Intl. World Wide Web Con- ference(WWW93). Is. 1. ] :Is. n. ], 2003: 519-528.
7Pang Bo,Lee Lillian. A Sentimental Education: Sentiment Analysis Using Subjectivity Summarization Based on Minimun Cuts[C]// In Proceedings of the 42nd ACL. [s. 1. ]: Is. n. ] ,2004:271-278.
8Kim S, Hovy E. Determining the Sentiment of Opinions [ C ]// In Proc. of the Intl. Conf. on Computational Linguistics (COLING'04). [s. l. ]:[s. n. ], 2004.
9Liu B ,Hu M. Opinion Observer: Analyzing and Comparing Opinions on the Web[ C]// In Proc of the 14th Intl. Word Web Web Conf. ( WWW'05 ). [ s. 1. ] : [ s. n. ], 2005 : 342 -351.
10Yi J, Nasukawa T, Bunescu R C, et al. Sentiment Analyzer: Extracting Sentiments about a Given Topic Using Natural Lan- guage Processing Techniques [ C ]// In Proc. of the IEEE Conf. on Data Mining( ICDM'03 ). [ s. 1. ] : [ s. n. ] ,2003.

共引文献23

1王义,戴月明.基于混合互信息算法的文本情感分析[J].计算机应用研究,2020,37(2):337-341.
2成松松,艾丽蓉.基于平均词频的文本特征提取方法[J].计算机应用与软件,2013,30(10):243-245. 被引量：5
3晏皓鸾,黄景碧.学习者情感挖掘:一个重要的教育技术研究领域[J].软件导刊.教育技术,2014,13(1):28-32. 被引量：2
4Chuanming Yu,Xingyu Zhu,Bolin Feng,Lin Cai,Lu An.Sentiment Analysis of Japanese Tourism Online Reviews[J].Journal of Data and Information Science,2019,4(1):89-113. 被引量：2
5陶永才,何宗真,石磊,卫琳,曹仰杰.基于加权动态兴趣度的微博个性化推荐[J].计算机应用,2014,34(12):3491-3496. 被引量：12
6王庆福.基于PageRank算法的文本关键词权重计算研究[J].网络新媒体技术,2015,4(3):37-41.
7高永兵,周环宇,聂知秘,胡文江.PWSWE:个人微博主题词提取算法的研究[J].计算机应用与软件,2015,32(7):86-89. 被引量：1
8章宁.短文本的情报价值评估方法研究[J].舰船电子工程,2016,36(1):108-111.
9孙新,欧阳童,严西敏,尚煜茗,郭文浩.基于训练集裁剪的加权K近邻文本分类算法[J].情报工程,2016,2(6):8-16. 被引量：7
10黄文明,孙艳秋.基于最大熵的中文短文本情感分析[J].计算机工程与设计,2017,38(1):138-143. 被引量：10

同被引文献4

1张英,苏宏业,褚健.基于模糊最小二乘支持向量机的软测量建模[J].控制与决策,2005,20(6):621-624. 被引量：27
2赵专政,李云翔.聚类加权和CS-LSSVM的文本分类[J].计算机工程与应用,2013,49(16):124-128. 被引量：4
3唐凤华.高校“课程思政”实施的理论与实践研究综述[J].校园英语,2018,0(49):65-66. 被引量：9
4陈红美.大学英语“课程思政”教学模式探索与实践[J].智库时代,2018(51):17-17. 被引量：41

引证文献1

1夏冰,李长华.疫情下大学英语“课程思政”案例库的建设研究[J].金融理论与教学,2021(3):108-110. 被引量：1

二级引证文献1

1黄莉.新文科环境下大学英语课程思政案例库建设路径探究[J].湖北经济学院学报（人文社会科学版）,2023,20(8):144-146. 被引量：1

1胡玉娴.基于《知网》和遗传算法的中文文本聚类特征选择[J].中国电子商情（通信市场）,2009(2):87-92.
2郑艳红,张东站.基于同义词词林的文本特征选择方法[J].厦门大学学报（自然科学版）,2012,51(2):200-203. 被引量：5
3张慈祥,刘辉,强振平.基于稀疏表示和奇异值分解的人脸识别[J].计算机应用,2013,33(A01):233-235. 被引量：9
4魏雪丽,张桦,安树志,马艳洁.利用PCA加速实现基于特征点的图像拼接[J].光电子．激光,2008,19(10):1398-1401. 被引量：1
5郭黎,冷洁,梅文兰,孔祥聪,廖宇,廖红华.基于PCA和SVM的人脸识别技术研究[J].湖北民族学院学报（自然科学版）,2015,33(2):193-196. 被引量：7
6朱德兵,何继善.前向神经网络定解及泛化问题研究[J].物探化探计算技术,2001,23(2):144-149. 被引量：4
7杨飒,郑志硕.基于稀疏随机投影的SIFT医学图像配准算法[J].量子电子学报,2015,32(3):283-289. 被引量：8
8王雅玡,高炜.删除单个样本情况下学习算法稳定性分析[J].西南师范大学学报（自然科学版）,2013,38(9):23-26. 被引量：1
9张婵.基于Huffman染色体编码的抗早熟遗传算法研究[J].科技通报,2012,28(10):81-84.
10陈小辉,高燕,刘汉烨.基于归一化方法的协同过滤推荐算法[J].电子设计工程,2014,22(14):17-20. 被引量：4

黑龙江科学

2016年第16期

浏览历史

内容加载中请稍等...

基于MIDF(t)的短文本特征权重计算方法研究被引量：1

参考文献5

二级参考文献35

共引文献23

同被引文献4

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于MIDF(t)的短文本特征权重计算方法研究 被引量：1

参考文献5

二级参考文献35

共引文献23

同被引文献4

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

基于MIDF(t)的短文本特征权重计算方法研究被引量：1