基于BIG-WFCHI的微博信息关键特征选择方法

Key Feature Selection Method for Weibo Information Based on BIG-WFCHI

下载PDF

导出

摘要特征选择是用机器学习方法提高转发预测精度和效率的关键步骤,其前提是特征提取.目前,特征选择中常用的方法有信息增益(Information Gain,IG)、互信息和卡方检验(CHI-square test,CHI)等,传统特征选择方法中出现低频词引起的信息增益和卡方检验的负相关、干扰计算等问题,导致分类准确率不高.本文首先针对低频词引起的信息增益和卡方检验的负相关、干扰计算等问题进行研究,分别引入平衡因子和词频因子来提高算法的准确率;其次,根据微博信息传播的特点,结合改进的IG算法和CHI算法,提出了一种基于BIG-WFCHI(Balance Information Gain-Word Frequency CHI-square test)的特征选择方法.实验分析中,本文采用基于最大熵模型、支持向量机、朴素贝叶斯分类器、KNN和多层感知器5种分类器对两个异构数据集进行了测试.实验结果表明,本文提出的方法能有效消除无关特征和冗余特征,提高分类精度,并减少运算时间. Feature selection,whose premise is feature extraction,is a key step to improve the accuracy and efficiency in retweeting prediction through achine learning methods.Currently,the approaches commonly adopted in feature selection include Information Gain(IG),mutual information,and CHI-square test(CHI).In the traditional feature selection methods,such problems of IG and CHI as negative correlation and interference calculation elicited by low-frequency words lead to low classification accuracy.In view of these problems,we introduce a balance factor and a word frequency factor in this study to increase the algorithm accuracy.Then,according to the spread characteristics of Weibo information,combined with the improved IG and CHI algorithms,we propose the feature selection method based on Balance Information Gain-Word Frequency CHI-square test(BIG-WFCHI).Furthermore,we experimentally test the proposed method with five classifiers including maximum entropy model,support vector machine,naive Bayes classifier,K-nearest neighbor,and multi-layer perceptron on two heterogeneous data sets.The results show that our method can effectively eliminate both irrelevant and redundant features,increase the classification accuracy,and reduce the running time.

作者殷仕刚安洋蔡欣华屈小娥 YIN Shi-Gang;AN Yang;CAI Xin-Hua;QU Xiao-E(Department of Information Management,Xi’an University of Technology,Xi’an 710048,China;School of Computer Science and Engineering,Xi’an University of Technology,Xi’an 710048,China)

机构地区西安理工大学信息化管理处西安理工大学计算机科学与工程学院

出处《计算机系统应用》 2021年第2期188-193,共6页 Computer Systems & Applications

基金国家自然科学基金(61672027)。

关键词微博信息特征选择机器学习信息增益卡方检验 Weibo information feature selection machine learning Information Gain(IG) CHI-square test(CHI)

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] G206 [文化科学—传播学]

引文网络
相关文献

参考文献8

1代六玲,黄河燕,陈肇雄.中文文本分类中特征抽取方法的比较研究[J].中文信息学报,2004,18(1):26-32. 被引量：228
2王皓,孙宏斌,张伯明.PG-HMI:一种基于互信息的特征选择方法[J].模式识别与人工智能,2007,20(1):55-63. 被引量：6
3于朝晖.CNNIC发布《第45次中国互联网络发展状况统计报告》[J].网信军民融合,2020(5):25-27. 被引量：66
4路永和,何新宇.基于维度索引表的改进KNN分类算法[J].情报理论与实践,2014,37(5):102-106. 被引量：3
5李勇军,尹超,于会,刘尊.基于最大熵模型的微博传播网络中的链路预测[J].物理学报,2016,65(2):31-41. 被引量：12
6王宏威,李国和.基于属性相似度的连续型特征选择方法[J].渤海大学学报（自然科学版）,2014,35(4):350-355. 被引量：2
7李玉鑑,周兰珍,操卫平.基于DF和CHI的联合特征提取方法及其应用[J].北京工业大学学报,2008,34(9):995-1000. 被引量：9
8李飞,李红莲.支持向量机大规模样本快速训练算法[J].北京信息科技大学学报（自然科学版）,2012,27(2):83-87. 被引量：2

二级参考文献81

1张国英,沙芸,余有明,刘玉树.基于属性相似度的云分类器[J].北京理工大学学报,2005,25(6):499-503. 被引量：11
2李烨,尹汝泼,蔡云泽,许晓鸣.基于离散化的支持向量机特征选择[J].计算机工程,2006,32(11):16-17. 被引量：4
3张国英,沙芸,江慧娜.基于粒子群优化的快速KNN分类算法[J].山东大学学报（理学版）,2006,41(3):120-123. 被引量：8
4王书诏,邱天爽.说话人识别研究综述[J].电声技术,2007,31(1):51-55. 被引量：9
5HanJ KamberM.数据挖掘:概念与技术[M].北京:机械工业出版社,2001..
6黄昌宁等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38.
7Byun H,Lee SW.Applications of support vectormachines for pattern recognition[J].LectureNotes in Computer Science,2002,2388:571-591.
8Chen P H,Fan R E,Lin C J.A study on SMO-type decomposition methods for support vectormachines[J].IEEE Trans Networks,2006,17(4):893-908.
9Dong J-X,Krzyzak A,Suen C Y.Fast SVMtraining algorithm with decomposition on verylarge data sets[J].IEEE Trans Pattern Analysisand Machine Intelligence,2005,27(4):603-618.
10朱雪龙.应用信息论基础[M].清华大学出版社,2000..

共引文献319

1黄文静,邱勇强,邓树嵩,莫圣开,符国帅,唐峥华.医学生问题性社交网站使用对抑郁情绪的影响分析:错失焦虑和依恋模式的中介作用[J].心理月刊,2023(23):16-20.
2王娟,徐静,苏靖雯,李双,张淑香.护理职高生自我效能与主观幸福感:手机成瘾的中介作用[J].心理月刊,2022(1):57-58.
3龚丽娟,王昊,张紫玄,朱立平.Word2Vec对海关报关商品文本特征降维效果分析[J].数据分析与知识发现,2020,4(2):89-100. 被引量：6
4潘佳伟.5W传播模式下我国电子竞技传播现状的分析研究[J].体育视野,2020(4):25-27.
5徐文勘.公共治理视域下政务APP优化路径探讨[J].云南科技管理,2020(6):20-25.
6骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
7刘中华,焦基鹏.后疫情时代公共图书馆知识付费平台转免服务策略思考[J].文化学刊,2021(5):150-154. 被引量：1
8李振中.智能手机对西北农村留守儿童学习生活的影响研究[J].当代家庭教育,2021(26):23-24.
9王超.简析等级保护定级标准的变化及高职院校网络安全工作的开展[J].产业科技创新,2020(10):125-126. 被引量：1
10袁晓铃,罗抒晴,穆榕.在高校研究生群体中加强共青团宣传工作的思考——以北京大学深圳研究生院团委为例[J].北京教育（德育）,2021(5):51-56.

1吴青,付彦琳.支持向量机特征选择方法综述[J].西安邮电大学学报,2020,25(5):16-21. 被引量：17
2Gao-Yi Tan,Faying Zhu,Zixin Deng,Tiangang Liu.In vitro reconstitution guide for targeted synthetic metabolism of chemicals, nutraceuticals and drug precursors[J].Synthetic and Systems Biotechnology,2016,1(1):25-33. 被引量：3
3李发陵,彭娟.基于增强可伸缩随机森林的高维大数据预测分析系统[J].西南师范大学学报（自然科学版）,2021,46(1):1-6. 被引量：3
4赖祥源,朱勤东,陈火荣,王臻,陈佩君.基于RF特征选择和XGBoost模型的赤潮等级预测[J].渔业研究,2021,43(1):1-12. 被引量：3
5罗泽槟,王沛如,王逸如.临床护士心理健康状况预测模型的初步构建[J].中华现代护理杂志,2021,27(3):328-333. 被引量：9
6顾洪建,张帆,万甜甜,张衡.情感分类器结合Norton模型预测汽车销量[J].时代汽车,2021(3):165-167.

计算机系统应用

2021年第2期

浏览历史

内容加载中请稍等...

基于BIG-WFCHI的微博信息关键特征选择方法

参考文献8

二级参考文献81

共引文献319

相关作者

相关机构

相关主题

浏览历史