基于特征权重与词间相关性的文本特征选择算法被引量：3

TEXT FEATURE SELECTION ALGORITHM BASED ON CORRELATION OF FEATURES WEIGHT AND WORDS

下载PDF

导出

摘要传统的ReliefF算法使用二值法不能体现离散特征差异大小,且不能去除冗余特征。针对这种情况提出了mRMR-ReliefF特征选择算法。该算法利用概率弥补特征差异度量上的不足,提出新的差异函数。此函数使提取出的特征更能体现文本的类内相关性和类间差异性。该算法还结合了词间相关性。词间相关性在考虑选择和类别相关性大的特征词的同时还考虑了特征冗余的消除。通过三种算法的对比实验,表明该算法为文本分类提供了更有效的特征子集。 Traditional ReliefF algorithm,by using the binary method,can neither reflect the differences of discrete characteristics nor remove the redundant features.In view of this situation,mRMR-ReliefF feature selection algorithm is proposed.The algorithm makes up for the deficiency of feature difference measurement by utilising the probability,and puts forward a new difference function.This function makes the extracted features better reflect both the relevancy within the class and difference among classes of the texts.The algorithm also combines the words relevancy,which not only considers the selection of characteristic words that has much to do with the class but also considers redundancy eliminating.According to the comparison of three algorithms,it shows that the algorithm our paper proposing can provide a more effective feature subset for the text classification.

作者任永功杨荣杰尹明飞

机构地区辽宁师范大学计算机与信息技术学院

出处《计算机应用与软件》 CSCD 北大核心 2012年第9期33-36,共4页 Computer Applications and Software

基金国家自然科学基金项目(60603047) 教育部留学回国人员科研启动基金资助项目辽宁省科技计划项目(2008216014) 辽宁省教育厅高等学校科研基金项目(L2010229) 大连市优秀青年科技人才基金项目(2008J23JH026)

关键词 RELIEFF算法 mRMR-ReliefF算法特征选择差异函数词间相关性文本分类 ReliefF algorithm ,mRMR-ReliefF algorithm, Feature selection, Difference function ,Correlation between word, Text classification

分类号 TP301.6 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献10

1Liu Y, Zheng Y F. A novel feature selection method for support vector machines [ J ]. Pattern Recognition,2006,39 : 1333 - 1345.
2Sikonja R M, Kononenko I. Theoretical and empirical analys is of Re- liefF and RReliefF[ J]. Machine Learning,2003,53( 1 -2) :23 -69.
3Kononenko I. Estimation: Analysis and extensions of relief [ C ]//Pro- ceedings of the 1994 European Conference on Machine Learning[ S. 1. J. ACM Press, 1997:273 - 324.
4Kenji K, Rendell L A, Rendell A. A practical approach to feature selec- tion machine learning[ C ]//Proceedings of ICML' 92. Aberdeen, Scot- land, UK[ s. n. ] , 1992:249 - 256.
5朱远枫,章晶,史娜.基于改进的ReliefF算法的神经网络集成分类模型[J].电脑知识与技术,2009,5(3):1699-1700. 被引量：1
6万京,王建东.一种基于新的差异性度量的ReliefF方法[C]//'09年研究生学术交流会--通信与信息技术,2009.
7张丽新,王家廞,赵雁南,杨泽红.基于Relief的组合式特征选择[J].复旦学报（自然科学版）,2004,43(5):893-898. 被引量：44
8Jin X, Li R G, Shen X. Automatic web page categorization with ReliefF" and hidden na''ve Bayes[ C]//Proceediugs of the 2007 ACM Symposi- um on Applied Computing, USA ,2007.
9陈素萍,谢丽聪.一种文本特征选择方法的研究[J].计算机技术与发展,2009,19(2):112-115. 被引量：6
10Peng H, Long F, D!ng C. Feature selection based on mutual information criteria of max-dependency, max-relevance, and min-redundancy [ J ]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005,27(8).

二级参考文献19

1凌锦江,陈兆乾,周志华.基于特征选择的神经网络集成方法[J].复旦学报（自然科学版）,2004,43(5):685-688. 被引量：11
2吴浩苗,尹中航,孙富春.Relief算法在笔迹识别中的应用[J].计算机应用,2006,26(1):174-176. 被引量：18
3赖冰凌,王新宇.Relief算法在关门车故障自动识别中的应用[J].铁路计算机应用,2007,16(1):21-23. 被引量：5
4Yang Yirning, Pederson J O. A Comparative Study on Feature Selection in Text Categorization[C]//Proceedings of the 14th International Conferenee on Machine learning. Nashville: Morgan Kaufmann, 1997:412 - 420.
5Ding C, Peng Hanchuan. Minimum redundancy feature selection from microarray gelle expression data[C]//Proceeding of Second IEEE Computational Systems Bioinformaties Conference.LosA Lamitos, USA: IEEE Computer Society Press, 2003: 523 - 528.
6Peng Hanchuan,Long Fuhui,Ding C. Feature .Selection Based on Mutual Information Criteria of Max - Dependency Max - Relevance and Min-Redundancy[J ]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2005,27 (8):1226 - 1238.
7Frakes W B. Steaming Algofithms[C]//Frakes W B,Baeze - Yates B. In Information Retrieval:Data Structure & Algorithms. [ s. l. ]:T P R Prentice Hall, 1992:131 - 160.
8Salton G, Wong A, Yang C S. On the specification of term values in automatic Indexing[J]. Journal of Documentation, 1973,29(4) :351 - 372.
9Fox C. Lexical Analysis and Stoplists[ C]//Frakes W B,Baeze - Yates R. In Information Retrieval:Data Structure & Algorithms[s.l. ] :P T R Prentice Hall, 1992:102- 130.
10Langley P. Selection of relevant features in machine learning [A].In: Greiner R,eds.Proc AAAI Fall Symposium on Relevance [C].New Orleans:AAAI Press,1994.140-144.

共引文献48

1费江华,何永辉,孙晨,黄胜标.一种基于特征选择的组合分类器在带钢表面缺陷分类中的应用[J].冶金自动化,2010,34(2):19-23. 被引量：2
2朱永宣,单莘,郭军.入侵检测系统中基于变量相似性特征选择[J].微电子学与计算机,2005,22(10):34-36.
3凌健,林成德.拆分特征选择及其在企业信用评估中应用[J].福建工程学院学报,2006,4(4):436-439. 被引量：2
4岸部卓夫.兼有先进性和可靠性的新一代数据采集站——DX Advanced系列[J].今日电子,2006(10):86-87.
5任双桥,高勋章,黎湘,庄钊文.基于可分性的多类目标特征选择算法[J].自然科学进展,2007,17(4):520-528. 被引量：1
6周昉,何洁月.生物信息学中基因芯片的特征选择技术综述[J].计算机科学,2007,34(12):143-150. 被引量：20
7毛俐旻,姚淑萍,胡昌振.一种新型混合特征选择方法及其在入侵检测中的应用[J].北京理工大学学报,2008,28(3):218-221. 被引量：4
8诸兵,郭海湘.储层含油性识别的数据驱动灰色关联预测方法[J].统计与决策,2008,24(23):49-52. 被引量：1
9张杰慧,何中市,王健,黄学全.基于自适应蚁群算法的组合式特征选择算法[J].系统仿真学报,2009,21(6):1605-1608. 被引量：11
10马武,陈波,潘成胜.基于主成分分析的高速网络IDS性能研究[J].计算机工程与应用,2010,46(10):82-84. 被引量：3

同被引文献25

1徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
2寇莎莎,魏振军.自动文本分类中权值公式的改进[J].计算机工程与设计,2005,26(6):1616-1618. 被引量：25
3潘文峰.[D].北京.中国科学院计算技术研究所,2004.7.
4谭金波.文本层次分类中特征项权重算法的比较研究[J].情报杂志,2007,26(9):87-88. 被引量：5
5Sahon G, Buckley B. Term-weighting approaches in automatic text retrieval [ J ]. Information Processing and Management, 1988,24 (5) :513-523.
6Naveenkmar N, Batri K. An empirical study on term weights for text categorization [ J ]. International Journal of Advanced Information Science and Technology,2012,11:43-46.
7Lan M ,Tan C L, Su Jian, et al. Supervised and traditional term weighting methods for automatic text categorization [ J ]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2009,31 (4) :721-735.
8宋惟然.中文文本分类中的特征选择和权重计算方法研究[D].北京:北京工业大学,2013.
9Ducheneaut N, Watts L. In search of coherence : a review of e-mail re- search [ J ]. Human-Computer Interaction,2004 : 11 - 48.
10中国反垃圾邮件状况调查报告[DB/OL],2010-07-15.http://ww.isc.org.cn/zxzx/xhdt/listinfo一1775.html.

引证文献3

1白宁.基于特征选择融合的垃圾邮件过滤方法[J].计算机应用与软件,2014,31(4):31-34. 被引量：2
2龚静,胡平霞,胡灿.用于文本分类的特征项权重算法改进[J].计算机技术与发展,2014,24(9):128-132. 被引量：9
3范道远,孙吉红,王炜,涂吉屏,何欣.融合文本与分类信息的重复缺陷报告检测方法[J].计算机科学,2019,46(12):192-200. 被引量：9

二级引证文献20

1卢曼丽.基于K-means算法的神经网络文本分类算法研究[J].中国管理信息化,2014,17(21):80-82. 被引量：1
2夏火松,杨培,熊淦.基于特征提取改进的在线评论有效性分类模型[J].情报学报,2015,34(5):493-500. 被引量：6
3唐启涛,张燕,彭利红.基于粗糙集约简算法的配置文本聚类方法研究[J].计算机技术与发展,2015,25(11):105-109. 被引量：2
4袁乖宁,冯永.利用类-项权重和类-项密度的文本分类方法[J].计算机工程与设计,2017,38(8):2150-2154.
5李巧,周双娥,杨晶.模型融合在用户续购行为分析中的应用[J].小型微型计算机系统,2017,38(10):2231-2235. 被引量：2
6赵明,杜会芳,董翠翠,陈长松.基于word2vec和LSTM的饮食健康文本分类研究[J].农业机械学报,2017,48(10):202-208. 被引量：42
7魏小锐.基于整体相似度的文档主题匹配研究[J].网络安全技术与应用,2018(3):44-46. 被引量：1
8马远浩,曾卫明,石玉虎,徐鹏.基于加权词向量和LSTM-CNN的微博文本分类研究[J].现代计算机,2018,24(17):18-22. 被引量：8
9许甜华,吴明礼.一种基于TF-IDF的朴素贝叶斯算法改进[J].计算机技术与发展,2020,30(2):75-79. 被引量：15
10尹春林,杨政.电科院MIS系统分析与改进[J].电力设备管理,2021(4):59-61.

1陈素萍,谢丽聪.一种文本特征选择方法的研究[J].计算机技术与发展,2009,19(2):112-115. 被引量：6
2温佩芝,陈晓,吴晓军,王浩.基于三次样条插值的GrabCut自动目标分割算法[J].计算机应用研究,2014,31(7):2187-2190. 被引量：12
3李士进,陶剑,林林,冯钧.面向宏观地表分类的特征选择算法比较研究[J].计算机工程与应用,2008,44(21):130-132. 被引量：1
4胡学钢,许尧,李培培,张玉红.一种过滤式多标签特征选择算法[J].南京大学学报（自然科学版）,2015,51(4):723-730. 被引量：8
5苏晓珂,兰洋,程耀东,万仁霞.基于约束的混合属性增量聚类算法[J].计算机工程与设计,2010,31(8):1799-1801.
6胡玥,高庆狮,高小宇.多语互译机译系统统一算法基础——差异函数[J].北京航空航天大学学报,2008,34(5):604-608. 被引量：2
7谌湘倩,马绍惠,王宏伟.基于差异空间相关反馈过程的高光谱图像CBIR系统[J].计算机应用研究,2016,33(7):2214-2218. 被引量：1
8杨奎,赵剡,苏庆华,邓年茂.基于递推自适应权重的快速稠密立体匹配[J].北京航空航天大学学报,2013,39(7):963-967. 被引量：1
9谢永成,程延伟,吕强,李光升.基于特征层融合的模拟电路故障诊断方法[J].计算机工程与设计,2012,33(3):1170-1174. 被引量：2
10谢娟英,王明钊,胡秋锋.最大化ROC曲线下面积的不平衡基因数据集差异表达基因选择算法[J].陕西师范大学学报（自然科学版）,2017,45(1):13-22. 被引量：14

计算机应用与软件

2012年第9期

浏览历史

内容加载中请稍等...

基于特征权重与词间相关性的文本特征选择算法被引量：3

参考文献10

二级参考文献19

共引文献48

同被引文献25

引证文献3

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于特征权重与词间相关性的文本特征选择算法 被引量：3

参考文献10

二级参考文献19

共引文献48

同被引文献25

引证文献3

二级引证文献20

相关作者

相关机构

相关主题

浏览历史

基于特征权重与词间相关性的文本特征选择算法被引量：3