基于X^2统计的改进文本特征选择方法被引量：8

Improved method for text feature selection based on CHI

下载PDF

导出

摘要为克服传统X^2统计模型未考虑特征词频数因素不足的缺陷,根据特征项的词频数及其在类间、类内不同分布情况,提出一种改进的X^2统计特征选择方法,使特征频数信息得到有效利用。实验对比改进前后的方法对文本分类的结果,实验结果表明,改进后方法的分类效果优于传统X^2统计方法,验证了其有效性。 Traditional X^2 statistical model fails to consider the frequency of the feature terms,an improved Chi-square statistic（CHI）algorithm based on frequency and its distribution within class and between classes was proposed to make full use of the frequency of features.The experimental results of text categorization using the improved method were compared to that of other methods.Results of analysis indicate that the proposed algorithm is better than the traditional method and verifies the effectiveness of the proposed method.

作者闫健卓李鹏英方丽英龙丽英刘欣悦

机构地区北京工业大学电控学院

出处《计算机工程与设计》北大核心 2016年第5期1391-1394,共4页 Computer Engineering and Design

基金国家自然科学基金项目(61174109) 北京市委组织部优秀人才培养计划基金项目(2010D005015000001)

关键词文本分类特征选择 X2统计特征频数特征分布 text categorization feature selection X2 statistics model frequency distribution

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1熊忠阳,张鹏招,张玉芳.基于χ~2统计的文本分类特征选择方法的研究[J].计算机应用,2008,28(2):513-514. 被引量：44
2裴英博,刘晓霞.文本分类中改进型CHI特征选择方法的研究[J].计算机工程与应用,2011,47(4):128-130. 被引量：39
3XU Yan.A formal study of feature selection in text categorization[J].通讯和计算机（中英文版）,2009,6(4):32-41. 被引量：15
4刘海峰,苏展,刘守生.一种基于词频信息的改进CHI文本特征选择[J].计算机工程与应用,2013,49(22):110-114. 被引量：25
5徐明,高翔,许志刚,刘磊.基于改进卡方统计的微博特征提取方法[J].计算机工程与应用,2014,50(19):113-117. 被引量：14
6陈曦,李翔晨,李炜,楼宗元.基于信息熵的谣言信息度量方法[J].华中科技大学学报（自然科学版）,2013,41(S1):413-417. 被引量：5
7郭亚维,刘晓霞.文本分类中信息增益特征选择方法的研究[J].计算机工程与应用,2012,48(27):119-122. 被引量：28
8周城,葛斌,唐九阳,肖卫东.基于相关性和冗余度的联合特征选择方法[J].计算机科学,2012,39(4):181-184. 被引量：15

二级参考文献65

1徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
2陈治纲,何丕廉,孙越恒,郑小慎.基于向量空间模型的文本分类系统的研究与实现[J].中文信息学报,2005,19(1):36-41. 被引量：43
3唐焕玲,孙建涛,陆玉昌.文本分类中结合评估函数的TEF-WA权值调整技术[J].计算机研究与发展,2005,42(1):47-53. 被引量：26
4徐凤亚,罗振声.文本自动分类中特征权重算法的改进研究[J].计算机工程与应用,2005,41(1):181-184. 被引量：56
5孙国菊,张杰.中文文本分类的特征选取评价[J].哈尔滨理工大学学报,2005,10(1):76-78. 被引量：14
6李文斌,刘椿年,陈嶷瑛.基于特征信息增益权重的文本分类算法[J].北京工业大学学报,2006,32(5):456-460. 被引量：19
7潘灶烽,汪小帆,李翔.可变聚类系数无标度网络上的谣言传播仿真研究[J].系统仿真学报,2006,18(8):2346-2348. 被引量：87
8苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：389
9黄永光,刘挺,车万翔,胡晓光.面向变异短文本的快速聚类算法[J].中文信息学报,2007,21(2):63-68. 被引量：17
10Yang Y, Pedersen J O.A comparative study on feature selection in text eategorization[C]//Proceedings of the 14th International Conference on Machine Learning, ICML97.San Francisco, CA, USA: Morgan Kaufmann Publishers Inc, 1997.

共引文献145

1骆魁永.一种面向不均衡数据集的CHI特征选择改进算法[J].商丘师范学院学报,2021,37(6):9-13.
2黄永文,何中市,伍星.用户评论的分类获取[J].计算机应用,2009,29(3):846-848. 被引量：5
3刘春艳.基于信息可视化的文本挖掘研究领域前沿与演化分析[J].图书情报工作,2011,55(S2):270-272. 被引量：5
4杜一平,刘燕君.基于优势率的改进二元特征提取方法[J].计算机系统应用,2010,19(2):106-109. 被引量：1
5朱颢东,李红婵,钟勇.新颖的无监督特征选择方法[J].电子科技大学学报,2010,39(3):412-415. 被引量：4
6肖可,奉国和.1999～2008年国内文本分类研究文献计量分析[J].情报学报,2010,29(4):679-687. 被引量：6
7朱颢东,陈宁,李红婵.优化的互信息特征选择方法[J].计算机工程与应用,2010,46(26):122-124. 被引量：10
8妥晓娜,吴承勇.基于逻辑斯蒂方程的垃圾邮件过滤特征方法的研究[J].内蒙古大学学报（自然科学版）,2010,41(4):450-455.
9胡强.优化的互信息特征选择方法[J].湖南师范大学自然科学学报,2010,33(3):28-31. 被引量：1
10周瑞琼,朱颢东,吴洪丽.基于两种特征贡献度的特征选择[J].河南科技大学学报（自然科学版）,2010,31(5):44-47.

同被引文献65

1靳小波.文本分类综述[J].自动化博览,2006,23(z1):24-29. 被引量：16
2徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
3庞景安.Web文本特征提取方法的研究与发展[J].情报理论与实践,2006,29(3):338-340. 被引量：17
4周炎涛,唐剑波,王家琴.基于信息熵的改进TFIDF特征选择算法[J].计算机工程与应用,2007,43(35):156-158. 被引量：29
5熊忠阳,张鹏招,张玉芳.基于χ~2统计的文本分类特征选择方法的研究[J].计算机应用,2008,28(2):513-514. 被引量：44
6陈国松,黄大荣.基于信息熵的TFIDF文本分类特征选择算法研究[J].湖北民族学院学报（自然科学版）,2008,26(4):401-404. 被引量：5
7肖婷,唐雁.改进的χ^2统计文本特征选择方法[J].计算机工程与应用,2009,45(14):136-137. 被引量：26
8XU Yan.A formal study of feature selection in text categorization[J].通讯和计算机（中英文版）,2009,6(4):32-41. 被引量：15
9施聪莺,徐朝军,杨晓江.TFIDF算法研究综述[J].计算机应用,2009,29(B06):167-170. 被引量：218
10尤鸣宇,陈燕,李国正.不均衡问题中的特征选择新算法:Im-IG[J].山东大学学报（工学版）,2010,40(5):123-128. 被引量：9

引证文献8

1李军政,黄海,黄瑞阳,王康利.基于卡方检验和SVM的用户搜索画像技术研究[J].电子设计工程,2017,25(24):6-10. 被引量：4
2付鑫,王洪国,邵增珍,杜秋霞.不平衡数据集下特征词两面性的新型降维算法[J].计算机应用研究,2018,35(7):1947-1949. 被引量：1
3谭章禄,王兆刚,胡翰.一种基于χ~2统计的特征分类选择方法研究[J].数据分析与知识发现,2019,3(2):72-78. 被引量：3
4段国仑,谢钧,郭蕾蕾,王晓莹.Web文档分类中TFIDF特征选择算法的改进[J].计算机技术与发展,2019,29(5):49-53. 被引量：4
5管江红.基于χ~2统计量的不良文本过滤特征选择方法[J].现代电子技术,2019,42(21):182-186. 被引量：1
6刘辉,张振康,王韩林,晏飞扬.基于词频和信息熵改进的卡方特征选择[J].计算机仿真,2022,39(7):492-496.
7甄志龙,张居晓.卡方统计中基于KL散度的高维文本数据特征筛选[J].统计与决策,2022(17):43-46. 被引量：4
8冷婷,叶仁玉,徐思蓉.最大相关最小冗余两阶段文本特征选择方法[J].安徽理工大学学报（自然科学版）,2024,44(3):83-89.

二级引证文献16

1陈巧红,王磊,孙麒,贾宇波.卷积神经网络的短文本分类方法[J].计算机系统应用,2019,28(5):137-142. 被引量：13
2陈欢,黄勃,刘文竹,高永彬,姜晓燕.基于Python的网络新闻爬虫与检索[J].软件导刊,2019,18(5):168-171. 被引量：10
3董露露,马宁.基于改进信息增益的特征选择方法研究[J].萍乡学院学报,2019,36(3):84-90. 被引量：2
4陈泽宇,黄勃.基于LDA特征扩展的用户画像[J].软件导刊,2020,19(6):192-195. 被引量：2
5谭章禄,陈孝慈.改进的分类器分类性能评价指标研究[J].统计与信息论坛,2020,35(9):3-8. 被引量：15
6成洁.一种基于SVM的英/美式英语的文本分类方法[J].电子设计工程,2021,29(14):70-74. 被引量：4
7文武,万玉辉,张许红,文志云.基于改进CHI和PCA的文本特征选择[J].计算机工程与科学,2021,43(9):1645-1652. 被引量：5
8姚严志,李建良.基于类信息的TF-IDF权重分析与改进[J].计算机系统应用,2021,30(9):237-241. 被引量：8
9柴源.基于SVM的书目数据自动分类设计与应用研究[J].黑龙江科学,2021,12(24):18-21. 被引量：1
10吴宗卓.文本分类中TF-IDF算法的改进研究[J].计算技术与自动化,2022,41(2):84-86. 被引量：11

1石敏,康耀红.一种联合的文本分类特征抽取函数[J].海南大学学报（自然科学版）,2005,23(4):347-350.
2熊忠阳,张鹏招,张玉芳.基于χ~2统计的文本分类特征选择方法的研究[J].计算机应用,2008,28(2):513-514. 被引量：44
3庄世芳,林世平,陈旭晖,苏芳仲.基于概念集和粗集的中文Web文本挖掘特征提取的研究[J].福建电脑,2006,22(2):31-32. 被引量：1
4耿瑞焕,陈改霞.基于频度和类内精确度的x^2统计改进研究[J].电子技术与软件工程,2015(4):181-181.
5王维娜,康耀红,伍小芹.文本分类中特征选择方法研究[J].信息技术,2008,32(12):29-31. 被引量：3
6毛小丽,何中市,邢欣来,刘莉.基于特征选择的实体关系抽取[J].计算机应用研究,2012,29(2):530-532. 被引量：9
7李华昱,刘亚南,欧阳纯萍.一种χ2统计-遗传算法的特征提取技术研究[J].微型电脑应用,2012,28(2):55-58. 被引量：2
8陈晓云,李荣陆,胡运发.基于最小词频阈值的文档特征选择[J].模式识别与人工智能,2006,19(4):531-537. 被引量：7
9肖婷,唐雁.改进的χ^2统计文本特征选择方法[J].计算机工程与应用,2009,45(14):136-137. 被引量：26
10贾邓,杨颖.基于遗传算法的入侵检测技术研究[J].广西科学院学报,2013,29(4):259-261.

计算机工程与设计

2016年第5期

浏览历史

内容加载中请稍等...

基于X^2统计的改进文本特征选择方法被引量：8

参考文献8

二级参考文献65

共引文献145

同被引文献65

引证文献8

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于X^2统计的改进文本特征选择方法 被引量：8

参考文献8

二级参考文献65

共引文献145

同被引文献65

引证文献8

二级引证文献16

相关作者

相关机构

相关主题

浏览历史

基于X^2统计的改进文本特征选择方法被引量：8