面向文本分类的混合特征降维策略

Mixed feature dimension reduction strategy for text categorization

下载PDF

导出

摘要特征降维一直是文本分类的重要研究内容,针对现有特征选择方法中普遍存在误删除强区分类别能力特征而保留弱区分类别能力特征的现象,提出了一种有效的特征降维策略,该方法首先对特征进行了定义和量化,通过建立单源特征保留集,删除所有类中的公共特征,再对多源特征权值进行调整,从而达到特征削减和提高分类性能的目的。在Reuters-21578,NewsGroup语料集上进行的实验对比中表明,新的降维策略是有效可行的。 Feature dimensionality reduction has been an important research on text classification. An effective way to achieve feature dimensionality reduction is to design efficient feature selection methods. Based on the existing feature selection methods, in which the phenomenon of removing the strong features of distinction between the catego- ries ability and keeping the weak ones exists, the paper presents an efficient feature reduction algorithm, which firstly defines and quantifies features to establish the unisource feature retained set and forcibly removes the common features in all classes, and then adjusts the weights of the multi - source feature so as to achieve the target of feature reduction and improve the classification performance. Finally, a comparative analysis experiment is conducted in the Reuters - -21 578, NewsGroups corpus. The experimental result indicates that the algorithm is effective and feasible.

作者王东

机构地区贵州师范学院数学与计算机科学学院

出处《贵州师范学院学报》 2012年第6期6-10,共5页 Journal of Guizhou Education University

关键词文本分类单源特征多源特征特征降维特征选择 text categorization uniseurce feature multisource feature feature dimensionality reduction feature selection

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1徐燕,李锦涛,王斌,孙春明.基于区分类别能力的高性能特征选择方法[J].软件学报,2008(1):82-89. 被引量：83
2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
3宋枫溪,高秀梅,刘树海,杨静宇.统计模式识别中的维数削减与低损降维[J].计算机学报,2005,28(11):1915-1922. 被引量：44

二级参考文献42

1王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
3宣国荣,柴佩琪.基于Chernoff上界的特征选择[J].模式识别与人工智能,1996,9(1):26-30. 被引量：2
4刘伟权,王明会,钟义信.利用遗传算法实现手写体数字识别中特征维数的压缩[J].模式识别与人工智能,1996,9(1):45-51. 被引量：4
5赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法[J].中文信息学报,2005,19(6):21-27. 被引量：21
6宣国荣,柴佩琪.基于巴氏距离的特征选择[J].模式识别与人工智能,1996,9(4):324-329. 被引量：16
7苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386
8Wiener E., Pedersen J.O., Weigend A.S.. A neural network approach to topic spotting. In: Proceedings of the 4th Annual Symposium on Document Analysis and Information Retrieval, 1995, 317～332
9Haykin Smon. Neural Networks: A Comprehensive Foundation. Second Edition. Beijing: Tsinghua University Press, 2001
10Scholkopf B., Smola A., Mulle K.R.. Nonlinear component analysis as a kernel eigenvalue problem. Max-Planck-Institute, Germany: Technical Report No. 44, 1996

共引文献492

1李林,刁磊,唐詹,柏召,周晗,郭旭超.基于BERT_Stacked LSTM的农业病虫害问句分类方法[J].农业机械学报,2021,52(S01):172-177. 被引量：6
2姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
3张小艳,李强.基于SVM的分类方法综述[J].科技信息,2008(28):344-345. 被引量：23
4王辉,左万利,袁华.一种基于质心与本体的文本分类方法[J].计算机研究与发展,2007,44(z2):6-11. 被引量：3
5徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
6袁志坚,贾焰.基于误差反馈的高速Web文本流快速近似分类[J].计算机研究与发展,2007,44(z3):13-17.
7贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
8陈思,钱铭宇,刘昌明.文本分类技术研究进展[J].电脑编程技巧与维护,2009(S1):22-24.
9李艾林,李照耀.基于朴素贝叶斯技术的藏文文本分类[J].中文信息,2013(11). 被引量：3
10伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7

1张玉玲,尹传环.基于SVM的安卓恶意软件检测[J].山东大学学报（工学版）,2017,47(1):42-47. 被引量：4
2董建设,袁占亭,张秋余.基于多种核函数的SVM在垃圾邮件过滤中的应用[J].计算机应用,2008,28(2):424-427. 被引量：3
3王金聚.谈谈求解物理问题的降维策略[J].复印报刊资料（中学物理教与学）,2010(1):52-54.
4王金聚.谈谈求解物理问题的降维策略[J].物理教师（高中版）,2009,30(9):58-60. 被引量：1
5李军国,代廷平,崔秉良.二次建模在政府信息化软件开发中的应用与研究[J].电子技术应用,2009,35(3):112-114. 被引量：3
6马家军.针对人脸个体差异性的核线性判别分析[J].商洛学院学报,2016,30(2):10-14.
7张艺濒,谢金晶.基于BM的多文件静态公共特征提取算法优化[J].现代电子技术,2007,30(7):109-111. 被引量：1
8朱军,佟茉薇,蒋喆.网格安全互操作及其在滚动轴承生产中的应用[J].信息与电脑（理论版）,2010(3):186-186.
9王忠丰.基于离散余弦变换的二值特征描述子应用[J].中国科技信息,2015(11):18-20.
10高田,马艳红,许正磊.基于代理的虚拟实验室系统[J].微电子学与计算机,2005,22(1):88-91.

贵州师范学院学报

2012年第6期

浏览历史

内容加载中请稍等...

面向文本分类的混合特征降维策略

参考文献3

二级参考文献42

共引文献492

相关作者

相关机构

相关主题

浏览历史