一种迭代加权的元样本稀疏表示中文文本分类算法

An Interactive Weighted Metasample Based Sparse Representation Chinese Text Classification Algorithm

下载PDF

导出

摘要为进一步提高文本分类的准确率和鲁棒性,在元样本稀疏表示分类算法的基础上,提出一种迭代加权的元样本稀疏表示文本分类算法,该算法在每一步迭代中依据一定的规则有监督地对权系数进行调整,使目标函数值被限定在较小的范围内,逐步逼近最优拉格朗日乘子,以得到更加稀疏的样本表示系数。实验结果表明,与经典的文本分类算法KNN、SVM及非加权的MSRC算法相比,提出的文本分类算法具有较高的准确率和较好的鲁棒性。 In order to improve the accuracy and robustness of text classification, this paper proposes an interactive weighted metasample based sparse representation text classification algorithm on the basis of metasample based sparse representation coding. In each iteration step, the method can adjust weight coefficient through supervision according to certain rules, which make the value of objective function be restricted to a small range, and make the weight coefficient gradually approach to the optimal lagrange multi- plier to obtain a more sparse sample representation coefficient. The experimental result shows that the proposed classification algorithm has better robustness and higher accuracy than the classical text classification algorithm KNN, SVW and non-weighted MSRC.

作者李秀霞邵作运郑春厚

机构地区曲阜师范大学信息技术与传播学院曲阜师范大学图书馆

出处《情报理论与实践》 CSSCI 北大核心 2014年第6期128-132,共5页 Information Studies:Theory & Application

基金山东省高校人文社会科学基金项目"知识网格环境下用户模型构建研究"的系列成果之一项目编号:J11WL01

关键词文本分类元样本分类算法 text classification metasample classification algorithm

分类号 TP391.1 [自动化与计算机技术—计算机应用技术] G254.1 [文化科学—图书馆学]

引文网络
相关文献

参考文献15

1庞观松,蒋盛益.文本自动分类技术研究综述[J].情报理论与实践,2012,35(2):123-128. 被引量：33
2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：384
3杨林波,王士同.基于边界可信度相似的快速文本分类方法[J].计算机工程与应用,2009,45(4):156-158. 被引量：3
4刘海峰,刘守生,姚泽清.文本分类中基于训练样本空间分布的K近邻改进算法[J].情报学报,2013,32(1):80-85. 被引量：9
5LU Shinghua, CHIANG Ding' an, KEH Huanchao, et al. Chi- nese text classification by the Nave Bayes classifier and theasso- ciative classifier with multiple confidence threshold values [ J ]. Knowledge-Based Systems, 2010,23 ( 6 ) : 598 -604.
6XU Qinan, LIU Zhijing. Automatic Chinese text classification based on NSVMDT-KNN [ C ] //Prec. of the 5th International Conference on Fuzzy Systems and Knowledge Discovery, Shan- dong, China, 2008: 410-414.
7LIU Reylong. Dynamic category profiling for text filtering and classification [ J ]. Information Processing & Management, 2007, 43 (1) : 154-168.
8张玉芳,万斌候,熊忠阳.文本分类中的特征降维方法研究[J].计算机应用研究,2012,29(7):2541-2543. 被引量：36
9WANG J H, XU Y, YOU J. Sparse residue for occluded faceimage reconstruction and classification [ C ]. Pattern Recongni- tion (ICPR), 2012 21st International Conference, 2012, 11 : 1707-1710.
10范少萍,郑春厚,王召兵.基于元样本稀疏表示分类器的文本资源分类[J].图书情报工作,2011,55(16):115-118. 被引量：3

二级参考文献104

1王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
3刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
4赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法[J].中文信息学报,2005,19(6):21-27. 被引量：21
5陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
6苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：384
7印鉴,谭焕云.基于χ~2统计量的kNN文本分类算法[J].小型微型计算机系统,2007,28(6):1094-1097. 被引量：13
8Yang Yi-ming.An evaluation of statistical approach to text categorization,Technical Report CMU-CS-97-127[R].Computer Science Department,Carnegie Mellon University,1997.
9Yang Y,Liu X.A re-examination of text categorization methods[C]// Proceedings of SIGIR-99,22nd ACM International Conference on Research and Development in Information Retrieval, 1999:42-49.
10Yang Y,Pedersen J O.A comparative study on feature selection in text categorization[C]//Proceedings of the Fourteenth International Conference on Machine Leaming(ICML'97),1997.

共引文献453

1李林,刁磊,唐詹,柏召,周晗,郭旭超.基于BERT_Stacked LSTM的农业病虫害问句分类方法[J].农业机械学报,2021,52(S01):172-177. 被引量：6
2姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
3张小艳,李强.基于SVM的分类方法综述[J].科技信息,2008(28):344-345. 被引量：23
4王辉,左万利,袁华.一种基于质心与本体的文本分类方法[J].计算机研究与发展,2007,44(z2):6-11. 被引量：3
5徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
6袁志坚,贾焰.基于误差反馈的高速Web文本流快速近似分类[J].计算机研究与发展,2007,44(z3):13-17.
7贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
8陈思,钱铭宇,刘昌明.文本分类技术研究进展[J].电脑编程技巧与维护,2009(S1):22-24.
9李艾林,李照耀.基于朴素贝叶斯技术的藏文文本分类[J].中文信息,2013(11). 被引量：3
10伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7

1房营光,潘纪浩.分步迭代加权残值法[J].上海力学,1989,10(4):54-61. 被引量：2
2谭姗姗,张培倩,李再兴.基于迭代加权回归的推荐算法[J].数学理论与应用,2014,34(3):38-47. 被引量：1
3董博,姚治海,李喆,常锋,于佳意,王晓茜.压缩感知OMP算法与IRLS算法在计算鬼成像中的对比分析[J].长春理工大学学报（自然科学版）,2016,39(1):21-27. 被引量：7
4朱凯然,何学辉,吴惠阳,张旺,苏涛.一种单自旋回波串信号参数估计方法[J].电子学报,2013,41(3):456-462. 被引量：2
5贾利新,张斌.一种中文分词的动态规划模型[J].数学建模及其应用,2015,4(1):33-36.
6李亚玲,胡宝安,李梅英.基于截断加权基追踪模型的迭代支撑探测算法[J].计算数学,2015,37(1):42-56. 被引量：1
7胡晓军,郑子文,戴一帆,李圣怡.控制三维光场的纯相位衍射光学元件优化设计[J].应用光学,2007,28(6):778-782.
8石洪波,王志海,黄厚宽.贝叶斯文本分类方法研究[J].高等财经教育研究,2002,8(S1):87-88. 被引量：2
9陈传法,李伟,李明飞,戴洪磊.DEM构建的多面函数加权抗差算法[J].地球信息科学学报,2013,15(6):840-845. 被引量：4
10黄浴,袁保宗.基于修正最小平方中值定理的鲁棒运动估计[J].电子学报,1996,24(7):27-31. 被引量：2

情报理论与实践

2014年第6期

浏览历史

内容加载中请稍等...

一种迭代加权的元样本稀疏表示中文文本分类算法

参考文献15

二级参考文献104

共引文献453

相关作者

相关机构

相关主题

浏览历史