一种面向文本分类的特征迁移方法被引量：1

Feature Transfer Learning for Text Categorization

下载PDF

导出

摘要传统的文本分类方法假设训练集与测试集中的特征词服从相同的概率分布,但在实际应用中,以上假设存在偏差,会影响到最终的分类结果。针对这一情况,本文采用迁移学习,通过计算特征词的迁移量对训练集中向量空间模型进行修正,最终使训练集与测试集中特征词的分布概率趋于一致。将提出的方法应用于中文垃圾邮件过滤与中、英文网页分类中,在CHI统计特征选择基础上进行特征迁移,实验结果表明新方法可以有效消除特征词分布的差异性,使文本分类的各项指标明显提高。 Traditional text classification methods assume that feature words in the training set and test set follow the same probability distribution. Nevertheless, deviations exist in a practical application, which can affect the final classification results. To solve the problem, a feature transfer learning algorithm for text categorization is proposed. By calculating the transfer volume and amending the vector space model in the training set, the distribution probability of feature words can be reconciled for the training set and test set. Experiments on Chinese spam filtering and web page classification data sets demonstrate that the proposed method can eliminate the dissimilarity of distributions of feature words, and improve the va rious indexes of test classification evidently.

作者赵世琛王文剑 Zhao Shichen Wang Wenjian(School of Computer and Information Technology, Shanxi University, Taiyuan, 030006, Chin)

机构地区山西大学计算机与信息技术学院

出处《数据采集与处理》 CSCD 北大核心 2017年第3期516-522,共7页 Journal of Data Acquisition and Processing

基金国家自然科学基金(60975035 61273291)资助项目山西省回国留学人员科研基金(2012008)资助项目

关键词文本分类迁移学习迁移量向量空间模型 text categorization transfer learning transfer volume vector space model

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1邸鹏,段利国.一种新型朴素贝叶斯文本分类算法[J].数据采集与处理,2014,29(1):71-75. 被引量：51
2苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：386

二级参考文献17

1王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
3赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法[J].中文信息学报,2005,19(6):21-27. 被引量：21
4盛骤,谢式千,潘乘毅.概率论与数理统计[M].北京:高等教育出版社,2010.
5MitchellTM著曾华军张银奎译.机器学习[M].北京:机械工业出版社,2003..
6Sebastiani F. Machine learning in automated text cat- egorization[J]. ACM Computing Surveys, 2002, 34 (1) : 1-9.
7Finn A, Kushmeick N, Smyth B. Genre classifica- tion and domain transfer for information filtering[C] //Proceedings of the 24th BCS-IRSG European Col- loquium on Information Retrieval Research.. Ad- vances in Information Retrieval. UK.. Springer, 2002: 353-362.
8Yu H, Hatzivassiloglou V. Towards answering opin- ion questions: Separating facts /rom opinions and i- dentifying the polarity of opinion sentences [C]// Proceedings of the 2003 Conference on EMNLP. USA: ACL, 2003: 129-136.
9Pang B, Lee L. A sentimental education: sentiment analysis using subjectivity summarization based on minimum cuts [C] // Proceedings of the 42nd Annual Meeting of the Association for Computational Lin- guistics. Morristown, NJ, USA.. ACL, 2004.. 271- 278.
10中国科学院计算技术研究所.ICTCLAS特色[EB/OL].http://ictclas.org/index.html,2008/2013.InstituteofComputingTechnology.ICTCLAS[EB/OL].http://ictclas.org/index.html,2008/2013.

共引文献433

1李林,刁磊,唐詹,柏召,周晗,郭旭超.基于BERT_Stacked LSTM的农业病虫害问句分类方法[J].农业机械学报,2021,52(S01):172-177. 被引量：6
2姚学恒,张萍,闫立伟,操诚.基于机器学习的企业秘密文档自动分类方法[J].产业与科技论坛,2020,19(7):44-45.
3张小艳,李强.基于SVM的分类方法综述[J].科技信息,2008(28):344-345. 被引量：23
4王辉,左万利,袁华.一种基于质心与本体的文本分类方法[J].计算机研究与发展,2007,44(z2):6-11. 被引量：3
5徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
6袁志坚,贾焰.基于误差反馈的高速Web文本流快速近似分类[J].计算机研究与发展,2007,44(z3):13-17.
7贾志洋,高炜,王勇刚.结合信息检索技术的半监督文本分类方法[J].苏州大学学报（自然科学版）,2012,28(1):34-39. 被引量：1
8陈思,钱铭宇,刘昌明.文本分类技术研究进展[J].电脑编程技巧与维护,2009(S1):22-24.
9李艾林,李照耀.基于朴素贝叶斯技术的藏文文本分类[J].中文信息,2013(11). 被引量：3
10伍洋,钟鸣,姜艳,李石君.面向审计领域的短文本分类技术研究[J].微电子学与计算机,2015,32(1):5-10. 被引量：7

同被引文献6

1公茂果,焦李成,杨咚咚,马文萍.进化多目标优化算法研究[J].软件学报,2009,20(2):271-289. 被引量：399
2陶文华,刘洪涛.基于差分进化与NSGA-Ⅱ的多目标优化算法[J].计算机工程,2016,42(11):219-224. 被引量：9
3徐茂鑫,张孝顺,余涛.迁移蜂群优化算法及其在无功优化中的应用[J].自动化学报,2017,43(1):83-93. 被引量：18
4路艳雪,赵超凡,吴晓锋,韩晓霞.基于改进的NSGA-Ⅱ多目标优化方法研究[J].计算机应用研究,2018,35(6):1733-1737. 被引量：30
5廖祥文,吴晓静,桂林,黄锦辉,陈国龙.结合表示学习和迁移学习的跨领域情感分类[J].北京大学学报（自然科学版）,2019,55(1):37-46. 被引量：9
6谢碧森,段清,刘俊晖,廖赟,张逸.基于迁移学习的家猪图像识别研究[J].软件导刊,2020,19(7):36-40. 被引量：6

引证文献1

1刘璐,蒋艳.基于迁移学习的NSGAⅡ算法[J].软件导刊,2021,20(3):134-138. 被引量：1

二级引证文献1

1李晰,李帅,冯艳红,李明亮.基于联合分布适配的单向迁移差分进化算法[J].郑州大学学报（工学版）,2023,44(5):24-31. 被引量：1

1赵思逸,陈靖,龚水清.基于节点可靠度的虚拟SDN映射算法[J].计算机应用研究,2017,34(7):2134-2139. 被引量：1
2严宇平,吴石松,王建永,张璐.企业移动网站中投资盈利信息检测仿真研究[J].计算机仿真,2017,34(6):423-426.
3余光亮,余静.单目视频图像序列中的运动目标的三维姿态重建[J].网络安全技术与应用,2017(6):137-138.

数据采集与处理

2017年第3期

浏览历史

内容加载中请稍等...

一种面向文本分类的特征迁移方法被引量：1

参考文献2

二级参考文献17

共引文献433

同被引文献6

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种面向文本分类的特征迁移方法 被引量：1

参考文献2

二级参考文献17

共引文献433

同被引文献6

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

一种面向文本分类的特征迁移方法被引量：1