期刊文献+

一种面向文本分类的特征迁移方法 被引量:1

Feature Transfer Learning for Text Categorization
下载PDF
导出
摘要 传统的文本分类方法假设训练集与测试集中的特征词服从相同的概率分布,但在实际应用中,以上假设存在偏差,会影响到最终的分类结果。针对这一情况,本文采用迁移学习,通过计算特征词的迁移量对训练集中向量空间模型进行修正,最终使训练集与测试集中特征词的分布概率趋于一致。将提出的方法应用于中文垃圾邮件过滤与中、英文网页分类中,在CHI统计特征选择基础上进行特征迁移,实验结果表明新方法可以有效消除特征词分布的差异性,使文本分类的各项指标明显提高。 Traditional text classification methods assume that feature words in the training set and test set follow the same probability distribution. Nevertheless, deviations exist in a practical application, which can affect the final classification results. To solve the problem, a feature transfer learning algorithm for text categorization is proposed. By calculating the transfer volume and amending the vector space model in the training set, the distribution probability of feature words can be reconciled for the training set and test set. Experiments on Chinese spam filtering and web page classification data sets demonstrate that the proposed method can eliminate the dissimilarity of distributions of feature words, and improve the va rious indexes of test classification evidently.
作者 赵世琛 王文剑 Zhao Shichen Wang Wenjian(School of Computer and Information Technology, Shanxi University, Taiyuan, 030006, Chin)
出处 《数据采集与处理》 CSCD 北大核心 2017年第3期516-522,共7页 Journal of Data Acquisition and Processing
基金 国家自然科学基金(60975035 61273291)资助项目 山西省回国留学人员科研基金(2012008)资助项目
关键词 文本分类 迁移学习 迁移量 向量空间模型 text categorization transfer learning transfer volume vector space model
  • 相关文献

参考文献2

二级参考文献17

  • 1王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量:20
  • 2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量:95
  • 3赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法[J].中文信息学报,2005,19(6):21-27. 被引量:21
  • 4盛骤,谢式千,潘乘毅.概率论与数理统计[M].北京:高等教育出版社,2010.
  • 5MitchellTM著 曾华军 张银奎译.机器学习[M].北京:机械工业出版社,2003..
  • 6Sebastiani F. Machine learning in automated text cat- egorization[J]. ACM Computing Surveys, 2002, 34 (1) : 1-9.
  • 7Finn A, Kushmeick N, Smyth B. Genre classifica- tion and domain transfer for information filtering[C] //Proceedings of the 24th BCS-IRSG European Col- loquium on Information Retrieval Research.. Ad- vances in Information Retrieval. UK.. Springer, 2002: 353-362.
  • 8Yu H, Hatzivassiloglou V. Towards answering opin- ion questions: Separating facts /rom opinions and i- dentifying the polarity of opinion sentences [C]// Proceedings of the 2003 Conference on EMNLP. USA: ACL, 2003: 129-136.
  • 9Pang B, Lee L. A sentimental education: sentiment analysis using subjectivity summarization based on minimum cuts [C] // Proceedings of the 42nd Annual Meeting of the Association for Computational Lin- guistics. Morristown, NJ, USA.. ACL, 2004.. 271- 278.
  • 10中国科学院计算技术研究所.ICTCLAS特色[EB/OL].http://ictclas.org/index.html,2008/2013.InstituteofComputingTechnology.ICTCLAS[EB/OL].http://ictclas.org/index.html,2008/2013.

共引文献433

同被引文献6

引证文献1

二级引证文献1

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部