期刊文献+

基于信息增益的中文文本关联分类 被引量:1

Chinese Text Based on Information Gain by Associative Classification
下载PDF
导出
摘要 关联分类是一种通过挖掘训练集中的关联规则,并利用这些规则预测新数据类属性的分类技术。最近的研究表明,关联分类取得了比传统的分类方法如C4.5更高的准确率。现有的基于支持度-置信度架构的关联分类方法仅仅是选择频繁文字构建分类规则,忽略了文字的分类有效性。本文提出一种新的ACIG算法,结合信息增益与FoilGain在中文文本中选择规则的文字,以提高文字的分类有效性。实验结果表明,ACIG算法比其他关联分类算法(CPAR)有更高的准确率。 Associative classification, which uses association rules in training set to predict the class label for new data object, has been recently reported to achieve higher accuracy than traditional classification approaches like C4.5. The exiting works which are based on support-confidence framework only select the frequent literals to construct classification rules, ignoring the contribution of literals' classificatory effects. In this paper, a novel associative classification algorithm, named ACIG, is proposed to integrate the effect of information gain and FoilGain for selecting the literals of rules from Chinese text, in order to improve the qualities of literals. Our experimental results show that ACIG outperform other associative classification approach (CPAR) on accuracy.
出处 《中文信息学报》 CSCD 北大核心 2007年第3期61-68,共8页 Journal of Chinese Information Processing
基金 国家自然科学基金资助项目(60573097) 国家科技计划资助项目(2004BA721A02) 广东省自然科学基金资助项目(05200302 06104916) 广东省科技计划资助项目(2005B10101032) 高等学校博士学科点专项科研基金资助项目(20050558017) 华南理工大学自然科学青年基金项目 学生研究计划资助项目
关键词 计算机应用 中文信息处理 信息增益 关联分类 文本分类 computer application Chinese information processing information gain associative classification text categorization
  • 相关文献

参考文献19

二级参考文献104

  • 1王映,常毅,谭建龙,白硕.基于N元汉字串模型的文本表示和实时分类的研究与实现[J].计算机工程与应用,2005,41(5):88-91. 被引量:5
  • 2张璠.多种策略改进朴素贝叶斯分类器[J].微机发展,2005,15(4):35-36. 被引量:11
  • 3刘静,尹存燕,陈家骏.一种规则和贝叶斯方法相结合的文本自动分类策略[J].计算机应用研究,2005,22(7):84-86. 被引量:7
  • 4黄友平,史忠植.基于信息几何构建朴素贝叶斯分类器[J].通讯和计算机(中英文版),2005,2(2):1-6. 被引量:1
  • 5黄昌宁 等.对自动分词的反思[A]..语言计算与基于内容的文本处理[C].北京:清华大学出版社,2003,7.26-38.
  • 6Yiming Yang, An evaluation of statistical approaches to text categorization[J]. In:Journal of Information Retrieval,1999,1(2) :67 - 88.
  • 7Jian-yun Nie, Jianfeng Gao etc. On the Use of Words and N-grams for Chinese Information Retrieval[A]. Fifth International Workshop on Information Retrieval with Asian Languages [ C ]. Hong Kong, September 30 - October 1,2000.
  • 8S.E.Robers and S.Walker, Okapi/Keenbow at TREC8[A] .In:E.M. Voorhees and D.K.Harmann, editor, Proceedings of the Eighth Text Retrieval Conference(TREC- 8)[C] ,Gaithershurg,2000.
  • 9Fabrizio Sebastiani. Machine Learning in Automated Text Categorization[ J]. ACM Computing Surveys, 2002,34:1 -47.
  • 10D. Lewis, Ringuette. A Comparison of Two Learning Algorithms for Text Categorization[ A]. Symposium on Document Analysis and IR[ C], Las Vegas: 1994,81 - 93.

共引文献362

同被引文献11

引证文献1

二级引证文献9

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部