摘要
关联分类是一种通过挖掘训练集中的关联规则,并利用这些规则预测新数据类属性的分类技术。最近的研究表明,关联分类取得了比传统的分类方法如C4.5更高的准确率。现有的基于支持度-置信度架构的关联分类方法仅仅是选择频繁文字构建分类规则,忽略了文字的分类有效性。本文提出一种新的ACIG算法,结合信息增益与FoilGain在中文文本中选择规则的文字,以提高文字的分类有效性。实验结果表明,ACIG算法比其他关联分类算法(CPAR)有更高的准确率。
Associative classification, which uses association rules in training set to predict the class label for new data object, has been recently reported to achieve higher accuracy than traditional classification approaches like C4.5. The exiting works which are based on support-confidence framework only select the frequent literals to construct classification rules, ignoring the contribution of literals' classificatory effects. In this paper, a novel associative classification algorithm, named ACIG, is proposed to integrate the effect of information gain and FoilGain for selecting the literals of rules from Chinese text, in order to improve the qualities of literals. Our experimental results show that ACIG outperform other associative classification approach (CPAR) on accuracy.
出处
《中文信息学报》
CSCD
北大核心
2007年第3期61-68,共8页
Journal of Chinese Information Processing
基金
国家自然科学基金资助项目(60573097)
国家科技计划资助项目(2004BA721A02)
广东省自然科学基金资助项目(05200302
06104916)
广东省科技计划资助项目(2005B10101032)
高等学校博士学科点专项科研基金资助项目(20050558017)
华南理工大学自然科学青年基金项目
学生研究计划资助项目
关键词
计算机应用
中文信息处理
信息增益
关联分类
文本分类
computer application
Chinese information processing
information gain
associative classification
text categorization