基于遗传算法和信息熵的文本分类规则抽取方法研究被引量：3

Research on Method of Text Classification Rule Extraction Based on Genetic Algorithm and Entropy

下载PDF

导出

摘要针对数据挖掘中的文本分类问题,提出了一种基于遗传算法和信息熵的文本分类规则抽取算法Genet-ic-Miner(简称GM),该算法的目标是在数据集中发现分类规则。首先利用信息熵生成初始种群,然后利用优化的遗传算法抽取相应规则。采用六个标准的公共领域的数据集比较了GM与其它两个非常著名的同类算法Ant-Miner和CN2,实验结果表明,无论是预测准确性和规则的简单性,GM都明显优于Ant-Miner和CN2,并且该算法能大大提高对知识的理解力。 Aimed at the text classification problems in data mining, a text classification rule extraction method is proposed based on genetic algorithm and entropy for rule discovery called Genetic-Miner （GM）. The goal of GM is to discover classification rules in data sets. It produces population with the entropy and then extract classification rule with genetic algorithm. Compared the performance of GM with other tWO well-known algorithms Ant-miner and CN2 in six public domain data sets, the results showed that GM has a better performance in both predictive accuracy and rule list simplicity criteria than Ant-Miner and CN2. It can also mostly improve the comprehensibility of the discovered knowledge.

作者唐华曾碧卿

机构地区华南师范大学南海校区计算机工程系

出处《中山大学学报（自然科学版）》 CAS CSCD 北大核心 2007年第5期18-21,24,共5页 Acta Scientiarum Naturalium Universitatis Sunyatseni

基金国家自然科学基金资助项目(60573127)

关键词文本分类规则知识发现信息熵遗传算法数据挖掘 text classification rule data mining discover knowledge information entropy genetic algorithm

分类号 TP182 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献12

1BOSE I, MAHAPATRA R K. Business data mining-a machine learning perspective [ J ]. Information &Management,2001, 39 (3) : 211 - 225.
2王明春,王正欧,张楷,郝玺龙.一种基于CHI值特征选取的粗糙集文本分类规则抽取方法[J].计算机应用,2005,25(5):1026-1028. 被引量：8
3SHIYong-feng ZHAOYan-ping.Comparison of Text Categorization Algorithms[J].Wuhan University Journal of Natural Sciences,2004,9(5):798-804. 被引量：4
4TAN K C, YU Q, LEE T H. A distributed evolutionary classifier for knowledge discovery in data mining [ J ]. IEEE Transactions on Systems, Man and Cybernetics, Part C : Applications and Reviews, 2005, 35 (2) : 131 - 142.
5YANG YIMING. An evaluation of statistical approaches to text categorization [ J ]. Journal of Information Retrieval, 1999 ( 1/2 ) : 67 - 88
6COVER T M, THOMAS J A. Elements of Information Theory[ M]. New York: John Wiley Presss, 1991.
7KOHAVI R, SAHAMI M. Error- based and entropybased discretization of continuous features [ C ]. Proceedings of second international conference on Knowledge Discovery and Data Mining. Menlo Park, USA, 1996.
8QUINLAN J R. C4.5: Programs for Machine Learning [ M ]. San Francisco, CA : Morgan Kaufmann Publishers Inc, 1993.
9CLARK P, NIBLETT T. The CN2 induction algorithm [J]. Machine Learning, 1989, 3(4) : 261 -283.
10CLARK P, BOSWELL R. Rule induction with CN2: Some recent improvements[ C]. Lecture Notes in Artificial Intelligence. Berlin :Springer - Verlag, 1991 : 151 - 163.

二级参考文献5

1SHEN Q. Alexios chouchoulas. A rough-fuzzy approach for generating classification rules[J]. Pattern Recogonition, 2002,(35):2425-2438.
2CHEN YQ.Implementing the k-nearest neighbour rule via a neural network[A]. IEEE International Conference on Neural Networks[C], 1995, vol.1.136-140.
3PAWLAK Z, GRAYMALA-BAUSSE J,Slowinski R. Rough sets[J]. Communications of the ACM, 1995,38(11):89-95.
4HAN J, KAMBR M.DATA MINING: Concepts and techniques[M].Beijing: Higher Education Press, 2001.
5常犁云,263.net,王国胤,263.net,吴渝,263.net.一种基于Rough Set理论的属性约简及规则提取方法[J].软件学报,1999,10(11):1206-1211. 被引量：285

共引文献10

1王智勇,王正欧.一种统计降维和Kohonen网络相结合的文本聚类方法[J].计算机应用,2005,25(10):2328-2330. 被引量：3
2应伟,王正欧,安金龙.一种基于改进的支持向量机的两类文本分类方法的研究[J].现代图书情报技术,2005(12):44-47.
3应伟,王正欧,安金龙.一种基于改进的支持向量机的多类文本分类方法[J].计算机工程,2006,32(16):74-76. 被引量：28
4张运良,张全.基于句类向量空间模型的自动文本分类研究[J].计算机工程,2007,33(22):45-47. 被引量：6
5张运良,张全.柔性KNN算法研究[J].计算机工程与应用,2007,43(34):25-28. 被引量：3
6郑家恒,张虎,魏善德,谭红叶.面向中文文本的欺骗行为检测方法研究[J].山西大学学报（自然科学版）,2009,32(4):541-545. 被引量：2
7樊中华,侯占斌,张晨星,马骁.基于最小二乘支持向量机的网页主题语义分类的研究[J].计算机应用与软件,2009,26(12):53-55. 被引量：2
8李建林.一种基于PCA的组合特征提取文本分类方法[J].计算机应用研究,2013,30(8):2398-2401. 被引量：24
9周云成,许童羽,邓寒冰.基于NB和CHI值的农业文本分类方法[J].江苏农业科学,2018,46(17):219-223. 被引量：4
10徐宇淼,徐文静,胡清洁.求解L1正则化L2损失支持向量机问题的多层随机坐标下降算法[J].桂林电子科技大学学报,2022,42(2):143-147.

同被引文献44

1王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
2王煜,王正欧.基于模糊决策树的文本分类规则抽取[J].计算机应用,2005,25(7):1634-1637. 被引量：13
3莫宏伟,唐娜,金鸿章,徐立芳,吕淑萍,管凤旭.免疫阴性选择分类器在信息恢复中的应用[J].计算机学报,2005,28(8):1314-1319. 被引量：7
4苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：383
5余燕芳,陆军.基于改进遗传算法的服务器端负载均衡算法[J].微电子学与计算机,2007,24(7):146-148. 被引量：6
6Cai Y, Cercone N, Hart J. Attribute-oriented Induction in relational databases, Knowledge Discovery in Databases [M]. Cambridge, MA: MIT Press, 1991.
7Han J, Fu Y. Attribute-oriented induction in data mining, advances in knowledge discovery and data mining [M]. Cambridge, MA : MIT Press, 1996.
8Koonce D A, Tsai S C. Using data mining to find patterns in genetic algorithm sotutlons to a joh shop schedule [J]. Computers & Industrial. Engineering, 2000, 38(2): 361-374.
9Chi Z, Nelson P C, Xiao W M, et al. An intelligent data mining system for drop test analysis of electronic products [J]. IEEE Transactions on Electronics Packaging Manufacturing, 2001,24(3 ) : 222-231.
10Kusiak A. Feature transformation methods in data mining [J]. IEEE Transactions on Electronics Packaging Manufacturing, 2001, 24 (3): 214-221.

引证文献3

1肖伟平,何宏.基于遗传算法的数据挖掘方法及应用[J].湖南科技大学学报（自然科学版）,2009,24(3):82-86. 被引量：7
2刘赫,刘大有,裴志利,高滢.基于多种群协同优化的文本分类规则抽取方法[J].自动化学报,2009,35(10):1334-1340. 被引量：4
3徐雪松,王四春,李灿.基于掩码匹配的免疫否定选择文本分类方法[J].情报学报,2012,31(7):715-721.

二级引证文献11

1秦仲篪,李海涛,李勇,肖鹏辉.供应链物流信息系统研究综述[J].物流技术,2010,29(8):117-120. 被引量：3
2王恩,束龙仓,刘丽红,黄币娟.基于改进支持向量回归的岩溶天窗水位预测模型[J].河海大学学报（自然科学版）,2011,39(1):20-23. 被引量：3
3董朝阳,陈珂,葛新.基于CMDB的ITIL决策支持研究[J].机械设计与制造,2011(9):266-268. 被引量：3
4王会金.中观信息系统审计风险控制体系研究——以COBIT框架与数据挖掘技术相结合为视角[J].审计与经济研究,2012,27(1):16-23. 被引量：24
5张瑜,娄卉芳,文良浩,熊颉.一种改进的遗传算法交叉策略[J].湖南科技大学学报（自然科学版）,2012,27(1):94-97. 被引量：13
6徐雪松,王四春,李灿.基于掩码匹配的免疫否定选择文本分类方法[J].情报学报,2012,31(7):715-721.
7罗毅辉,熊曙初.个人投资者信息源的选择模式与特征[J].情报杂志,2015,34(12):152-158. 被引量：2
8孙林,陈德鸿,王明煌,蒋洁琼.基于GA的Tokamak聚变堆芯参数优化方法研究[J].核科学与工程,2017,37(1):73-79.
9王一敏,梁治钢.基于免疫遗传算法的抗菌药物数据挖掘[J].计算机系统应用,2017,26(3):156-161. 被引量：6
10邓春宇,沙宇恒,任玲玲,陈文静,严俊.基于智能聚类算法的企业储备项目数据价值挖掘应用研究[J].电力信息与通信技术,2021,19(11):44-55. 被引量：1

1王煜 ,王正欧 ,王明春 .基于粗集和决策树的Web文本分类规则抽取[J].情报学报,2005,24(6):674-678. 被引量：4
2李泽峰,王煜.基于RBF神经网络和关联规则的Web文本分类规则获取方法[J].图书情报工作,2006,50(10):90-92. 被引量：1
3王海涌,郑丽英.基于粗糙集理论文本分类规则的优化方法[J].甘肃科学学报,2008,20(2):99-102.
4王明春,王正欧,张楷,郝玺龙.一种基于CHI值特征选取的粗糙集文本分类规则抽取方法[J].计算机应用,2005,25(5):1026-1028. 被引量：8
5张仲明,于明光,郭东伟.基于聚类的神经网络规则抽取算法[J].吉林大学学报（信息科学版）,2010,28(5):506-512. 被引量：4
6邵晓艳,王艳,李玲玲,胡欣茹.Ant-Miner算法研究和性能优化[J].河南师范大学学报（自然科学版）,2012,40(3):154-157.
7张德贤,张苗,谭一鸣.基于启发式信息的支持向量机规则抽取[J].计算机应用,2008,28(3):729-731.
8郑章汝,王红敏,李冬,吴彬.基于TMS320C6678的雷达信号处理机设计[J].工业控制计算机,2012,25(11):14-15. 被引量：10
9邱江涛,唐常杰,乔少杰,段磊,刘齐宏.基于加权频繁项集的文本分类规则挖掘[J].四川大学学报（工程科学版）,2008,40(6):110-114. 被引量：3
10李桂成,张惠萍.基于双条件选择策略的Ant-Miner算法[J].计算机工程与应用,2009,45(11):147-149. 被引量：2

中山大学学报（自然科学版）

2007年第5期

浏览历史

内容加载中请稍等...

基于遗传算法和信息熵的文本分类规则抽取方法研究被引量：3

参考文献12

二级参考文献5

共引文献10

同被引文献44

引证文献3

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于遗传算法和信息熵的文本分类规则抽取方法研究 被引量：3

参考文献12

二级参考文献5

共引文献10

同被引文献44

引证文献3

二级引证文献11

相关作者

相关机构

相关主题

浏览历史

基于遗传算法和信息熵的文本分类规则抽取方法研究被引量：3