基于免疫算法的文本分类研究被引量：6

Research of Text Categorization Based on Immune Algorithm

下载PDF

导出

摘要借鉴免疫的生物学机理,本文提出了一种基于抗体浓度的克隆选择算法,该算法中抗体的选择概率由亲和度与浓度共同决定,具有高亲和度和低浓度的抗体才受到促进。该算法在文本分类领域得到了成功应用。在文本分类的应用中,抗原、B细胞和抗体分别对应训练文本、分类器的一个解和分类器的解与训练文本的亲和度,最后训练完成的分类器含有多个记忆细胞,有效保证了解的多样性。在数据集20_newsgroups上的实验结果显示,该方法的综合性能指标F1可达80.90%,优于Rocchio法与Naive Bayes法。 The clonal selection principle and density control mechanism are used by the natural immune system to define the features of an immune response to an antigenic stimulus. It establishes the ideas that only those ceils that have higher affinity and lower density are selected to proliferate. A new algorithm, called the Clonal Selection Algorithm Based on Antibody Density （CSABAD）, is brought forward and successfully implemented in text categorization. In text categorization, antigen, B cell and antibody are respectively corresponded with training text, an individual of classifier and affinity between the individual and training texts. The final classifter is composed with many memory B cells. The method is applied to the 20_newsgroups dataset and we obtains a F1 score of 80.90%. The result shows that CSABAD significantly outperform Rocchio and Naive Bayes.

作者张启蕊张凌董守斌谭景华

机构地区华南理工大学广东省计算机网络重点实验室中国电信集团广州研发中心

出处《微计算机信息》北大核心 2007年第24期210-212,共3页 Control & Automation

基金国家自然科学基金资助项目(90412015) 国家发改委项目(CNGI-04-12-2A)

关键词文本分类免疫克隆选择抗体浓度 Text categorization, Immune, Clonal selection, Antibody density

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1The 20_newsgroups Dataset[DB/OL]. http://www.cs.cmu.edu/afs/ cs/project/theo- 11/www/naive-bayes/20_newsgroups.tar.gz
2Fabrizio Sebastiani. Machine learning in automated text categorization[J]. ACM Computing Surveys, 2002, 34(1): 1-47
3J.E.Hunt, D.E.Cooke. Learning using an artificial immune system[J]. Journal of network and computer application, 1996, 19: 189-212
4Leandro Nunes de Castro, Femando J. Von Zuben. The Clonal Selection Algorithm with Engineering Applications[C]. In: Proceedings of GECCO'00, Las Vegas, USA, 2000, 7:36-37
5杨丽华,戴齐,杨占华.文本分类技术研究[J].微计算机信息,2006(05X):209-211. 被引量：13

二级参考文献7

1张先飞,李弼程,刘安斐.基于改进KNFL算法的海量文本分类研究[J].微计算机信息,2005,21(11S):159-160. 被引量：4
2AH-HWEE TAN.Text Mining:The state of the art and the challenges [C].PAKDD'99 Workshop on Knowledge discovery from Advanced Databases (KDAD'99),Beijing,1999.
3Fabrizio Sebastiani.Machine Learning in Automated Text Categorization[J].ACM Computing Sruveys,2002,34(1):1-47.
4Yang Yiming,Pederson J O.A Comparative Study on Feature Selection in Text Categorization[C].Proceedings of the 14th International Conference on Machine learning.Nashville:Morgan Kanfmann,1997: 412-420.
5Mlademnic,D.,Grobelnik,M.Feature Selection for unbalanced class distribution and Native Bayees [C].Proceedings of the Sisteenth International Conference on Machine Learning.Bled:Morgan Kanfmann, 1999:258-267.
6Belur V D.Nearest Neighbor(NN)Norms:NN pattern Classification Techniques [J].IEEE Computer Society Press,New York:IEEE press, 1991.59.
7Joachims T.Text Categorization with Support Vector Machines:Learning with Many Relevant Features [J].Machine Learning,1998,11398:137-142.

共引文献12

1褚力,张世永.基于集成合并的文本特征提取方法[J].计算机应用与软件,2008,25(10):212-213. 被引量：1
2柴忠,常晓明.一种基于CFN的特征选择及权重算法[J].微计算机信息,2009,25(3):221-222. 被引量：2
3袁芳,周艳红,王佳.通过文本挖掘获取疾病相关功能信息[J].微计算机信息,2009,25(36):1-3. 被引量：3
4王忠桃,岳焱,彭鑫.含倾斜文字的图像垃圾邮件过滤技术研究[J].计算机与数字工程,2010,38(5):111-112.
5胡东波,肖丹萍,曹婷.数据挖掘在员工网络招聘中的应用研究[J].商场现代化,2010(14):108-109. 被引量：1
6韩红旗,朱东华,汪雪锋.类关联词约束的K-Means半监督文本聚类方法[J].微计算机信息,2010,26(15):4-5. 被引量：2
7陈南国,张锦.基于TCM的KIII模型及其应用研究[J].微计算机信息,2012,28(2):151-152.
8戴臻.一种基于非监督判别语义特征提取的文本分类算法[J].数字技术与应用,2012,30(11):128-128.
9贾昱晟.基于机器学习的中文文本分类技术研究[J].电脑知识与技术,2011,7(7X):5194-5196. 被引量：3
10谭章禄,彭胜男,王兆刚.基于聚类分析的国内文本挖掘热点与趋势研究[J].情报学报,2019,38(6):578-585. 被引量：32

同被引文献31

1薛明志,钟伟才,刘静,焦李成.用于函数优化的正交Multi-Agent遗传算法[J].系统工程与电子技术,2004,26(9):1305-1311. 被引量：9
2蒋永光,胡波,刘娟,雍小嘉,陈波.方剂配伍的数据挖掘可行性探索[J].四川中医,2004,22(8):25-28. 被引量：35
3王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
4周雪忠,吴朝晖,刘保延.生物医学文献知识发现研究探讨及展望[J].复杂系统与复杂性科学,2004,1(3):45-55. 被引量：12
5张宇飞,邵秀丽,雷建军.基于神经网络和遗传算法的中药滴丸制剂过程建模与优化[J].计算机工程与应用,2005,41(2):191-193. 被引量：7
6王映辉,姜在旸,闫英杰,刘保延,朱建贵,田琳,高荣林,李平,焦拥政.基于信息和数据挖掘技术的名老中医临床诊疗经验研究思路[J].世界科学技术-中医药现代化,2005,7(1):98-105. 被引量：87
7陆爱军,刘冰,刘海波,周家驹.中药化学数据库关联规则的挖掘[J].计算机与应用化学,2005,22(2):108-112. 被引量：17
8晏峻峰,朱文锋.粗糙集理论在中医证素辨证研究中的应用[J].中国中医基础医学杂志,2006,12(2):90-93. 被引量：31
9万仁甫,徐伟亚.中药数据库的现状及发展趋势探讨[J].中国药房,2006,17(10):794-796. 被引量：19
10王煜,白石,王正欧.用于Web文本分类的快速KNN算法[J].情报学报,2007,26(1):60-64. 被引量：33

引证文献6

1邹国平,彭梅香,黄国兵.基于GA和信息熵的文本分类规则抽取方法[J].微计算机信息,2008,24(27):268-270. 被引量：1
2许幸,张启蕊.基于KNN算法的医药信息文本分类系统的研究[J].计算机技术与发展,2009,19(4):206-209. 被引量：6
3向永生,刘燕婷,徐家宁.基于K均值和aiNet的两阶段文本聚类算法[J].微计算机信息,2009,25(30):186-187.
4刘自丽,张海燕.免疫算法的改进及在参数反演中的应用[J].微计算机信息,2010,26(15):168-170.
5周华英,张启蕊.信息技术在中医药领域应用研究概况[J].中国中医药信息杂志,2011,18(3):110-112. 被引量：2
6黄执航,张启蕊.高脂血症分类特征选择算法研究[J].电脑知识与技术,2012,8(5X):3656-3658.

二级引证文献9

1肖伟平,何宏.基于遗传算法的数据挖掘方法及应用[J].湖南科技大学学报（自然科学版）,2009,24(3):82-86. 被引量：7
2李湘东,徐朋,黄莉,沈祥兴.基于KNN算法的文本自动分类方法研究——以学术期刊栏目自动归类为例[J].图书情报知识,2010,27(4):71-76. 被引量：7
3黄莉,李湘东.基于《中图法》的自动分类研究现状与展望[J].图书情报知识,2012,29(4):30-36. 被引量：7
4黄莉,李湘东.两种相似度计算方法对KNN分类效果的影响研究[J].情报杂志,2012,31(7):177-181. 被引量：5
5王宇伟,牛耘.基于关系相似性的蛋白质交互作用识别[J].计算机技术与发展,2015,25(2):42-46. 被引量：3
6王宇伟,牛耘,魏欧.基于相似性混合模型的蛋白质交互识别[J].计算机工程,2015,41(7):25-30. 被引量：2
7刘雅芳,杨玉赫,郭竹英,孙素芹.“互联网＋”背景下数据挖掘在中医药领域的应用研究[J].医学信息学杂志,2018,39(8):58-61. 被引量：10
8李小整,王华珍,熊英杰,曾宇晨,何霆,吴谨准,陈坚.卷积神经网络模型在儿科疾病预测中的应用[J].中国数字医学,2018,13(10):11-13. 被引量：3
9唐红珍,李宗友,雷蕾,亢力.中国-东盟传统医药数据库系统概述[J].国际中医中药杂志,2020,42(2):107-109. 被引量：1

1魏建刚,张曦煌.树突状细胞算法在检测任务超时异常中的应用[J].计算机工程,2012,38(15):240-243. 被引量：2
2黎海波.基于人工免疫的计算机系统研究与应用[J].广西质量监督导报,2008(8):73-73.
3李福清.基于生物学机理及环境控制的植物形态建模[J].福建电脑,2005,21(8):36-36.
4李福清,王小铭.植物模拟建模的新策略[J].华南师范大学学报（自然科学版）,2003,35(4):54-59. 被引量：12
5张超群,郑建国,李陶深.侦察蜂在人工蜂群算法中的作用[J].广西师范大学学报（自然科学版）,2013,31(3):72-80.
6邓小武,李森林,胡萍.树突状细胞算法形式化及其在入侵检测中的应用[J].青岛科技大学学报（自然科学版）,2013,34(4):414-418. 被引量：1
7陈岳兵,冯超,张权,唐朝京.树突状细胞算法原理及其应用[J].计算机工程,2010,36(8):173-176. 被引量：12
8沈济南,梁芳,郑明辉.基于自主扰动变异差分视频的关键帧提取算法[J].武汉大学学报（理学版）,2014,60(5):434-440. 被引量：1
9张超群,郑建国,王翔.蜂群算法研究综述[J].计算机应用研究,2011,28(9):3201-3205. 被引量：60
10吴启迪,刘成菊,张家奇,陈启军.生物诱导的机器入行走控制研究进展[J].中国科学（F辑:信息科学）,2009,39(10):1080-1094. 被引量：7

微计算机信息

2007年第24期

浏览历史

内容加载中请稍等...

基于免疫算法的文本分类研究被引量：6

参考文献5

二级参考文献7

共引文献12

同被引文献31

引证文献6

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于免疫算法的文本分类研究 被引量：6

参考文献5

二级参考文献7

共引文献12

同被引文献31

引证文献6

二级引证文献9

相关作者

相关机构

相关主题

浏览历史

基于免疫算法的文本分类研究被引量：6