基于遗传算法的文本聚类特征选择被引量：3

Feature Selection for Text Clustering Based on the Genetic Algorithm

下载PDF

导出

摘要传统的文本聚类特征选择方法不能发现最优特征集,而遗传算法能获得全局最优解且具有高的寻优效率,因此提出利用遗传算法进行文本聚类的特征选择.把一种特征组合看作一个染色体,对其进行二进制编码,引入文本集密度作为适应度函数进行特征个体适应度的评价.通过选择、交叉和变异的遗传操作,能较为快速地求出最优特征集.对公开的文本分类语料所进行的实验表明,基于遗传算法的特征选择使文本聚类结果的精度较之特征选择前提高了5.9％,而聚类时间减少了15s. As the traditional feature selection methods for text clustering cannot find the best feature set, the genetic algorithm is applied to the feature selection because it can get the global optimal solution and is of high searching efficiency. In this algorithm, a feature combination is regarded as a chromosome which is then performed with binary code, and the text set density is considered as the fitness function to evaluate the fitness of individual feature. By the operations of selection, crossover and mutation, the optimal feature set can rapidly be rapidly obtained. Experimental results on the open corpus show that the feature selection based on the genetic algorithm improves the text clustering precision by 5.9% and decreases the clustering time by 15s.

作者张锋樊孝忠许云

机构地区北京理工大学计算机科学与工程系

出处《华南理工大学学报（自然科学版）》 EI CAS CSCD 北大核心 2004年第z1期133-136,共4页 Journal of South China University of Technology(Natural Science Edition)

关键词遗传算法文本聚类特征选择中文信息处理 genetic algorithm text clustering feature selection Chinese information processing

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献9

1[1]Kowalski G. Information Retrieval Systems Theory and Implementation [M]. Netherlands: Kluwer Academic Publishers, 1997.
2[2]Zamir O,Etzioni O,Madani O,et al. Fast and intuitive clustering of Web documents [A]. Proc of KDD-97 [C].Newport Beach, USA, 1997. 287 - 290.
3[3]Cutting D R, Karger D R, Pedersen J O, et al. Scatter/gather:A cluster-based approach to browsing large document collections [A]. Proc of SIGIR ′92 [C]. Copenhagen, 1992. 318 - 329.
4[4]Aggrawal C C,Yu P S. Finding generalized projected clusters in high dimensional spaces [A]. Proc of SIGMOD′00 [C]. Dallas ,USA ,2000.70 - 81.
5[5]Yang Y. Noise reduction in a statistical approach to text categorization [A]. Proc of SIGIR′95 [C]. Seattle,USA, 1995. 256 - 263.
6[6]Yang Y,Pedersen J O. A comparative study on feature selection in text categorization [A]. Proc of ICML-97[C]. Nashville, USA, 1997.412 - 420.
7[7]Vafaie H, De Jong K. Genetic algorithm as a tool for feature selection in machine learning [A]. International Conference on Tools with AI [C]. Arlington,Va, 1992.200 - 204.
8刑文训.现代优化计算方法[M].北京:清华大学出版社,1999..
9[10]Salton G. Automatic Text Processing:The Transformation, Analysis, and Retrieval of Information by Computer [M]. Boston: Addison-Wesley, 1989.

共引文献43

1徐珊 ,司守奎 ,唐金国 .求解TSP问题的遗传算法[J].海军航空工程学院学报,2004,19(5):562-564. 被引量：2
2周莉,何友,修建娟,李瑞芬.解二维分配问题的行列启发式算法[J].系统工程与电子技术,2004,26(7):906-910. 被引量：4
3高尚,杨静宇,吴小俊,刘同明.圆排列问题的蚁群模拟退火算法[J].系统工程理论与实践,2004,24(8):102-106. 被引量：9
4赵闯,刘凯,李电生.SOFM神经网络在物流中心城市分类评价中的应用[J].中国公路学报,2004,17(4):119-122. 被引量：13
5宁伟,陶华学,卿熙宏.广义非线性最小二乘测量参数平差的快速差分迭代解算[J].测绘科学,2004,29(6):83-84. 被引量：3
6高火涛,李咏絮,郑霞.天线阵互耦系数的估计[J].通信学报,2005,26(4):19-23. 被引量：8
7张良欣,徐岩山,周君.水路输送船舶选优的一种改进遗传算法[J].交通与计算机,2005,23(3):49-51.
8张琨,王珩,刘凤玉.一种基于模拟退火方法的多约束QoS组播路由算法[J].计算机科学,2005,32(5):41-45. 被引量：6
9杜中华,王兴贵.组合式全局寻优算法研究[J].系统仿真学报,2005,17(8):1836-1839. 被引量：6
10董守清,王进勇,闫海峰.双线铁路列车运行调整的禁忌搜索算法[J].中国铁道科学,2005,26(4):114-119. 被引量：18

同被引文献12

1孙雷,王新.一种基于遗传操作和类内类间距离判据理论的特征选择方法[J].计算机工程与应用,2004,40(21):178-181. 被引量：8
2郑红军,杨冰.Internet查询中基于元遗传算法的信息过滤研究[J].情报杂志,2005,24(11):70-71. 被引量：1
3李桂芳,刘培玉.一种基于改进遗传算法的文本特征选择方法[J].山东师范大学学报（自然科学版）,2007,22(2):17-19. 被引量：4
4Cover T M.The best two independent measurements arenot the two best[J].IEEE Transactions on Systems,Manand Cybernetics,1974,4:116-117.
5刑文训谢金星.现代优化计算方法[M].北京：清华大学出版社,1999.193-246.
6Yiming Yang,Thomas Ault.Thomas Pierce and Cha W Lattimer.Improving text categorization method sevent tracking[C].Proceedings of ACM SIGIR Conference on Research and Development information Retrieval (SIGIR.00),2000:65-72.
7Vafaie H,De Jong K.Genetic algorithm as a tool for feature selection in machine learning[A].International Conference on Tools with AI[C].Arlington,Va,1992.200 -204.
8Dom B,Nilack W,Sheinvald J.Feature selection with stochastic complexity[C].In:Proceedings of IEEE Conference on Computer Vision and Pattern Recognition,1989.
9Vafaie H,De Jong K.Genetic algorithm as a tool for feature selection in machine learning[A].International Conference on Tools with AI[C].Arlington,Va,1992,200-204.
10Dik L,Lee H.Doucument ranking and the vector-space modal.IEEE software 1997,4,67-75.

引证文献3

1王美方,刘培玉.基于CHI与遗传算法的特征选择[J].信息技术与信息化,2007(1):43-44. 被引量：3
2陆宏菊,刘培玉,崔嘉.基于遗传算法的网络信息过滤系统中的特征选择[J].信息技术与信息化,2007(6):43-44.
3郑艳红,张东站.基于同义词词林的文本特征选择方法[J].厦门大学学报（自然科学版）,2012,51(2):200-203. 被引量：5

二级引证文献8

1丁志刚,王小捷.一种基于类别意图的信息检索模型[J].郑州大学学报（理学版）,2009,41(1):59-63.
2刘静,李华亮.个性化搜索引擎中兴趣学习方法的研究[J].计算机时代,2009(11):31-34. 被引量：1
3刘磊,陈兴蜀,尹学渊,段意,吕昭.基于特征加权朴素贝叶斯分类算法的网络用户识别[J].计算机应用,2011,31(12):3268-3270. 被引量：7
4肖雷,王旭,粟武林.一种基于词义降维的主题特征选择算法[J].计算机应用与软件,2016,33(3):244-247. 被引量：1
5周巧扣,倪红军.一种基于语义的垃圾短信过滤算法[J].实验室研究与探索,2016,35(11):137-140. 被引量：1
6王晓栋,严菲,洪朝群.一种基于半监督多任务学习的特征选择模型[J].厦门大学学报（自然科学版）,2017,56(4):567-575. 被引量：3
7李海林,邹金串.基于分类词典的文本相似性度量方法[J].智能系统学报,2017,12(4):556-562. 被引量：6
8吕建新,郑伟,马林,李明,谷翠梅.基于词向量语义扩展的网络文本特征选择方法研究[J].情报科学,2019,37(12):47-51. 被引量：7

1王卫玲,孔波,初建崇,杨玫.一种新的用于文本分类的特征选择算法[J].信息技术与信息化,2009(6):39-41.
2杨建博,袁中凡.基于最优互信息的特征选取[J].计算机与信息技术,2008(4):13-16. 被引量：1
3王金星,李恒斌,王蕊,刘双喜,曹维时,闫银发.基于BPSO的棉花异性纤维目标特征快速选择方法[J].农业机械学报,2013,44(2):188-191. 被引量：5
4陈世明.特征个体有界交互作用构成的集群模型[J].控制理论与应用,2010,27(9):1227-1230. 被引量：1
5高文卿,赵永升.分类问题中的特征选取[J].鲁东大学学报（自然科学版）,2014,30(3):219-222.
6曹慧.基于AMTW算法的文本特征词权值计算[J].山东大学学报（工学版）,2004,34(3):92-95.
7吴科,石冰,卢军,牛小飞.基于文本集密度的特征选择与权重计算方案[J].中文信息学报,2004,18(1):42-47. 被引量：8
8朱明,王俊普,蔡庆生.一种最优特征集的选择算法[J].计算机研究与发展,1998,35(9):803-805. 被引量：21
9李志俊,程家兴.免疫佳点集遗传算法[J].计算机工程与应用,2007,43(28):37-40. 被引量：5
10冯林,李聪,沈莉.基于邻域粗糙集与量子遗传算法的人脸表情特征选择方法[J].合肥工业大学学报（自然科学版）,2013,36(1):39-42. 被引量：4

华南理工大学学报（自然科学版）

2004年第z1期

浏览历史

内容加载中请稍等...

基于遗传算法的文本聚类特征选择被引量：3

参考文献9

共引文献43

同被引文献12

引证文献3

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于遗传算法的文本聚类特征选择 被引量：3

参考文献9

共引文献43

同被引文献12

引证文献3

二级引证文献8

相关作者

相关机构

相关主题

浏览历史

基于遗传算法的文本聚类特征选择被引量：3