基于DF算法改进的文本聚类特征选择算法被引量：6

Improved Feature Selection Algorithm based on DF Algorithm for Text Clustering

下载PDF

导出

摘要通过研究文本特征选取中权重的计算问题,提出了一种利用特征词的熵函数加权的权值的计算方法,不但考察了特征词的文档频数,而且考察了它们在文档中出现的次数,使选出的特征子集更具有较好的代表性.实验表明,改进后的算法对聚类结果有了一定的改进. By studying the text feature selection in the weight calculation problem,a calculation method of the word entropy weighted was proposed.Not only examines the characteristics of the document frequency,but also examines them in a document the number of occurrences.This selected feature subset is more good representation.Experiments show that the improved algorithm for clustering results have certain improvements.

作者樊东辉王治和陈建华许虎寅

机构地区西北师范大学数学与信息科学学院河南驻马店职业技术学院

出处《甘肃联合大学学报（自然科学版）》 2012年第1期51-54,共4页 Journal of Gansu Lianhe University :Natural Sciences

关键词特征选择文档频词频 feature selection document frequency word frequency

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献7

1lHANJW,KAMBERM.数据挖掘:概念与技术[M].范明,孟小峰译.北京:机械工业出版社,2003:231-232.
2HATZIVASSILOGLOU V, KLAVANS J L, HOL- COMBE M L, et al. Simfinder: A flexible clustering tool for summarization [C]. In: Proceedings of the NAACL 2001 Workshop on Automatic Summarization, 2001,41-49.
3SALTON G, WONG A, YANG C S. A vector space model for automatic indexing[J]. Communications ofACM,1995,18(11).613-620.
4陈平,刘晓霞,李亚军.文本分类中改进型互信息特征选择的研究[J].微电子学与计算机,2008,25(6):194-196. 被引量：11
5高茂庭,王正欧.几种文本特征降维方法的比较分析[J].计算机工程与应用,2006,42(30):157-159. 被引量：16
6陆玉昌,鲁明羽,李凡,周立柱.向量空间法中单词权重函数的分析和构造[J].计算机研究与发展,2002,39(10):1205-1210. 被引量：126
7谭松波,王月粉.中文文本分类语料-TanCorpVl.0[EB/OL]. (2011-07-10). http ://www. searchforum. org. cn/tansongbo/corpus, htm.

二级参考文献17

1贺贤明,戴坚峰.一种新型文本自动分类系统的研究与实现[J].微电子学与计算机,2004,21(10):23-26. 被引量：6
2谭金波,黄峰,杨晓江,李艺.一种改进的互信息特征选择算法[J].情报学报,2006,25(6):651-656. 被引量：7
3Fodor I K.A Survey of Dimension Reduction Techniques[R].LLNL technical report,UCRL-ID-148494,http://www.llnl.gov/CASC/sapphire/pubs.html,2002
4J Lin,D Gunopulos.Dimensionality Reduction by Random Projection and Latent Semantic Indexing[C].In:Text Mining Workshop,at the
5rd SIAM International Conference on Data Mining,20033.Kaski S.Dimensionality Reduction by Random Mapping:Fast Similarity Computation for Clustering[C].In:Proceedings of International Joint Conference on Neural Networks(IJCNN'98),IEEE Service Center,Piscataway,NJ,1998:413～418
6Bingham E,Mannila H.Random Projection in Dimensionality Reduction:Applications to Image and Text Data[C].In:Proc SIGKDD(2001),2001:245～250
7Lee D,Seung H.Algorithms for Non-negative Matrix Factorization[C].In:Adv Neural Info Proc Syst,2001 ;13:556～562
8Lee D,Seung H.Learning the Parts of Objects by Nonnegative Matrix Factorization[J].Nature,1999;401 (21):788～791
9George Karypis,Eui-Hong(Sam) Han.Concept Indexing:A Fast Dimensionality Reduction Algorithm with Applications to Document Retrieval & Categorization[C].In:ACM CIKM Conference,2000
10S Dumais,G Furnas,T Landauer et al.Using Latent Semantic Analysis to Improve Access to Textual Information[C].In:Proceedings of the Conference on Human Factors in Computing Systems CHI'88,Washington,DC,USA,1988

共引文献150

1岳应娟,袁航,王旭.基于图像降维分解的内燃机故障特征快速提取方法[J].火箭军工程大学学报,2020(1):60-65.
2陈丹雯,徐建军,谢毓湘,吴玲达.虚拟新闻自动生成系统的设计与实现[J].系统仿真学报,2006,18(z1):157-160.
3赵燕平,李超.网络安全信息挖掘中的特征选择与专利分析研究[J].中国管理科学,2004,12(z1):514-518. 被引量：3
4徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
5姜澜,李秀坤,单丽莉.一种新的词语权重计算方法[J].哈尔滨工业大学学报,2011,43(S1):315-318. 被引量：1
6李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.
7施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.
8李国臣,段建勇.基于语法语义信息量化模型的语素字再分类[J].计算机工程,2004,30(11):37-39.
9鲁明羽,张红,付克明,陆玉昌.Web ME——一个大型网络挖掘环境系统[J].哈尔滨工业大学学报,2004,36(9):1164-1167. 被引量：1
10王大亮,孙建涛,陆玉昌,夏克俭.一种面向自动文本摘要特征评价的新方法[J].计算机工程与应用,2004,40(33):176-178.

同被引文献60

1卢新国,林亚平,陈治平.一种改进的互信息特征选取预处理算法[J].湖南大学学报（自然科学版）,2005,32(1):104-107. 被引量：12
2李惠娟,高峰,管晓宏,黄亮.基于贝叶斯神经网络的垃圾邮件过滤方法[J].微电子学与计算机,2005,22(4):107-111. 被引量：21
3张铭锋,李云春,李巍.垃圾邮件过滤的贝叶斯方法综述[J].计算机应用研究,2005,22(8):14-19. 被引量：23
4郝占刚,王正欧.基于潜在语义索引和遗传算法的文本特征提取方法[J].情报科学,2006,24(1):104-107. 被引量：16
5张文良,黄亚楼,倪维健.一种基于聚类的文本特征选择方法[J].计算机应用,2007,27(1):205-206. 被引量：10
6王飒,郑链.基于Fisher准则和特征聚类的特征选择[J].计算机应用,2007,27(11):2812-2813. 被引量：21
7中国互联网络信息中心.第31次中国互联网络发展统计报告.
8中国互联网协会.2011年第四季度中国反垃圾邮件状况调查报告.
9Carreras X,Marquez L. Boosting trees for anti-spam email filtering[A].2001.58-64.
10Zhang Y,Wang S,Wu L. Spam detection via feature selection and decision tree[J].Advanced Science Letters,2012,(02):726-730.

引证文献6

1赵晓丹,徐燕.垃圾邮件分类技术对比研究[J].信息网络安全,2014(2):75-80. 被引量：6
2高原,刘辉,樊孝忠,牛振东.基于代码库和特征匹配的函数名称推荐方法[J].软件学报,2015,26(12):3062-3074. 被引量：6
3钱慎一,朱艳玲,朱颢东.基于多层挖掘策略的特征选择及在科技文献分类中的应用[J].兰州理工大学学报,2015,41(6):109-113. 被引量：1
4周勇.基于信息损失度的文本聚类研究[J].内蒙古师范大学学报（自然科学汉文版）,2017,46(5):759-762.
5徐冠华,赵景秀,杨红亚,刘爽.文本特征提取方法研究综述[J].软件导刊,2018,17(5):13-18. 被引量：16
6肖晓丽,吴瑶,周锡玲,廖卓凡.基于差分进化的两阶段文本特征选择算法[J].计算机工程,2019,45(2):303-309. 被引量：6

二级引证文献35

1朱小培,位云朋,闫李,韩茜茜.基于多模态进化计算的特征选择策略[J].中原工学院学报,2021,32(4):71-76.
2张磊,陈兴蜀,任益,李辉.一种基于VMM的内核级Rootkit检测技术[J].信息网络安全,2015(4):56-61. 被引量：5
3孙大鹏.云计算技术在垃圾短信过滤中的应用与实现[J].信息网络安全,2015(7):13-19. 被引量：7
4梁宏,张慧云,肖新光.基于社会工程学的邮件样本关联分析[J].信息网络安全,2015(9):180-185.
5代文征,杨勇,蒋文娟.数据结构程序库建设[J].计算机教育,2016(6):70-71. 被引量：1
6张汛,刘朝晖.基于模拟退火算法和发送行为的垃圾邮件检测模型[J].南华大学学报（自然科学版）,2017,31(1):77-80.
7朱子骁,邹艳珍,华晨彦,沈琦,赵俊峰.基于StackOverflow数据的软件功能特征挖掘组织方法[J].软件学报,2018,29(8):2210-2225. 被引量：3
8董微,赵捷.基于密度分布单类支持向量机的科技文献分类研究[J].情报工程,2018,4(3):67-72. 被引量：2
9王根生,黄学坚,吴小芳,胡向亮.基于改进信息增益特征选择法的SVM中文情感分类算法[J].成都理工大学学报（自然科学版）,2019,46(1):105-110. 被引量：4
10杜若鹏,鲜国建,寇远涛.基于改进TF-IDF-CHI算法的农业科技文献文本特征抽取[J].数字图书馆论坛,2019(8):18-24. 被引量：9

1李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].厦门大学学报（自然科学版）,2005,44(B06):239-242. 被引量：3
2于洪波.网页特征提取技术研究[J].山东理工大学学报（自然科学版）,2011,25(2):107-110. 被引量：3
3李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.
4张文良,黄亚楼,倪维健.基于差分贡献的垃圾邮件过滤特征选择方法[J].计算机工程,2007,33(8):80-82. 被引量：10
5董瑞,周喜.面向维吾尔文不平衡数据分类的特征选择方法[J].计算机工程与设计,2013,34(1):349-352. 被引量：3
6陈键,胡学刚.词分布均衡度评价特征词选取方法的文本分类[J].安徽科技学院学报,2009,23(2):38-40. 被引量：1
7珠杰,李天瑞.藏文停用词选取与自动处理方法研究[J].中文信息学报,2015,29(2):125-132. 被引量：8
8何中市,徐浙君.一种新型的文本无监督特征选择方法[J].重庆大学学报（自然科学版）,2007,30(6):77-79. 被引量：2
9龚静,曾莉.用于文本分类的特征选择方法[J].湖南环境生物职业技术学院学报,2008,14(3):24-26. 被引量：2
10赵静,刘培玉,许明英.邮件过滤中特征选择方法的性能评价与分析[J].计算机应用研究,2012,29(2):693-697. 被引量：7

甘肃联合大学学报（自然科学版）

2012年第1期

浏览历史

内容加载中请稍等...

基于DF算法改进的文本聚类特征选择算法被引量：6

参考文献7

二级参考文献17

共引文献150

同被引文献60

引证文献6

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于DF算法改进的文本聚类特征选择算法 被引量：6

参考文献7

二级参考文献17

共引文献150

同被引文献60

引证文献6

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于DF算法改进的文本聚类特征选择算法被引量：6