基于粗糙集的中文文本特征选择方法研究被引量：3

STUDY ON FEATURE SELECTION OF CHINESE TEXT BASED ON ROUGH SET

下载PDF

导出

摘要针对传统的特征选择使用阈值过滤导致有效信息丢失的问题,提出一种粗糙集的文本特征选择方法。该方法以核为起点利用特征属性的重要性和依赖性作为启发式信息进行特征选择,使文本的特征维数得到一定程度的降低。实验表明,此算法不仅易于实现而且能够有效降低特征数目,提高分类效率。 Aiming at the problem that in traditional feature selection the use of threshold filtering often leads to the loss of effective information, a new algorithm based on rough set is proposed for text feature selection. The algorithm takes core as the begging, uses attributes＇ significance and dependency as the heuristic information to do feature selection,which greatly reduces the dimension of document＇s eigenvector. Experimental results show that the algorithm is easy to implement and can effectively reduce the features＇ number, as well as improve the accuracy of classification.

作者张翔周明全耿国华

机构地区西北大学可视化技术研究所西安建筑科技大学信息与控制工程学院北京师范大学信息科学与技术学院

出处《计算机应用与软件》 CSCD 2010年第3期4-5,74,共3页 Computer Applications and Software

基金国家自然科学基金项目(60573179)

关键词粗糙集特征选择属性重要性属性依赖性 Rough set Feature selection Attribute significance Attribute dependency

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献6

1寇苏玲,蔡庆生.中文文本分类中的特征选择研究[J].计算机仿真,2007,24(3):289-291. 被引量：30
2周茜,赵明生,扈旻.中文文本分类中的特征选择研究[J].中文信息学报,2004,18(3):17-23. 被引量：165
3Sahon G, Wong A, Yang C. A vector space model for automatic indexing [ J ]. Communications of the ACM, 1975,18 ( 11 ) :613 - 620.
4曾黄麟.智能计算[M].重庆:重庆大学出版社,2004..
5http ://www. sogou, com/labs/dl/c, html.
6Yang Yiming, Liu Xin. A re-examination of text categorization methods [ C ]//Proceedings of ACM SIGIR Conference on Research and Development in Information Retrieval (SIGIR'99) ,Berkeley,Cal.

二级参考文献15

1Yang Yiming,Pederson J O.A Comparative Study on Feature Selection in Text Categorization [A].Proceedings of the 14th International Conference on Machine learning[C].Nashville:Morgan Kaufmann,1997:412-420.
2Y.Yang.Noise reduction in a statistical approach to text categorization[A].Proceedings of the 18th Ann Int ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR95)[C].Seattle:ACM Press,1995:256-263.
3Thorsten Joachims,Text Categorization with Support Vector Machines:Learning with Many Relevant Features[A],In:European Conferrence on Machine Learning (ECML)[C].Berlin:Springer,1998,137-142.
4Mlademnic,D.,Grobelnik,M.Feature Selection for unbalanced class distribution and Nave Bayees[A].Proceedings of the Sixteenth International Conference on Machine Learning[C].Bled:Morgan Kaufmann,1999:258-267.
5梁久祯兰东俊扈旻.基于先验知识的网页特征压缩与线性分类器设计[A]..第十二届全国神经计算学术大会论文集[C].北京:人民邮电出版社,2002.494-501.
6Yiming Yang.A Comparative Study on Feature Selection in Text Categorization[J].The ICML97,Nashville,1997.
7Monica Rogati,Y Yang.High-Performing Feature Selection for Text categorization[C].Proceedings of the Fourteenth International Conference on Machine Learning (ICML'99),2000.
8Thorsten Joachims.Text Classification with Support Vector Machines:Learning with Many Relevant Feature[J].Artificial Intelligence Journal special issue:Best of IJCAI-99,2000.
9T Joachims.Making large-Scale SVM Learning Practical.Advances in Kernel Methods-Support Vector Learning[M].B Sch?lkopf and C Burges and A Smola (ed.),MIT-Press,1999.
10王梦云,曹素青.基于字频向量的中文文本自动分类系统[J].情报学报,2000,19(6):644-649. 被引量：17

共引文献277

1王细薇,樊兴华,赵军.一种基于特征扩展的中文短文本分类方法[J].计算机应用,2009,29(3):843-845. 被引量：36
2蒋宗礼,李宪雷,徐学可.基于主题Hub值的元搜索[J].北京工业大学学报,2009,35(3):397-402. 被引量：1
3黄健刚.基于J2ME的手机垃圾短信过滤器的研究[J].魅力中国,2009(26):169-170.
4尤晶晶.基于贝叶斯的垃圾邮件过滤优化算法[J].烟台职业学院学报,2008(2):80-83.
5王荣荣.全局和局部特征提取相融合的中文文本特征提取方法研究[J].河北北方学院学报（自然科学版）,2013,29(3):35-38.
6常娟.针对短文本数据的自动分类方法比较研究[J].消费导刊,2008,0(4):177-178.
7翟东海,王佳君,聂洪玉,崔静静.基于互信息的热点词发现和突发性话题检测研究[J].西藏大学学报（社会科学版）,2013,28(4):82-87. 被引量：2
8苏宏升,李群湛.基于粗糙集理论和神经网络模型的变电站故障诊断方法[J].电网技术,2005,29(16):66-70. 被引量：28
9丁加明,王永和.基于粗糙集信息不完备系统的膨胀土分类规则提取[J].铁道科学与工程学报,2005,2(4):1-5. 被引量：5
10赵世奇,张宇,刘挺,陈毅恒,黄永光,李生.基于类别特征域的文本分类特征选择方法[J].中文信息学报,2005,19(6):21-27. 被引量：21

同被引文献46

1邵敬敏,周芍.语义特征的界定与提取方法[J].外语教学与研究,2005,37(1):21-28. 被引量：52
2吴力群.知识基因、知识进化与知识服务[J].现代情报,2005,25(6):177-179. 被引量：9
3曹付元,梁吉业,钱宇华.基于信息熵的决策表约简[J].计算机应用,2005,25(11):2630-2631. 被引量：6
4尚文倩,黄厚宽,刘玉玲,林永民,瞿有利,董红斌.文本分类中基于基尼指数的特征选择算法研究[J].计算机研究与发展,2006,43(10):1688-1694. 被引量：38
5Weal, Mark J., Michaelides, Danius T., Page, Kevin R., De Roure,David C., Monger, Eloise and Gobbi, Mary. Semantic annotation ofubiquitous learning environments[J]. IEEE Transactions on LearningTechnologies, 2012,5 (2): 143-156.
6Ting-Peng Liang, Yung-Fang Yang, Deng-Neng Chen, & Yi-ChengKu. A semantic-expansion approach to personalized knowledgerenommendation Original Research Article[J]. Decision SupportSystems, 2008, (3): 401-412.
7Maged N. Kamel Boulos. Semantic Wikis: A ComprehensibleIntroduction with Examples from the Health SciencesfJ]. Journal ofEmerging Technologies in Web Intelligence,2009, (1): 94-96.
8Jesus Soto Carrion, Elisa Garcia Gordo, & Salvador Sanchez-Alonso.Semantic learning object repositories[J]. International Journal ofContinuing Engineering Education and Life Long Learning, 2007, (17):432-446.
9Hyun-seok Minjae Young Choi,Wesley De Neve, &Yong Man Ro.Bimodal fusion of low-level visual features and high-level semanticfeatures for near-duplicate video clip dfttection[J]. Signal Processing:Image Communication, 2011, 26(10): 612 - 627.
10Yin-Hsi Kuo, Wen-Huang Cheng, Member, IEEE, Hsuan-Tien Lin,Memi.er, IEEE, and Winston H. Hsu. Unsupervised Semantic FeatureDiscovery for Image Object Retrieval and Tag Refinement[J]. IEEETransactions on Multimedia, 2012, 14⑷:1079-1090.

引证文献3

1杨现民,余胜泉.学习资源语义特征自动提取研究[J].中国电化教育,2013(11):74-80. 被引量：9
2赵靖,皮建勇.粗糙集属性约简在文本分类中的性能研究[J].微型机与应用,2015,34(21):81-84.
3王光琼.基于邻域组合熵的属性约简算法[J].计算机应用与软件,2018,35(12):269-273. 被引量：12

二级引证文献21

1王志强,郑婷婷,孙鑫,李清.基于一种新的q-rung orthopair模糊交叉熵的属性约简算法[J].计算机科学,2022,49(S02):324-329. 被引量：1
2坚持全心全意为人民服务的宗旨[J].理论学习（浙江）,2000(3):28-27.
3黄涛,施枫,杨华利.知识地图模型及其在教学资源导航中应用研究[J].中国电化教育,2015(7):73-78. 被引量：17
4孙众,骆力明.小学生到底喜欢什么样的学习资源——梅耶多媒体学习原则对数字原住民适用性的实证研究[J].中国电化教育,2015(7):79-84. 被引量：5
5楚京予,余本功,牛锋.MOOC平台下课程资源的组织模型及表示方案研究[J].电化教育研究,2015,36(11):69-74. 被引量：6
6谌颃.社会化标签语义相似度的协同过滤算法[J].华侨大学学报（自然科学版）,2016,37(1):84-87.
7胡海斌,丁国柱,吴鹏飞.基于学习元平台的课程知识本体的构建与应用——以“教育技术新发展”课程为例[J].电化教育研究,2017,38(10):74-81. 被引量：7
8杨莉,王敏,程宇.基于LDA和XGBoost模型的环境公共服务微博情感分析[J].南京邮电大学学报（社会科学版）,2019,21(6):23-39. 被引量：11
9邬阳阳,郭文强,汤建国,任艳.几类拓展粗糙集模型属性约简研究综述[J].宜宾学院学报,2019,19(12):29-38. 被引量：3
10盛魁,卞显福,董辉,马健.基于邻域粗糙集组合度量的混合数据属性约简算法[J].计算机应用与软件,2020,37(2):234-239. 被引量：10

1陈建辉,陈贞.基于粗糙集的决策树规则提取算法[J].河北工程大学学报（自然科学版）,2008,25(1):108-110. 被引量：1
2胡学伟,蒋芸,李志磊,沈健,华锋亮.基于邻域关系模糊粗糙集的分类新方法[J].计算机应用,2015,35(11):3116-3121.
3刘文军,谷云东.属性依赖性及重要性度量[J].数学的实践与认识,2009,39(7):148-156. 被引量：2
4叶东毅.信息表属性约简之间的若干关系[J].福州大学学报（自然科学版）,2004,32(4):448-450.
5范会联,仲元昌,程冰.一种粗糙集属性约简的伪粒子群算法[J].计算机工程与应用,2012,48(1):150-152. 被引量：1
6高山武,李迎江,朱永彬.基于实例推理的配置中相似性的研究[J].科技传播,2010,2(11):38-39.
7王国明,孙立新.高光谱遥感影像优化分类波段选择[J].东北测绘,1999,22(4):21-23. 被引量：7
8鄂旭,谭艳,励建荣,毛玫静,杨明婧.水产品安全评估体系中属性约简算法研究[J].计算机工程,2016,42(3):74-79. 被引量：3
9张灵均,徐久成,李双群,李晓艳.相斥邻域的覆盖粗糙集实值属性约简[J].山东大学学报（理学版）,2012,47(1):77-82. 被引量：3
10程传鹏,杨要科.自动文摘中的冗余句消除方法[J].计算机应用,2011,31(12):3275-3277. 被引量：2

计算机应用与软件

2010年第3期

浏览历史

内容加载中请稍等...

基于粗糙集的中文文本特征选择方法研究被引量：3

参考文献6

二级参考文献15

共引文献277

同被引文献46

引证文献3

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于粗糙集的中文文本特征选择方法研究 被引量：3

参考文献6

二级参考文献15

共引文献277

同被引文献46

引证文献3

二级引证文献21

相关作者

相关机构

相关主题

浏览历史

基于粗糙集的中文文本特征选择方法研究被引量：3