基于模糊-粗糙集的文本分类方法被引量：8

Text Categorization Method Based on the Theory of Fuzzy-rough Sets

下载PDF

导出

摘要在文本分类过程中,类别之间的重叠以及标志类别属性的不足会导致类别的边界之间出现模糊不确定性和粗糙不确定性,而传统的k-近邻方法无法解决这一问题;同时,在传统的k-近邻方法以及其他一些改进的k-近邻方法中,最优七值的选取需要通过训练得到.文中借助模糊-粗糙集理论来改进传统的k-近邻方法,并使用基于距离的邻城空间,以不经训练地确定适宜每个待分类文本的k-值,最后将所提方法和其他一些k-近邻方法进行了实验比较,结果表明模糊-粗糙集方法能够在一定程度上提高分类的精度和召回率. In the text categorization process, fuzzy-uncertainty and rough-uncertainty would appear due to the overlapping of classes and the lack of features. These two kinds of uncertainty can not be dealt with by the conventional k-nearest neighbor (k-NN) method. Moreover, with the conventional k-NN method and other improved k-NN methods, the optimal value of k can only be obtained through training. To solve this problem, the theory of fuzzy-rough sets is employed to improve the conventional k-NN method. Also, the concept of distance based neighbor space is employed to obtain the fit value of k for each text to be classified. A comparison between the proposed method and other existing k-NN methods is finally made by experiments. It is concluded that the method based on the theory of fuzzy-rough sets can promote the precision and recall rate of text categorization to a certain degree.

作者付雪峰王明文

机构地区江西师范大学计算机信息工程学院

出处《华南理工大学学报（自然科学版）》 EI CAS CSCD 北大核心 2004年第z1期73-76,共4页 Journal of South China University of Technology(Natural Science Edition)

关键词模糊-粗糙集模糊-粗糙隶属函数 k-近邻方法文本分类邻域空间 fuzzy-rough set fuzzy-rough membership function k-nearest neighbor method text categorization neighbor space

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献7

1[1]Dubois D,Prade H. Putting rough sets and fuzzy sets together [A]. Intelligent Decision Support: Handbook of Applications and Advanced of the Rough Set Theory [C].Boston: Slowinski R ED, Kluwer Academic Publishers, 1992. 203 - 222.
2[2]Yao Y Y. A comparative study of fuzzy sets and rough sets [J]. Information Sciences, 1998,109 (1-4): 227 -242.
3曾黄麟.粗集理论及其应用－－关于数据推理的新方法[M].重庆:重庆大学出版社,1998..
4[4]Keller J M, Gray M R, Givens J A. A fuzzy k-nearest neighbor algorithm [J]. IEEE Transactions on System Man and Cybernetics, 1985,15 (4) :580 - 585.
5[5]Yang Y,Pederen J P. A comparative study on feature selection in text categorization [A]. Proceeding of the Fourteenth International Conference on Machine Learning (ICML97) [C]. Nashville Tennessee USA :Morgan Kaufmann, 1997.412 - 420.
6[7]Denoeux T. A k-nearest neighbor classification rule based on Dempster-Shafer theory [J]. IEEE Transactions on System Man and Cybernetics, 1995,25(5):804 -813.
7[8]Francois J, Grandvalet Y, Denoeux T, et al. Resample and combine:An approach to improving uncertainty representation in evidential pattern classification [J]. Information Fusion,2003 (4) :75 -85.

共引文献5

1顾军华,周艳聪,宋洁,晏俊秋.一种新的求解属性值约简算法[J].南开大学学报（自然科学版）,2003,36(4):38-42. 被引量：26
2李凌鹏.基于粗集的神经网络在目标类型识别中的研究[J].情报指挥控制系统与仿真技术,2005,27(1):9-12. 被引量：1
3何建南.软计算方法和广义模糊认知哲学[J].五邑大学学报（社会科学版）,2007,9(3):1-4. 被引量：2
4何泽荣.粗糙集理论与管理决策分析[J].四川三峡学院学报,2000,16(5):89-90. 被引量：1
5舒兰,吴磊,张勇.粗集神经网络系统及其应用[J].电子科技大学学报,2002,31(4):426-428. 被引量：1

同被引文献237

1罗远胜,王明文,曾雪强.基于核方法的潜在语义文本分类模型[J].清华大学学报（自然科学版）,2005,45(S1):1853-1856. 被引量：4
2左家莉,王明文,王希.基于Markov网络的信息检索扩展模型[J].清华大学学报（自然科学版）,2005,45(S1):1847-1852. 被引量：9
3廖海波,万中英,王明文.基于投影寻踪回归文本自动分类的模型[J].清华大学学报（自然科学版）,2005,45(S1):1823-1827. 被引量：5
4叶浩,王明文,曾雪强.基于潜在语义的多类文本分类模型研究[J].清华大学学报（自然科学版）,2005,45(S1):1818-1822. 被引量：18
5曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
6侯汉清.分类法的发展趋势简论[J].情报科学,1981,2(1):58-63. 被引量：14
7宋枫溪,高林.文本分类器性能评估指标[J].计算机工程,2004,30(13):107-109. 被引量：33
8宋枫溪,郑如冰,王积忠.自动文本分类中两种文本表示方式的比较[J].计算机工程,2004,30(18):124-126. 被引量：6
9王建会,王洪伟,申展,胡运发.一种实用高效的文本分类算法[J].计算机研究与发展,2005,42(1):85-93. 被引量：20
10李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95

引证文献8

1王明文,付雪峰,左家莉.网页与文本自动分类综述[J].南昌工程学院学报,2005,24(3):20-25. 被引量：4
2付雪峰,刘邱云,王明文.基于互信息的粗糙集信息检索模型[J].山东大学学报（理学版）,2006,41(3):17-19. 被引量：2
3付雪峰,刘邱云.不确定性推理在文本分类上的应用研究[J].江西师范大学学报（自然科学版）,2007,31(4):383-386. 被引量：3
4高淑琴.Web文本分类技术研究现状述评[J].图书情报知识,2008,25(3):81-86. 被引量：6
5蒲筱哥.自动文本分类方法研究述评[J].情报科学,2008,26(3):469-475. 被引量：12
6蒲筱哥.Web自动文本分类技术研究综述[J].情报学报,2009,28(2):233-241. 被引量：9
7刘有珠,付雪峰,刘邱云.信息熵在粗糙集信息检索模型中的应用[J].模糊系统与数学,2010,24(3):149-153. 被引量：2
8肖可,奉国和.1999～2008年国内文本分类研究文献计量分析[J].情报学报,2010,29(4):679-687. 被引量：6

二级引证文献44

1陈思,钱铭宇,刘昌明.文本分类技术研究进展[J].电脑编程技巧与维护,2009(S1):22-24.
2刘邱云,付雪峰,吴根秀.可传递信度模型上的Rough算子及其应用[J].江西师范大学学报（自然科学版）,2008,32(2):246-248. 被引量：2
3王娟.Web文本分类技术研究[J].福建电脑,2008,24(9):107-107.
4王梅文.基于本体进行自动分类的元搜索引擎的设计与实现[J].现代图书情报技术,2008(9):58-63. 被引量：5
5任克强,张国萍,赵光甫.基于相对文档频的平衡信息增益降维方法[J].江西理工大学学报,2008,29(5):68-71. 被引量：3
6林令娟,刘希玉.基于微粒群优化的快速K-近邻分类算法[J].山东科学,2009,22(1):13-16. 被引量：2
7邵秀丽,乜聚科,田振雷,侯乐彩.用户个性化推荐系统的设计与实现[J].计算机工程与设计,2009,30(20):4681-4685. 被引量：13
8卜书庆,刘华梅,王广平.近年来国内知识组织研究热点综述[J].中国索引,2010,8(1):2-12. 被引量：9
9刘杨,陈晖,陈远江.中文文本信息过滤技术研究[J].船电技术,2010,30(7):58-61. 被引量：2
10张玉峰,何超.基于潜在语义分析和HS-SVM的文本分类模型研究[J].情报理论与实践,2010,33(7):104-107. 被引量：9

1袁妍,洪晓光.基于模糊-粗糙集的移动对象k近邻预测[J].计算机科学,2008,35(2):140-143. 被引量：2
2于锟,刘知贵,黄正良.一种改进的基于模糊-粗糙集的属性约简算法[J].微计算机信息,2006,22(06X):272-273. 被引量：5
3霍亮,杨柳,张俊芝.贝叶斯与k-近邻相结合的文本分类方法[J].河北大学学报（自然科学版）,2012,32(3):316-319. 被引量：1
4姜婷.基于改进离散蜂群算法的车辆路径问题求解[J].湖北文理学院学报,2016,37(2):9-14. 被引量：2
5姜婷.求解配送中心选址问题的改进人工蜂群算法[J].四川理工学院学报（自然科学版）,2016,29(1):24-28. 被引量：4
6张凤斌,杨泽,葛海洋.基于聚类的邻域检测器生成算法[J].计算机工程,2016,42(2):131-136. 被引量：2
7范敬德,沈中林,于旭亮,樊玮.一种改进的基于模糊-粗糙集的属性约简算法[J].航空计算技术,2007,37(2):8-10. 被引量：1
8何力,卢冰原.基于EM的模糊-粗糙集最近邻算法[J].计算机工程,2010,36(24):136-138. 被引量：1
9王伟明,王震,胡洁,尹纪龙,彭颖红.基于模糊-粗糙集算法的知识级约束建模[J].计算机工程,2006,32(11):1-3.
10袁方,杨柳,张红霞.基于k-近邻方法的渐进式中文文本分类技术[J].华南理工大学学报（自然科学版）,2004,32(z1):88-91. 被引量：7

华南理工大学学报（自然科学版）

2004年第z1期

浏览历史

内容加载中请稍等...

基于模糊-粗糙集的文本分类方法被引量：8

参考文献7

共引文献5

同被引文献237

引证文献8

二级引证文献44

相关作者

相关机构

相关主题

浏览历史

基于模糊-粗糙集的文本分类方法 被引量：8

参考文献7

共引文献5

同被引文献237

引证文献8

二级引证文献44

相关作者

相关机构

相关主题

浏览历史

基于模糊-粗糙集的文本分类方法被引量：8