基于不完备信息系统的文本分类研究与应用

Research and application of text classification based on incomplete information system

下载PDF

导出

摘要在文本分类中,文本特征向量通常高达几千甚至上万维,给整个分类过程带来了相当庞大的计算量,因此进行有效的降维处理是非常重要的。在不完备信息系统理论的基础上,结合文本分类的特点,提出了一种量化容差关系和启发式的属性约简算法。实验证明该属性约简算法不仅能有效地降低文本特征向量的维度,同时能保证分类的正确率。 Document vectors are highly dimensional in text classification, possibly there are tens of thousands of dimension, which leads to a massive amount of calculation. Thus, it is important to decrease the dimension. In the paper, the authors present a quantitative tolerant relation and a heuristic algorithm for attribute reduction, combining theory of incomplete information systems with features of text classification. The experiment results illuminate the efficiency, for it can not only effectively reduce the dimension, but also maintain high accuracy of text classification.

作者代劲胡峰王国胤

机构地区重庆邮电大学计算机科学与技术研究所

出处《重庆邮电学院学报（自然科学版）》 2006年第3期397-401,共5页 Journal of Chongqing University of Posts and Telecommunications(Natural Sciences Edition)

基金国家自然科学基金(60373111 60573068) 重庆市教育委员会科学技术研究项目资助重庆邮电大学科研基金(XJG0516)

关键词文本分类粗集不完备信息系统属性约简 text classification rough set incomplete information system attribute reduetion

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献10

1SAKTIB G,WONG A,YANG C S.A Vector space model for automatic indexing[J].Communication of the ACM,1975,18(11):613-620.
2SEBASTIANI F.Machine learning in automated text categorization[J].ACM Computing Surveys,2002,34(1):1-47.
3PAWLAK Z.Rough set[J].International Journal of Computer and Information Science,1982,11(5):341-356.
4王国胤.Rough集理论在不完备信息系统中的扩充[J].计算机研究与发展,2002,39(10):1238-1243. 被引量：303
5KRYSZKIEWICZ M.Rough set approach to incomplete information system[J].Information Sciences,1998,112(1):39-49.
6STEFANOWSKI J,TSOUKIAS A.On the extension of rough sets under incomplete information[EB/OL].(2000-02)[2005-11-20].http://portal.acm.org/citation.cfm?id=646590.697636.
7庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究,2001,18(9):23-26. 被引量：293
8孙健,王伟,钟义信.基于K-最近距离的自动文本分类的研究[J].北京邮电大学学报,2001,24(1):42-46. 被引量：13
9HE J,TAN Ah-Hwee,TAN C L.A Comparative Study on Chinese Text Categorization Methods[EB/OL].(2001-04)[2005-11-22].http://citeseer.ist.psu.edu/344949.htm1
10盛晓炜,江铭虎.基于Rough集约简算法的中文文本自动分类系统[J].电子与信息学报,2005,27(7):1047-1052. 被引量：8

二级参考文献24

1黄萱青吴立德.独立于语种的文本分类方法[M].,2000.37-43.
2鲁松白硕等.文本中词语权重计算方法的改进[M].,2000.31-36.
3卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用：博士论文[M].,2000..
4Yang Yiming，Information Retrieval，1999年，1卷，1/2期，69页
5Yang Yiming，Proceedings ICML 97 14th Int Conference on Machine Learning，1997年
6李国臣，中文信息学报，1997年，13卷，4期，10页
7黄萱菁，2000 International Conference on Multilingual Information Processing，2000年，37页
8鲁松，2000 International Conference on Multilingual Information Processing，2000年，31页
9卜东波，博士学位论文，2000年
10Yang Yiming，Proceedings of ACMSIGIR Conference on Research and Development in Information Retrieval（SIGIR），1999年，42页

共引文献606

1安艳辉,董五洲,游自英.基于改进的朴素贝叶斯文本分类研究[J].河北省科学院学报,2007,24(1):22-25. 被引量：7
2蒋英华.利用数据挖掘算法实现一个XML文档分类器[J].科技资讯,2005,3(25):66-70.
3于晓辉,张强.基于可辨识矩阵的不完备模糊目标信息系统的属性约简[J].中国管理科学,2006,14(z1):1-6.
4李粤,安捷,李星.排序融合算法在校园网搜索引擎中的应用[J].大连理工大学学报,2005,45(z1):257-260. 被引量：2
5蒋宗礼,肖华,赵钦.WebSifter:个性化网络搜索辅助系统[J].清华大学学报（自然科学版）,2005,45(S1):1903-1907. 被引量：5
6孔颖,裘彬强,徐从富.基于CART算法的垃圾邮件过滤模型设计与实现[J].计算机应用,2009,29(2):374-376. 被引量：4
7杨俊,廖闻剑,彭艳兵.一种中文文本聚类算法的研究[J].硅谷,2009,2(5):68-69.
8高胜利.不完备目标信息系统中的可变精度粗糙集模型[J].济南职业学院学报,2011(3):65-68.
9金玲玲,王喜凤,朱紫焱.不完备信息系统的增量式约简算法[J].辽宁工程技术大学学报（自然科学版）,2012,31(2):284-288. 被引量：2
10曾玲,何普彦,付敏.不完备区间值信息系统的粗糙集约简算法[J].南京理工大学学报,2013,37(4):524-529. 被引量：9

1邓耀进,李仁发.一种粗糙集理论中量化容差关系的改进[J].计算机工程与科学,2009,31(10):105-107. 被引量：7
2秦华妮.利用容差关系解决不完备数据表的补漏[J].五邑大学学报（自然科学版）,2005,19(2):42-44. 被引量：1
3邓耀进,李仁发.一种基于量化容差关系的粗糙集改进模型[J].科学技术与工程,2008,8(16):4518-4521. 被引量：1
4王国胤.Rough集理论在不完备信息系统中的扩充[J].计算机研究与发展,2002,39(10):1238-1243. 被引量：303
5朱小飞,卓丽霞.一种基于量化容差关系的不完备数据分析方法[J].重庆工学院学报,2005,19(5):23-25. 被引量：9
6官礼和.基于粗糙集理论的不完备信息处理方法研究[J].重庆邮电大学学报（自然科学版）,2009,21(4):461-466. 被引量：8
7张杰.基于跨区域差异残缺数据分析的数据补齐方法[J].科技通报,2013,29(10):211-213.
8李智远,张艳芹.量化容差关系的进一步研究[J].计算机与信息技术,2007(9):19-21.
9Hao-Dong Zhu Hong-Chan Li.Extended Rough Set Model Based on Prior Probability and Valued Tolerance Relation[J].Journal of Electronic Science and Technology,2011,9(1):46-50.
10瞿彬彬,卢炎生.基于限制非对称相似关系的粗糙集模型[J].小型微型计算机系统,2007,28(6):1084-1088. 被引量：2

重庆邮电学院学报（自然科学版）

2006年第3期

浏览历史

内容加载中请稍等...

基于不完备信息系统的文本分类研究与应用

参考文献10

二级参考文献24

共引文献606

相关作者

相关机构

相关主题

浏览历史