基于Rough集潜在语义索引的Web文档分类被引量：7

Web Document Classification Based on Rough Set Latent Semantic Indexing

下载PDF

导出

摘要 Rough集(粗糙集)理论是一种处理不确定或模糊知识的数学工具。提出了一种基于Rough集理论的潜在语义索引的Web文档分类方法。首先应用向量空间模型表示Web文档信息,然后通过矩阵的奇异值分解来进行信息过滤和潜在语义索引;运用属性约简算法生成分类规则,最后利用多知识库进行文档分类。通过试验比较,该方法具有较好的分类效果。 Rough set theory is a mathematical tool to deal with uncertain or vague knowledge. An approach to Web document classification based on rough set latent semantic indexing is proposed. Firstly, Web documents, which are denoted by vector space model reduced document feature set. Then, information filtering and latent semantic indexing are conducted by singular value decomposition of matrix. Generating classification rule by attribution reduces algorithm. Finally, the documents are classified with multiple knowledge bases. The experiment results and the comparison with others show tha this Web document classification has good classification performance.

作者何明冯博琴傅向华

机构地区西安交通大学计算机科学与技术系

出处《计算机工程》 CAS CSCD 北大核心 2004年第13期3-5,共3页 Computer Engineering

关键词粗糙集潜在语义索引 WEB文档分类信息过滤信息检索 s Rough set Latent semantic indexing Web document classification Information filtering Information retrieval

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献5

1Pawlak Z. Rough Sets. International Journal of Information and Computer Science, 1982, 11(5): 341-356
2Pawlak Z, Grzymla-Busse J. Rough Sets. Communications of the ACM, 1995,38(11):88-95
3Deerwester S, Dumains S, Fumas G, et al. Indexing by Latent Semantic Analysis [J]. Journal of the American Society for Information Science, 1990, 41(6):391-407
4Bao Yongguang, Aoyama S, Du Xiaoyong. A Rough Set-based Hybrid Method to Text Categorization. Second International Conference on Web Information Systems Engineering (WISE′01) Volumel.2002:254-261
5Chouchoulas A, Shen Q. A Rough Set-Based Approach to Text Classification. In 7th International Workshop, RSFDGrC99, Yamaguchi,Japan, 1999:118-129

同被引文献72

1叶浩,王明文,曾雪强.基于潜在语义的多类文本分类模型研究[J].清华大学学报（自然科学版）,2005,45(S1):1818-1822. 被引量：18
2刘云峰 ,齐欢 ,HU Xiang'en ,CAI Zhiqiang ,代建民 .基于潜在语义空间维度特性的多层文档聚类[J].清华大学学报（自然科学版）,2005(S1):1783-1786. 被引量：11
3曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
4王自强,钱旭.基于KDA和SVM的文档分类算法[J].计算机应用,2009,29(2):416-418. 被引量：1
5郑亚非.潜在语义分析与篇章理解[J].浙江工业大学学报（社会科学版）,2006,5(1):70-75. 被引量：1
6顾榕,王小平,曹立明.一种基于潜在语义分析的查询扩展算法[J].计算机工程与应用,2004,40(18):23-25. 被引量：8
7王怡,盖杰,武港山,王继成.基于潜在语义分析的中文文本层次分类技术[J].计算机应用研究,2004,21(8):151-154. 被引量：15
8王金凤.一种基于特征聚合理论和LSI的文本分类新方法[J].北京理工大学学报（社会科学版）,2004,6(5):92-94. 被引量：2
9刘云峰,齐欢,代建民.潜在语义分析在中文信息处理中的应用[J].计算机工程与应用,2005,41(3):91-93. 被引量：18
10陈涛,宋妍,谢阳群.基于IIG和LSI组合特征提取方法的文本聚类研究[J].情报学报,2005,24(2):203-209. 被引量：14

引证文献7

1饶文碧,柯慧燕.Web文本分类技术研究及其实现[J].计算机技术与发展,2006,16(3):116-118. 被引量：5
2孙海霞,成颖.潜在语义标引(LSI)研究综述[J].现代图书情报技术,2007(9):49-53. 被引量：6
3张永奎,李红娟.基于类别关键词的突发事件新闻文本分类方法[J].计算机应用,2008,28(B06):139-140. 被引量：11
4卫威,王建民.一种大规模数据的快速潜在语义索引[J].计算机工程,2009,35(15):35-37. 被引量：10
5江开忠,李路,王昭宗.基于语料库的潜语义信息度量[J].计算机应用,2009,29(9):2450-2453.
6杨莹,吴诚炜,胡苏.基于受限玻尔兹曼机的中文文档分类[J].科技创新导报,2012,9(16):35-36. 被引量：3
7刘勘,朱芳芳.基于潜在语义索引的科技文献主题挖掘[J].计算机工程与应用,2014,50(24):113-117. 被引量：4

二级引证文献38

1孙铁利,张妍,李晓微.文本挖掘中特征降维方法比较研究[J].电脑知识与技术,2008(1):201-204. 被引量：1
2晋幼丽,周明全,王学松.SVM和K-means结合的文本分类方法研究[J].计算机技术与发展,2009,19(11):35-37. 被引量：5
3张永奎,张晴,王磊.面向信息处理的突发事件新闻语料库建设与应用研究[J].山西大学学报（自然科学版）,2009,32(4):546-551. 被引量：7
4张志平.基于“中文新闻信息分类与代码”文本分类[J].太原理工大学学报,2010,41(4):402-405. 被引量：5
5庄新妍.计算机中文分词技术的应用[J].呼伦贝尔学院学报,2010,18(3):70-74. 被引量：4
6武浩,王美姣,冯佳明,裴以建.专家检索研究进展[J].计算机应用研究,2010,27(10):3633-3638. 被引量：5
7张彪,刘贵全.基于关联分析的文本分类特征选择算法[J].计算机工程,2010,36(22):184-186. 被引量：3
8高仕龙.基于奇异值分解的英文文本检索算法[J].计算机工程,2011,37(1):78-80. 被引量：2
9周川祥,孟凡荣,张磊,王志愿.具有特征语义权重的数据聚类方法[J].计算机工程,2011,37(4):64-66. 被引量：1
10钱晓东,肖强,王婷婷.基于信号传递的神经网络文本降维算法[J].计算机工程,2011,37(5):213-215.

1汪志圣,李龙澍.Web文档分类方法的比较与分析[J].滁州学院学报,2007,9(6):33-35.
2马光志,张生庭.基于关联规则的Web文档分类[J].计算机工程与设计,2005,26(9):2515-2518. 被引量：8
3周朴雄.用于WEB文档分类的并行KNN算法[J].计算机工程与应用,2008,44(25):155-156. 被引量：1
4李杨,曾海泉,刘庆华,胡运发.基于kNN的快速WEB文档分类[J].小型微型计算机系统,2004,25(4):725-729. 被引量：13
5罗杰,陈力,夏德麟,王凯.基于新的关键词提取方法的快速文本分类系统[J].计算机应用研究,2006,23(4):32-34. 被引量：17
6邹汉斌,张伟,周霆,陈芸.一种新的Web分类方法[J].微计算机应用,2005,26(4):432-435.
7石芙芙,董祥军,陈修宽.负关联规则在Web文档分类中的研究[J].信息化纵横,2009(13):1-3.
8付剑锋,刘宗田,刘念祖.基于多知识库和局部反馈的查询扩展研究[J].情报杂志,2013,32(2):103-106. 被引量：3
9大天使泰瑞尔.来吧!来吧! 一起Wiki[J].电脑爱好者,2009(6):74-74.
10彭志平,夏战锋.基于最小概念集的多知识库整合[J].计算机工程,2011,37(8):28-30. 被引量：2

计算机工程

2004年第13期

浏览历史

内容加载中请稍等...

基于Rough集潜在语义索引的Web文档分类被引量：7

参考文献5

同被引文献72

引证文献7

二级引证文献38

相关作者

相关机构

相关主题

浏览历史

基于Rough集潜在语义索引的Web文档分类 被引量：7

参考文献5

同被引文献72

引证文献7

二级引证文献38

相关作者

相关机构

相关主题

浏览历史

基于Rough集潜在语义索引的Web文档分类被引量：7