文本分类中基于图模型的特征提取方法

Graph Based Feature Extraction in Text Categorization

导出

摘要文本分类是处理和组织大量文本数据的关键技术之一。为了更加有效地实现文本分类,本文提出了一种基于图模型的文本特征提取方法。该方法利用类别信息在训练数据集上构造邻接带权图及其补图,使得属于同一个类别的样本点的投影尽可能近,不属于同一个类别的样本点的投影尽可能远。这种方法既能够获得文本空间的全局结构信息又可以保留局部结构信息。最后,采用K近邻分类器在20Newsgroups标准数据集上进行训练和测试,并且与基于潜在语义索引的文本分类方法做了比较,文本分类的性能得到很大提高。实验结果表明,本文所提出的方法能够有效地提高文本分类的性能。 Text categorization is one of the techniques for processing and organizing masswe documents. This paper proposes a kind of feature extraction method based on graph model for text categorization so that the classification can be implemented effectively. The novel method utilizes the class information to construct an adjacent weighted graph and its complement on training set, which ensure the projections of samples belonged to the same class are close to each other and the projections of samples pertained to the different class are far away from each other. It not only obtains the global structure but also preserves the local structure of document space. We have conducted experiments on a subset of 20 Newsgroups using k-nearest neighbor classifier, and our experimental results show that the presented method outperforms the classical latent semantic indexing for text categorization. It can improve the performance of text categorization.

作者甄志龙曾晓勤韩立新

机构地区河海大学计算机与信息学院通化师范学院计算机科学系

出处《情报科学》 CSSCI 北大核心 2011年第8期1248-1251,1272,共5页 Information Science

基金国家自然科学基金资助项目(60971088 60673186)

关键词文本分类特征提取潜在语义索引图模型 text categorization feature extraction latent semantic indexing graph model

分类号 G350 [文化科学—情报学]

引文网络
相关文献

参考文献21

1李文波,孙乐,张大鲲.基于Labeled-LDA模型的文本分类新算法[J].计算机学报,2008,31(4):620-627. 被引量：103
2F. Sebastiani. Machine learning in automated text categoriza- tion [J]. ACM Computing Surveys, 2002, 34(1):147.
3蒲筱哥.自动文本分类方法研究述评[J].情报科学,2008,26(3):469-475. 被引量：12
4G. Sahon, A. Wong, C. S. Yang. A vector space model for auto- matic indexing [J]. Communications of the ACM, 1975, 18(5): 613-620.
5郑凤萍,刘春雨.基于模糊向量空间的文本分类方法[J].情报科学,2007,25(4):588-591. 被引量：2
6刘海峰,王元元,张学仁.基于潜在语义空间的文本检索问题研究[J].情报科学,2007,25(5):748-753. 被引量：9
7S. C. Deerwester, S. T. Dumais, T. K. Landauer, G. W. Furnas, R. A. harshman. Indexing by latent semantic analysis [J]. Journal of the American Society of Information Science, 1990, 41(6):391-407.
8陈涛,谢阳群.文本分类中的特征降维方法综述[J].情报学报,2005,24(6):690-695. 被引量：79
9S. Zelikovitz, H. Hirsh. Using LSI for text classification in the presence of background text [A]. Proceedings of the 10th In- ternational Conference on Information and Knowledge Man- agement (CIKM) [C], 2001:113-118.
10L. Chen, N. Tokuda, A. Nagai. A new differential LSI space based probabilistic document classifier [J]. Information Pro- cessing Letters, 2003, 88(5):203-212.

二级参考文献136

1张启蕊,张凌,董守斌,谭景华.训练集类别分布对文本分类的影响[J].清华大学学报（自然科学版）,2005,45(S1):1802-1805. 被引量：27
2付雪峰,王明文.基于模糊-粗糙集的文本分类方法[J].华南理工大学学报（自然科学版）,2004,32(z1):73-76. 被引量：8
3曾雪强,王明文,陈素芬.一种基于潜在语义结构的文本分类模型[J].华南理工大学学报（自然科学版）,2004,32(z1):99-102. 被引量：27
4王煜,王正欧.基于模糊决策树的文本分类规则抽取[J].计算机应用,2005,25(7):1634-1637. 被引量：13
5万中英,王明文,廖海波.基于投影寻踪的中文网页分类算法[J].中文信息学报,2005,19(4):60-67. 被引量：11
6杜小勇,李曼,王珊.本体学习研究综述[J].软件学报,2006,17(9):1837-1847. 被引量：242
7苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387
8刘群李素建.基于《知网》的词汇语义相似度的计算.中文计算语言学,2002,17(2):59-76.
9Boser, B., Guyon,I., Vapnik,V. A training algorithm for optimal margin classifier[C].In Proceedings of the Fifth Annual ACM Workshop on Computational Learning Theory,New York: ACM, 1992:144-152.
10V.Vapnik.The nature of statistical leaning theory[M].Berlin: Springer, 1995 : 181-216.

共引文献251

1况夯,罗军.基于遗传FCM算法的文本聚类[J].计算机应用,2009,29(2):558-560. 被引量：5
2刘海峰,王元元,王倩.基于位置和类别结合模式的一种文本自动分类模型[J].图书情报工作,2006,50(S2):90-92.
3陈思,钱铭宇,刘昌明.文本分类技术研究进展[J].电脑编程技巧与维护,2009(S1):22-24.
4白如江.基于粗糙集和RBF神经网络的文本自动分类方法[J].现代图书情报技术,2006(6):47-51. 被引量：3
5余俊英,王明文,盛俊.文本分类中的类别信息特征选择方法[J].山东大学学报（理学版）,2006,41(3):10-13. 被引量：5
6唐歆瑜,乐文忠,李志成,李军义.基于知网语义相似度计算的特征降维方法研究[J].科学技术与工程,2006,6(21):3442-3446. 被引量：16
7张伟刚,谭建豪.基于人工免疫系统的网络文本分类研究[J].科学技术与工程,2006,6(22):3621-3623.
8张雪英.基于机器学习的文本自动分类研究进展[J].情报学报,2006,25(6):730-739. 被引量：11
9刘洋.中文文本分类中特征选择方法的比较研究[J].科技信息,2007(3):54-54. 被引量：3
10严莉莉,张燕平.基于类信息的文本聚类中特征选择算法[J].计算机工程与应用,2007,43(12):144-146. 被引量：7

1王志俊.谈乡镇图书馆的服务方式[J].图书馆杂志,1988,7(1):29-29.
2蒲筱哥.自动文本分类方法研究述评[J].情报科学,2008,26(3):469-475. 被引量：12
3陈华辉.一种基于潜在语义索引的“垃圾”邮件过滤方法[J].计算机应用研究,2000,17(10):17-18. 被引量：17
4龚主杰.潜在语义索引在图像检索中的应用[J].图书馆学刊,2009,31(5):91-93. 被引量：1
5石广济.我馆是怎样进行管理改革的[J].图书馆建设,1985(2):26-29.
6王汾,张玉峰.用户导航历史的半结构时序图模型研究[J].现代图书情报技术,2006(2):59-62.
7Heng CHEN Hai JIN Feng ZHAO.PSG： a two-layer graph model for document summarization[J].Frontiers of Computer Science,2014,8(1):119-130. 被引量：2
8刘格,杨帆,袁翔,刘博.基于图模型的目标数据组织及关联分析方法[J].指挥信息系统与技术,2016,7(5):96-101. 被引量：2
9河南总队畜禽监测调查迎“五新”[J].数据,2012(4):42-42.
10卢红杰.基于内容的图像检索[J].兰台世界（上旬）,2007(04X):21-22. 被引量：1

情报科学

2011年第8期

浏览历史

内容加载中请稍等...

文本分类中基于图模型的特征提取方法

参考文献21

二级参考文献136

共引文献251

相关作者

相关机构

相关主题

浏览历史