基于WordNet概念向量空间模型的文本分类被引量：16

WordNet-based Concept Vector Space Model for Text Classification

下载PDF

导出

摘要文章提出了一种文本特征提取方法,以WordNet语言本体库为基础,以同义词集合概念代替词条,同时考虑同义词集合间的上下位关系,建立文本的概念向量空间模型作为文本特征向量,使得在训练过程中能够提取出代表类别的高层次信息。实验结果表明,当训练文本集合很小时,方法能够较大地提高文本的分类准确率。 In this paper,we design and implement an automatic text classification system,aiming at improving the accuracy of text classification.ln current existing automatic text classification systems,the content of text is described by N-dimension feature vector model,but the approaches for establishing the model have great influence on the accuracy of text classification.Vector Space Model（VSM）,as one of the most effective approaches,describes a document as orthogonal term vectors.The assumption of the VSM approach is that the semantic relation between terms is ignored.But in the real world,semantic relations between terms usually exlst,such as synonymy and hypemymy-hyponymy,etc.Here we introduce a novel approach,based on WordNet,for describing a text by establishing concept vector space model.In our approach,we can extract the high-level information on categories during training process by replacing terms with synonymy sets in WordNet and considering hypemymy-hyponymy relation between synonymy sets.We carry on a series of experiments to compare our approach with the term-based VSM approach.The results show that our approach could improve the accuracy of text classification especially when the size of trainning set is small.

作者张剑李春平

机构地区清华大学软件学院

出处《计算机工程与应用》 CSCD 北大核心 2006年第4期174-178,共5页 Computer Engineering and Applications

关键词文本自动分类 WORDNET 概念向量向量空间模型 text classification,WordNet,concept vector,VSM

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献16

1Shankar S,Karypis G.Weight adjustment schemes for a centroid based classifier[R].Computer Science Technical Report TR00-035 ,Department of Computer Science,University of Minnesota,Minneapolis,Minnesota, 2000.
2Yang Y.An Evaluation of Statistical Approaches to Text Category[J]. Journal of Information Retrieval, 1999 ; 1 (1/2) :67-88.
3Cairo R A,Partridge M.A Comparative Study of Principal Component Analysis Techniques[C].In:Proe Ninth Australian Conf On Neural Networks, Brisbane, QLD, 1998.
4Deerwester S,Dumais S T,Furnas G W et al.Indexing by Latent Semantic Analysis[J].Joumal of the American Society for Information Science, 1990;41 (6) :391-407.
5Dumais S T.Using LSI for information filtering:TREC-3 experiments[C]. In : Proc of the Third Text Retrieval (TREC-3), National Institute of Standards and Technoloy, 1995.
6Karypis G,Han E H.Concept indexing;A fast dimensionality reduction algorithem with applications to document retrieval & categorization[R]. Technical Report TR-00-016,Department of Computer Science,University of Minnesota,Minneapolis,2000.
7Yang Y,Pedersen J O.A Comparative Study on Feature Selection in Text Categorization[C].In : ICML 97,1997:412-420.
8Kohavi R,John G.Wrappers for Feature Subset Selection[J].Artificial Intelligence, 1997 ; 97 ( 1-2 ) : 273-324.
9Thorsten Joachims.A probabilistic analysis of the Rocchio algorithm with TFIDF for text categorization[C].In :Proceedings of ICML'97, 1997 : 143-151.
10R Basili,A Moschitti,M Pazienza.A text classifier based on linguistic processing[C].In :Proceedings of IJCAI-99,Machine Learning for Information Filtering, 1999.

共引文献8

1刘华.基于语料库的领域词语聚类C#实现[J].计算机工程与应用,2005,41(36):167-169. 被引量：3
2刘华.词典编撰的领域词语自动获取与选择[J].计算机工程与应用,2006,42(24):176-178. 被引量：2
3刘华.改进的简单贝叶斯文本分类[J].暨南大学学报（自然科学与医学版）,2007,28(1):48-51. 被引量：6
4郝春风,王忠民.一种用于大规模文本分类的特征表示方法[J].计算机工程与应用,2007,43(15):170-172. 被引量：12
5刘华.基于分类标注语料库的关键词标引知识自动获取[J].图书情报工作,2007,51(7):41-43. 被引量：6
6司红娜,姚力文,李向军.基于同义替换和相邻词合并的关键词特征权重计算新方法[J].计算机与现代化,2010(4):115-117. 被引量：1
7马续补,郭菊娥.基于《知网》语义相似度的企业事实主题诊断研究[J].情报杂志,2010,29(5):54-57. 被引量：1
8朱一.文档聚类算法改进及效果测试[J].消费电子,2013(14):59-60.

同被引文献155

1宋枫溪,高林.文本分类器性能评估指标[J].计算机工程,2004,30(13):107-109. 被引量：33
2李荣陆,王建会,陈晓云,陶晓鹏,胡运发.使用最大熵模型进行中文文本分类[J].计算机研究与发展,2005,42(1):94-101. 被引量：95
3SHIYong-feng ZHAOYan-ping.Comparison of Text Categorization Algorithms[J].Wuhan University Journal of Natural Sciences,2004,9(5):798-804. 被引量：4
4胡建强,邹鹏,王怀民,周斌.Web服务描述语言QWSDL和服务匹配模型研究[J].计算机学报,2005,28(4):505-513. 被引量：108
5朱靖波,陈文亮.基于领域知识的文本分类[J].东北大学学报（自然科学版）,2005,26(8):733-735. 被引量：12
6刘龙英.专利文献——竞争情报收集的重点[J].科技情报开发与经济,2005,15(22):83-84. 被引量：6
7郝占刚,王正欧.基于潜在语义索引和遗传算法的文本特征提取方法[J].情报科学,2006,24(1):104-107. 被引量：16
8俞士汶,朱学锋,王惠,张芸芸.现代汉语语法信息词典规格说明书[J].中文信息学报,1996,10(2):1-22. 被引量：34
9张友华,熊范纶.基于句子相关度的文本自动分类[J].中国科学技术大学学报,2006,36(5):540-545. 被引量：4
10杜小勇,李曼,王珊.本体学习研究综述[J].软件学报,2006,17(9):1837-1847. 被引量：242

引证文献16

1张运良,张全.基于句类向量空间模型的自动文本分类研究[J].计算机工程,2007,33(22):45-47. 被引量：6
2胡新华.基于网络实时监测获取的专利情报系统设计[J].计算机工程与设计,2008,29(22):5888-5891. 被引量：1
3王琦.自动分类技术研究[J].河南财政税务高等专科学校学报,2008,22(4):91-93. 被引量：1
4毕静.自动分类技术研究[J].电脑知识与技术,2009,5(2):1020-1021. 被引量：2
5胡新华.专利情报动态网络监测获取系统的设计与实现[J].情报学报,2009,28(2):290-295. 被引量：1
6程波波,张友华,李绍稳,辜丽川,朱利君.茶学本体学习中的概念抽取[J].计算机系统应用,2010,19(7):111-114. 被引量：2
7王东睿,杨庚,陈蕾,张迎周.基于WordNet和Kernel方法的Web服务发现机制研究[J].计算机技术与发展,2010,20(12):69-72. 被引量：3
8王效岳,胡泽文,白如江.WordNet与SUMO本体之间的映射机制研究[J].现代图书情报技术,2011(1):22-30. 被引量：7
9胡泽文,王效岳,白如江.基于SUMO和WordNet本体集成的文本分类模型研究[J].现代图书情报技术,2011(1):31-38. 被引量：8
10徐斌,张玉峰.基于语义准则函数的中文评论性文本极性聚类算法研究[J].情报学报,2011,30(5):451-455. 被引量：1

二级引证文献53

1孙瑞.基于英语翻译应用视角下的计算机智能校对系统开发研究[J].微型电脑应用,2020,36(2):145-148. 被引量：6
2葛文,成毅,孙亚飞.基于简单语义的地理信息服务发现方法研究[J].地理信息世界,2012,10(3):31-35. 被引量：1
3张璐,王景中.基于改进贝叶斯算法的文本广告邮件过滤[J].网络安全技术与应用,2009(1):55-57. 被引量：1
4何维,王宇.基于句子的文本表示及中文文本分类研究[J].情报学报,2009,28(6):839-843. 被引量：3
5魏兵,李亚非.基于同被引矩阵的专利引文分析方法[J].计算机工程与设计,2010,31(8):1779-1781. 被引量：3
6常凯.基于TF＊IDF垃圾邮件过滤改进算法的研究[J].电脑知识与技术,2010,6(9):6928-6930. 被引量：2
7刘勘,刘萍.基于VSM的专家领域分析及可视化研究[J].图书情报工作,2011,55(10):74-77. 被引量：1
8马甲林,张桂珠,刘金岭.中英文文本分类系统异同因素的探讨[J].电脑学习,2011(2):111-112.
9何光虹,赵英凯,李彦文.网络信息监测采集技术在中医药情报研究中的应用[J].医学信息,2011,24(17):5603-5604. 被引量：1
10孔华云,杨庚,陈蕾,王伟.QoS本体驱动的Web服务发现[J].计算机技术与发展,2011,21(12):201-204.

1曾超,吕钊,顾君忠.基于概念向量空间模型的电子邮件分类[J].计算机应用,2008,28(12):3248-3250.
2马甲林,刘金岭,金春霞.基于概念簇的文本分类算法[J].图书情报工作,2013,57(15):132-136. 被引量：2
3李卓峰.计算机网络技术在电子信息工程中的应用[J].网络安全技术与应用,2017(1):26-27. 被引量：2
4窦宝忱,周思方,王海燕.数字化校园综合平台的设计研究[J].郑州轻工业学院学报（自然科学版）,2009,24(3):45-48.
5叶兴茂.如何用XML在浏览器中显示图像[J].电脑编程技巧与维护,2001(8):65-66.
6叶兴茂.如何用XML在浏览器中显示图像[J].电脑编程技巧与维护,2002(1):56-57.
7卢耀晖,曹立明.一种改进的基于相似度的模糊推理方法[J].福建电脑,2008,24(3):84-85.
8焦红岩.模糊控制在直流电动机故障诊断中的应用[J].电子世界,2012(7):82-83.
9李丽丽,李明,刘希玉.基于粒子群模糊C-均值聚类的图像分割算法[J].计算机工程与应用,2009,45(31):158-160. 被引量：12
10侯亚南,黄映辉.用于形式背景提取的中文文本表示[J].计算机技术与发展,2010,20(9):36-39.

计算机工程与应用

2006年第4期

浏览历史

内容加载中请稍等...

基于WordNet概念向量空间模型的文本分类被引量：16

参考文献16

共引文献8

同被引文献155

引证文献16

二级引证文献53

相关作者

相关机构

相关主题

浏览历史

基于WordNet概念向量空间模型的文本分类 被引量：16

参考文献16

共引文献8

同被引文献155

引证文献16

二级引证文献53

相关作者

相关机构

相关主题

浏览历史

基于WordNet概念向量空间模型的文本分类被引量：16