摘要
针对文本特征向量高维数的问题,给出了一种基于本体论的文本特征选取方法。通过由专业领域本体所建立的概念树,把文本的特征项映射到概念,同时进行特征项频度到概念频度的转换,使得选取得到的特征概念能够很好表征文本的内容。实验结果表明,与未进行特征概念选取相比,采用此方法选取得到的特征概念能够在尽可能减少对文本分类精度的影响下,达到降低特征维数的目的。
To effectively reduce the dimension of document vectors, we introduce a novel method employing domain ontology to extract feature concept. For all document categories, all raw words in each category are mapped to concepts in their relative concept tree derived from the domain ontology. At the same time the frequency of raw words is trans-formed into the frequency of concepts. Experimental results show that this method can effectively reduce the dimension of document vectors without loss of categorization accuracy, compared with traditional document vectors.
出处
《计算机科学》
CSCD
北大核心
2008年第3期152-154,共3页
Computer Science
基金
福州大学科技发展基金(2005-XQ-13
2006-XQ-22
XRC-0511)
福建省教育厅(JB06023)资助
关键词
本体
文本特征
文本分类
特征选取
Domain ontology, Document feature, Text classification, Feature selection