期刊文献+

基于知网的概念特征抽取方法 被引量:17

Hownet-based conceptual feature selection method
下载PDF
导出
摘要 文本特征抽取是文本过滤的一项重要基础,但通常采取的用字、词作为特征项的显著缺点是无法表达文本的语义信息,所以本文在向量空间模型的基础上提出了一种以知网为语义知识库、基于语义信息的文本特征项抽取方法。该方法比单纯的词汇信息更能体现文本的概念特征,提高过滤系统的性能;同时还能降低文本向量的维数,减少计算量,提高过滤效率。我们在引入了该方法的中文文本过滤系统上进行的实验结果也充分证实了其有效性。 Feature selection of documents is an important issue in text filtering. However, the lack of semantic information in document representation is a great disadvantage of word feature. This paper presents a novel method of semantic based feature selection on the basis of vector space model which takes Hownet as its semantic repository. This method can better represent the conceptual feature of texts than simple words, improve the system performance, meanwhile decrease the dimension of text vector to reduce the load of computation and improve the filtering efficiency. The experiment results on our Chinese text filtering system which integrated the method has sufficiently proved its effect.
出处 《通信学报》 EI CSCD 北大核心 2004年第7期46-54,共9页 Journal on Communications
基金 国家信息安全保障持续发展计划基金资助项目 国家自然科学基金资助项目(69873011 69935010 60103014) 国家"863"基金资助项目(2001AA114120 2002AA142090)
关键词 文本过滤 特征抽取 向量窄间模型 知网 text filtering feature selection vector space model Hownet
  • 相关文献

参考文献8

  • 1WU L D, HUANG X J, NIU J Y, et al. FDU at TREC2002: filtering, Q&A, Web and video tasks[A]. The Eleventh Text Retrieval Conference[C]. Gaithersburg, MD, 2002.
  • 2林鸿飞,姚天顺.基于示例的中文文本过滤模型[J].大连理工大学学报,2000,40(3):375-378. 被引量:13
  • 3林鸿飞,王剑峰.基于合作模式的文本过滤模型[J].小型微型计算机系统,2001,22(11):1372-1374. 被引量:4
  • 4SALTON G. Developments in automatic text retrieval[J]. Science, 1991, 253(5023): 974-979.
  • 5WU L D, HUANG X J, NIU J Y, et al. FDU at TREC-10: filtering, Q&A, Web and video tasks[A]. The Tenth Text Retrieval Conference[C]. Gaithersburg, MD, 2001.
  • 6董振东 董强.知网简介[EB/OL].http://www.keenage.com/.,1999.
  • 7ELLEN M, VOORHEES, et al. Overview of TREC 2001[A]. The Tenth Text Retrieval Conference[C]. Gaithersburg, MD, 2001.
  • 8ROBERTSON S, SOBOROFF I. The TREC 2002 filtering track report[A]. Proceedings of the Eleventh Text Retrieval Conference[C]. Gaithersburg, MD, 2002.

二级参考文献6

共引文献39

同被引文献134

引证文献17

二级引证文献50

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部