期刊文献+

双语交叉分类模型的设计与实现

The Design and Implementation of Model for Bi-linguistic Text Categorization
下载PDF
导出
摘要 利用交叉分类机制共享因特网上各种语言的信息资源是知识挖掘的重要方法 ,本文给出了双语交叉分类的模型以及实现方法。其主要思想是不需要进行机器翻译和人工标注 ,利用文本特征抽取机制提取类别特征项和文本特征项 ,通过基于概念扩充的对译映射规则自动生成类别和文本特征向量 ,在此基础上利用潜在语义分析 ,将双语文本在语义层面上统一起来 ,通过类别与文本的语义相似度进行分类。 It is essential to knowledge discovery that multi linguistic text categorization is applied to share the information sources in the Internet.The model for bi linguistic text categorization is presented in this paper.It utilizes the mechanism of text feature extraction to extract the features of classes and texts,and it generates the feature vectors of classes and texts by the rule of word translation based on concept expansion. As a result,it uses Latent Semantic Indexing to integrate the bi linguistic texts on the semantic layer,and it calculates the semantic similarity between texts and classes to classify the texts.It can make high categorization precision,and it is independent of machine translation and manual tagging.
出处 《中文信息学报》 CSCD 北大核心 2001年第6期27-32,共6页 Journal of Chinese Information Processing
关键词 双语交叉文本分类 概念扩充 潜在语义分析 空间向量模型 知识挖掘 语义相似度 文本特征抽取机制 bi linguistic text categorization conceptual expansion latent semantic indexing vector space model
  • 相关文献

参考文献4

二级参考文献27

  • 1陈磊.基于HNC语义分析的中文标题分类方法.计算语言学文集[M].北京:清华大学出版社,1999.371-375.
  • 2战学钢 姚天顺.基于汉语分析的中文标题分类方法.中文信息处理国际会议论文集[M].北京:清华大学出版社,1998.321-324.
  • 3-.中国分类主题词表,分类号-主题词对应表,第一卷[M].北京:华艺出版社,1994..
  • 4-.中国分类主题词表,主题词-分类号对应表,第二卷[M].北京:华艺出版社,1994..
  • 5吴立德,大规模中文文本处理,1997年
  • 6Yan T W,Proceeding of the USENIX Technical Conference,1995年,177页
  • 7姚天顺,自然语言理解,1995年
  • 8Yan T W,Proceeding of the Third International Conference onParallel and Distributed Info,1994年,89页
  • 9吴立德,大规模中文文本处理,1997年
  • 10战学钢,中文信息学报,1999年,13卷,6期,20页

共引文献79

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部