双语交叉分类模型的设计与实现

The Design and Implementation of Model for Bi-linguistic Text Categorization

下载PDF

导出

摘要利用交叉分类机制共享因特网上各种语言的信息资源是知识挖掘的重要方法 ,本文给出了双语交叉分类的模型以及实现方法。其主要思想是不需要进行机器翻译和人工标注 ,利用文本特征抽取机制提取类别特征项和文本特征项 ,通过基于概念扩充的对译映射规则自动生成类别和文本特征向量 ,在此基础上利用潜在语义分析 ,将双语文本在语义层面上统一起来 ,通过类别与文本的语义相似度进行分类。 It is essential to knowledge discovery that multi linguistic text categorization is applied to share the information sources in the Internet.The model for bi linguistic text categorization is presented in this paper.It utilizes the mechanism of text feature extraction to extract the features of classes and texts,and it generates the feature vectors of classes and texts by the rule of word translation based on concept expansion. As a result,it uses Latent Semantic Indexing to integrate the bi linguistic texts on the semantic layer,and it calculates the semantic similarity between texts and classes to classify the texts.It can make high categorization precision,and it is independent of machine translation and manual tagging.

作者林鸿飞王剑峰

机构地区大连理工大学计算机系大连外国语学院计算机中心

出处《中文信息学报》 CSCD 北大核心 2001年第6期27-32,共6页 Journal of Chinese Information Processing

关键词双语交叉文本分类概念扩充潜在语义分析空间向量模型知识挖掘语义相似度文本特征抽取机制 bi linguistic text categorization conceptual expansion latent semantic indexing vector space model

分类号 TP391.12 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献4

1林鸿飞,战学刚,姚天顺.基于概念的文本结构分析方法[J].计算机研究与发展,2000,37(3):324-328. 被引量：35
2林鸿飞,李业丽,姚天顺.中英文双语交叉过滤的逻辑模型[J].计算机工程与应用,2000,36(8):48-50. 被引量：9
3林鸿飞.基于示例的文本标题分类机制[J].计算机研究与发展,2001,38(9):1132-1136. 被引量：17
4林鸿飞.基于混合模式的文本过滤模型[J].计算机研究与发展,2001,38(9):1127-1131. 被引量：22

二级参考文献27

1陈磊.基于HNC语义分析的中文标题分类方法.计算语言学文集[M].北京:清华大学出版社,1999.371-375.
2战学钢姚天顺.基于汉语分析的中文标题分类方法.中文信息处理国际会议论文集[M].北京:清华大学出版社,1998.321-324.
3－.中国分类主题词表，分类号－主题词对应表，第一卷[M].北京:华艺出版社,1994..
4－.中国分类主题词表，主题词－分类号对应表，第二卷[M].北京:华艺出版社,1994..
5吴立德，大规模中文文本处理，1997年
6Yan T W，Proceeding of the USENIX Technical Conference，1995年，177页
7姚天顺，自然语言理解，1995年
8Yan T W，Proceeding of the Third International Conference onParallel and Distributed Info，1994年，89页
9吴立德，大规模中文文本处理，1997年
10战学钢，中文信息学报，1999年，13卷，6期，20页

共引文献79

1宁卓,邹阳,傅光轩.基于内容的智能EMAIL安全拦截系统模型[J].计算机工程,2000,26(S1):227-231. 被引量：1
2胡俊华,杨波,李金屏.自然语言理解研究略述[J].济南大学学报（社会科学版）,2001,11(5):58-62. 被引量：8
3王怡,盖杰,武港山,王继成.基于潜在语义分析的中文文本层次分类技术[J].计算机应用研究,2004,21(8):151-154. 被引量：15
4郑海,林鸿飞.基于段落匹配的文本分类机制[J].计算机工程与应用,2004,40(28):174-176. 被引量：3
5冯伟.基于内容的智能E-mail安全拦截系统模型[J].三峡大学学报（自然科学版）,2004,26(5):453-455.
6王太雷.基于相似模式聚类的电子商务网站个性化推荐系统研究[J].计算机工程与应用,2005,41(6):152-157. 被引量：6
7章成志,侯汉清.面向概念挖掘的文本层次模型研究[J].中国图书馆学报,2005,31(2):58-61. 被引量：3
8王理达.电子政务中中文文本分类技术的应用[J].大众科技,2005,7(1):23-25.
9王太雷.个性化推荐系统中相似模式聚类研究[J].计算机工程,2005,31(10):156-158. 被引量：3
10白振田,侯汉清.基于向量空间的行业自动分类系统应用[J].情报科学,2005,23(6):940-944. 被引量：4

1尤文建,李绍滋,李堂秋.基于概念扩充的文本过滤模型[J].计算机工程与应用,2003,39(25):74-77. 被引量：9
2ITBOY.共享因特网上的MP3——Napster使用详解[J].网迷,2001(3):45-47.
3陈沈焰,吴军华.基于本体的概念语义相似度计算及其应用[J].微电子学与计算机,2008,25(12):96-99. 被引量：31
4孟凡荣,田恬,张磊.基于语义树的语义关联度算法改进[J].微计算机信息,2009,25(12):268-270. 被引量：2
5谢文玲,潘建国.基于语义相似度的个性化信息检索方法[J].计算机应用与软件,2011,28(5):161-164. 被引量：4
6林鸿飞,战学刚,姚天顺.基于概念扩充的中文文本过滤模型[J].计算机科学,2000,27(2):88-90. 被引量：7
7谷文,王迪,王红梅.基于概念扩充的新闻信息抽取模型[J].计算机与信息技术,2009(12):47-49.
8方滨兴,殷丽华.关于信息安全定义的研究[J].信息网络安全,2008(1):8-10. 被引量：22
9李燕妮,李海生,蔡强.基于语义相似度的领域知识推荐研究[J].复杂系统与复杂性科学,2013,10(3):50-54. 被引量：1
10林鸿飞,李业丽,姚天顺.中文文本过滤的信息分流机制[J].计算机研究与发展,2000,37(4):470-476. 被引量：16

中文信息学报

2001年第6期

浏览历史

内容加载中请稍等...

双语交叉分类模型的设计与实现

参考文献4

二级参考文献27

共引文献79

相关作者

相关机构

相关主题

浏览历史