运用语义集索引法实现英文文本分类被引量：2

Realizing English Text Classification with Semantic Set Index Method

下载PDF

导出

摘要为克服当前文本分类法中基于词形匹配带来的局限性,基于WordNet语义词典和隐含语义索引(LSI)模型,提出了基于语义集索引的英文文本分类方法.该方法在分类初期首先利用WordNet构建语义词典库,利用单词的语义集代替单词作为文本特征向量的特征项;然后利用LSI模型进一步深入挖掘语义集概念间的深层联系,将语言知识和概念索引有效地融合到文本向量空间的表示中.针对Na ve Bayes及简单向量距离文本分类法的实验结果显示,2种文本分类法的分类准确率均随着语义分析的深入逐步提高,充分表明了语义挖掘对文本分类的重要性和必要性. To overcome the limitations of actual text classification methods based on bag-of-words representation, An English text classification method based on semantic set index is presented from the WordNet thesaurus and LSI （latent semantic indexing） model. At the initial stages of text classification, the method first constructs semantic thesaurus database by WordNet and replaces bag-of-words with bag-of-semantic sets as an element of the text feature vector. Then LSI model will be used to further mine the deep-seated relations among concepts represented by semantic sets. It effectively incorporates linguistic knowledge and conceptual index into text vector space representation. The experimental results aiming at Naive Bayes and simple vector distance text classification methods show that the accuracy rates of the two classification methods are gradually improved along with more and more in-depth semantic analysis, fully indicating that semantic mining is very important and necessary to text classification.

作者吕琳刘玉树刘妍

机构地区北京理工大学管理与经济学院北京理工大学计算机科学技术学院

出处《北京邮电大学学报》 EI CAS CSCD 北大核心 2006年第2期18-21,共4页 Journal of Beijing University of Posts and Telecommunications

基金总参谋部技术攀登工程项目(504-4)

关键词文本分类语义集索引隐含语义索引 text classification semantic set index latent semantic indexing

分类号 TP301.2 [自动化与计算机技术—计算机系统结构]

引文网络
相关文献

参考文献6

1Miller G A,Beckwith R,Fellbaum C,etal.Introduction to WordNet:an on-line lexical database[J].International Journal ofLexicography,1990,3(4):235-312.
2庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现[J].计算机应用研究,2001,18(9):23-26. 被引量：293
3吕琳,周世斌,刘玉树.一种高性能英文词性标注器的设计与实现[J].北京理工大学学报,2005,25(10):876-879. 被引量：5
4Dumais S T,Fumas G W,Landauer T K,et al.Using latent semantic analysis to improveinformation retrieval[C]∥Proceedings of CHI 88:Conference on Human Factors inComputing.New York:ACM,1988:281-285.
5孙健,王伟,钟义信.基于K-最近距离的自动文本分类的研究[J].北京邮电大学学报,2001,24(1):42-46. 被引量：13
6王波涛,吴伟陵,吴善培.一种改进的神经网络训练算法[J].北京邮电大学学报,2004,27(4):87-91. 被引量：5

二级参考文献22

1黄萱青吴立德.独立于语种的文本分类方法[M].,2000.37-43.
2鲁松白硕等.文本中词语权重计算方法的改进[M].,2000.31-36.
3卜东波.聚类/分类理论研究及其在大模型文本挖掘的应用：博士论文[M].,2000..
4[4]Bilski J L,Rutkowski L.A fast training algorithm for neuralne tworks[J].IEEE Transactions on Circuits and Systems-Ⅱ:Analog and Digital Signal Processing,1998,15(6):749-753.
5Yang Yiming，Information Retrieval，1999年，1卷，1/2期，69页
6Yang Yiming，Proceedings ICML 97 14th Int Conference on Machine Learning，1997年
7李国臣，中文信息学报，1997年，13卷，4期，10页
8黄萱菁，2000 International Conference on Multilingual Information Processing，2000年，37页
9鲁松，2000 International Conference on Multilingual Information Processing，2000年，31页
10卜东波，博士学位论文，2000年

共引文献307

1安艳辉,董五洲,游自英.基于改进的朴素贝叶斯文本分类研究[J].河北省科学院学报,2007,24(1):22-25. 被引量：7
2蒋英华.利用数据挖掘算法实现一个XML文档分类器[J].科技资讯,2005,3(25):66-70.
3李粤,安捷,李星.排序融合算法在校园网搜索引擎中的应用[J].大连理工大学学报,2005,45(z1):257-260. 被引量：2
4蒋宗礼,肖华,赵钦.WebSifter:个性化网络搜索辅助系统[J].清华大学学报（自然科学版）,2005,45(S1):1903-1907. 被引量：5
5孔颖,裘彬强,徐从富.基于CART算法的垃圾邮件过滤模型设计与实现[J].计算机应用,2009,29(2):374-376. 被引量：4
6杨俊,廖闻剑,彭艳兵.一种中文文本聚类算法的研究[J].硅谷,2009,2(5):68-69.
7李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.
8陈淑珍.Web文本挖掘中的特征表示与特征提取技术[J].三明高等专科学校学报,2004,21(2):53-57. 被引量：2
9邵晓良,刘红.Web信息采集中军事主题信息的识别[J].情报杂志,2004,23(7):14-16. 被引量：2
10施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.

同被引文献13

1邱树雄,李志蜀,王娣.语义网络及其Web信息检索机制研究[J].计算机工程,2004,30(23):118-120. 被引量：13
2王万诚,李伟华,陈昊鹏.基于语义层软件理解的形式化格局识别技术[J].计算机工程,2004,30(23):9-11. 被引量：3
3雷钊,程丽丽.计算机多媒体技术在冰上教学中的运用与开发[J].冰雪运动,2000,22(4):45-46. 被引量：1
4孙铁利,曹晶.基于概念类的索引方法[J].长春理工大学学报（自然科学版）,2006,29(1):79-83. 被引量：1
5杜小勇,李曼,王珊.本体学习研究综述[J].软件学报,2006,17(9):1837-1847. 被引量：242
6苏金树,张博锋,徐昕.基于机器学习的文本分类技术研究进展[J].软件学报,2006,17(9):1848-1859. 被引量：387
7Huazhen Gu Kuanjiu Zhou.Text Classification Based on Domain Ontology[J].通讯和计算机（中英文版）,2006,3(5):29-32. 被引量：5
8范莉娅,王爱民,肖田元.本体集成方法评价指标体系及其应用研究[J].计算机集成制造系统,2007,13(5):911-917. 被引量：12
9黄名选,严小卫.基于查询语义树的语义查询扩展研究[J].情报理论与实践,2007,30(6):844-846. 被引量：4
10胡洁.高维数据特征降维研究综述[J].计算机应用研究,2008,25(9):2601-2606. 被引量：65

引证文献2

1孙若渔.冰球运动视频资源管理的语义索引与检索方法探析[J].冰雪运动,2008,30(3):38-41. 被引量：1
2孙娜.基于本体的文本分类研究综述[J].电脑知识与技术,2011,7(4):2251-2255.

二级引证文献1

1胡水清,冯葆欣,蔡宇辉,吴成亮.体育比赛及训练视频分类管理数据库软件(TacAnalysis)的研究与开发[J].中国体育科技,2011,47(4):73-77. 被引量：8

1张玉连,张敏,张波.一种扩展的向量空间模型-隐含语义索引模型研究[J].燕山大学学报,2006,30(1):87-90.
2何元娇,张国英.基于本体语义的简单向量距离分类方法[J].北京石油化工学院学报,2007,15(3):13-17. 被引量：2
3王天江,叶卫国,卢正鼎,李永平.LSI和kNN相结合的文本分类模型研究[J].华中科技大学学报（自然科学版）,2004,32(4):59-60. 被引量：3
4王栋,吴军华.基于LSI和词典的文本语义相似度算法[J].煤炭技术,2010,29(12):217-218. 被引量：1
5魏保子,王儒敬.隐含语义索引在农业技术问答系统中的应用[J].微电子学与计算机,2008,25(7):48-51. 被引量：1
6王治和,杨延娇.对简单向量距离文本分类算法的改进[J].计算机科学,2009,36(1):236-238. 被引量：4
7朱学昊,王儒敬.隐含语义索引技术在供求信息分类中的应用[J].计算机工程与应用,2007,43(14):192-194.
8梁栋,杨杰,卢进军,常宇畴.基于非负矩阵分解的隐含语义图像检索[J].上海交通大学学报,2006,40(5):787-790. 被引量：7
9徐建锁,王正欧.基于LSI和自组织神经网络的高效文本聚类方法[J].天津大学学报（自然科学与工程技术版）,2004,37(11):1026-1030. 被引量：7
10曹华梁,朱星,俞勇.适用于P2P的系统查询扩展优化方法[J].上海交通大学学报,2005,39(10):1706-1710. 被引量：5

北京邮电大学学报

2006年第2期

浏览历史

内容加载中请稍等...

运用语义集索引法实现英文文本分类被引量：2

参考文献6

二级参考文献22

共引文献307

同被引文献13

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

运用语义集索引法实现英文文本分类 被引量：2

参考文献6

二级参考文献22

共引文献307

同被引文献13

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

运用语义集索引法实现英文文本分类被引量：2