一种基于本体论的文本特征选取方法被引量：1

A Ontology-based Document Feature Extraction

下载PDF

导出

摘要针对文本特征向量高维数的问题,给出了一种基于本体论的文本特征选取方法。通过由专业领域本体所建立的概念树,把文本的特征项映射到概念,同时进行特征项频度到概念频度的转换,使得选取得到的特征概念能够很好表征文本的内容。实验结果表明,与未进行特征概念选取相比,采用此方法选取得到的特征概念能够在尽可能减少对文本分类精度的影响下,达到降低特征维数的目的。 To effectively reduce the dimension of document vectors, we introduce a novel method employing domain ontology to extract feature concept. For all document categories, all raw words in each category are mapped to concepts in their relative concept tree derived from the domain ontology. At the same time the frequency of raw words is trans-formed into the frequency of concepts. Experimental results show that this method can effectively reduce the dimension of document vectors without loss of categorization accuracy, compared with traditional document vectors.

作者林东文白清源谢丽聪谢伙生张莹

机构地区福州大学数学与计算机科学学院

出处《计算机科学》 CSCD 北大核心 2008年第3期152-154,共3页 Computer Science

基金福州大学科技发展基金(2005-XQ-13 2006-XQ-22 XRC-0511) 福建省教育厅(JB06023)资助

关键词本体文本特征文本分类特征选取 Domain ontology, Document feature, Text classification, Feature selection

分类号 TP18 [自动化与计算机技术—控制理论与控制工程] I206.7 [文学—中国文学]

引文网络
相关文献

参考文献6

1Fox C. Lexical Analysis and Stoplists. In Information Retrieval: Data Structure & Algorithms. In: Frakes W B, Baeze-Yates R, eds. P T R Prentice Hall, 1992. 102-130
2Frakes W B. Stemming Algorithms. In Information Retrieval:Data Structure & Algorithms. In:Frakes W B, Baeza-Yates R, eds, T P R Prentice Hall, 1992. 131-160
3Hotho A,Staab S, Maedche A. Ontology-based Text Clustering. IJCAI'01-Workshop Text Learning,, Beyond Supervision. Seattle, USA, 2001
4Bill b, McKay R, Abbass H A, Michael B. A Comparative Study for Domain Ontology Guided Feature Extraction. In: Proc. of The Twenty- Fifth Australian Computer Science Conference. Conferences in Research and Practice in Information Technology, 2003,16
5Hotho A,Staab S,Stumme G. Wordnet improves Text Document Clustering In:Proc. of the SIGIR 2003 Semantic Web Workshop, 2003
6Zhang Kai,Sun Jian, Wang Bin. A Wordnet-based Approach to Feature Selection in Text Categorization Intelligent information processing II table of contents, 2004

同被引文献9

1唐晓文.基于本体论的文本特征提取[J].电脑与信息技术,2005,13(1):36-38. 被引量：11
2罗欣,夏德麟,晏蒲柳.基于词频差异的特征选取及改进的TF-IDF公式[J].计算机应用,2005,25(9):2031-2033. 被引量：55
3伍建军,康耀红.文本分类中特征选择方法的比较和改进[J].郑州大学学报（理学版）,2007,39(2):110-113. 被引量：16
4STUDER R,BENJAMINS V R,FENSEI. D. Knowledge engineering:principles and methods[J].Data and Knowledge Engineering, 1998,25 (1/2) : 161-197.
5XU Jian-min,TIAN Jin-kun,ZHANG Yan-chun,et al. Using ontology evidences to extend belief network IR model [C]//2010 International Conference on Computer Application and System Modeling (ICCASM). Washington DC: IEEE Computer Society, 2010.31-35.
6吕震宇,林永民,赵爽,朱卫东.基于同义词词林的文本特征选择与加权研究[J].情报杂志,2008,27(5):130-132. 被引量：9
7呼声波,刘希玉.网页分类中特征提取方法的比较与改进[J].山东师范大学学报（自然科学版）,2008,23(3):35-37. 被引量：6
8肖宝,施雅贤,蒋运承.基于语义的旅游信息搜索引擎[J].广西师范大学学报（自然科学版）,2009,27(3):138-141. 被引量：3
9徐建民,刘清江,付婷婷,戴旭.基于量化同义词关系的改进特征词提取方法[J].河北大学学报（自然科学版）,2010,30(1):97-101. 被引量：5

引证文献1

1陈振亚,陈光辉,徐建民.一种基于本体的文本特征选取方法[J].广西师范大学学报（自然科学版）,2011,29(1):143-146. 被引量：2

二级引证文献2

1杨现民,余胜泉.学习资源语义特征自动提取研究[J].中国电化教育,2013(11):74-80. 被引量：9
2王石榴,林之丹.科技期刊语义化研究[J].广东科技,2014,23(8):216-218.

1张嘉一,郭振龙.浅析云环境下对数据安全的保护[J].数字化用户,2013(7):51-51.
2李健,唐忠民,王凯,王列.基于特征的产品装配建模系统[J].制造业自动化,2000,22(12):70-72. 被引量：4
3熊挺.基于小波包与神经网络的EPS转矩传感器故障诊断[J].电子技术与软件工程,2014(3):144-144.
4曾朝晖,邓曙光,陆文彦.基于特征概念自动提取系统的研究[J].湖南城市学院学报（自然科学版）,2006,15(1):69-71.
5朱文,侯北平.小波包与神经网络在电机故障诊断中的应用研究[J].电气自动化,2006,28(1):10-11. 被引量：6
6余正涛,宋丽哲,樊孝忠.基于本体的个性化领域信息服务[J].计算机工程,2005,31(5):22-24. 被引量：17
7佟昭,张志利,李向阳,梁丰.虚拟维修的交互特征建模研究[J].信息与电脑（理论版）,2015(18):87-89.
8刘帅,凌剑勇,吴元昊,王斌,李正炜,杨永健.基于条件随机场的产品特征提取方法[J].电脑知识与技术,2016,12(1X):187-190. 被引量：1
9卢致杰.引入行为特征概念的海量图像数据分类法研究[J].计算机仿真,2014,31(6):381-384. 被引量：3
10孙守迁,包恩伟,潘云鹤.面向产品布局设计的组件特征模型[J].计算机辅助设计与图形学学报,1999,11(1):28-32. 被引量：30

计算机科学

2008年第3期

浏览历史

内容加载中请稍等...

一种基于本体论的文本特征选取方法被引量：1

参考文献6

同被引文献9

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

一种基于本体论的文本特征选取方法 被引量：1

参考文献6

同被引文献9

引证文献1

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

一种基于本体论的文本特征选取方法被引量：1