一种基于本体的文本聚类方法被引量：12

A Novel Text Clustering Method Based on Ontology

下载PDF

导出

摘要基于本体的文本聚类方法,在文本表示上引入WordNet,并定义了关键概念集,使用WordNet中的概念节点及概念间的语义关系减少文本特征向量维数,提高聚类效果.聚类过程中,算法使用文本的关键概念集和概念特征向量计算文本相似度,利用文本的关键概念集标注聚簇为聚类结果中的各个簇提供解释.实验结果表明,该方法有效地减少了文本特征向量的维数,提高了文本聚类效果以及聚类结果的可解释性. The text clustering method based on ontology applies WordNet and key concept set during text reprensentation, and the concept nodes and the semantic relations between the concepts in the ontology WordNet are used to reduce the number of features so as to improve clustering effect. And during text clustering, the algorithm uses the key concept set and the concept feature vector to calculate the similarity and uses key concept set to provide an explanation for every cluster of the result. The experimental results show that the method can effectively reduce the dimension number of the text feature vector and improve the text clustering effect compared with other text clustering algorithm and the novel method for text clustering can come up with a good explanation for the clusters.

作者朱会峰左万利赫枫龄彭涛纪文彦

机构地区吉林大学计算机科学与技术学院吉林大学符号计算与知识工程教育部重点实验室

出处《吉林大学学报（理学版）》 CAS CSCD 北大核心 2010年第2期277-283,共7页 Journal of Jilin University:Science Edition

基金国家自然科学基金(批准号:60973040 60903098) 教育部高等学校博士学科点专项科研基金(批准号:200801830021) 吉林省自然科学基金(批准号:20070533) 吉林大学基本科研业务费交叉学科与创新项目基金(批准号:200810025)

关键词本体 WORDNET 关键概念集概念特征向量 ontology WordNet key concept set concept feature vector

分类号 TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献15

1张长胜,孙吉贵,崔妍,杨凤芹.一种基于PSO的分割聚类算法[J].吉林大学学报（工学版）,2008,38(6):1371-1377. 被引量：5
2Beyer K, Goldstein J, Ramakrishnan R, et al. When Is "Nearest Neighbor" Meaningful [ C ]//Proceedings of the 7th International Conference on Database Theory. London: Springer-Verlag, 1999: 217-235.
3Fellbaum C. WordNet: an Electronic Lexical Database [ M]. Cambridge: the MIT Press, 1998.
4陆玉昌,鲁明羽,李凡,周立柱.向量空间法中单词权重函数的分析和构造[J].计算机研究与发展,2002,39(10):1205-1210. 被引量：126
5Budanitsky A, Hitst G. Semantic Distance in WordNet: .an Experimental, Application-Oriented Evaluation of Five Measures [ C ]. Proceedings of the NAACL 2001 Workshop on WordNet and Other Iexical Resources. Pittsburgh: Carnegie Mellon University Press, 2001 : 29-34.
6HAN Jia-wei,KAMBER M.数据挖掘:概念与技术[M].北京:机械工业出版社,2007.
7Krishnamurthy B. On Stationary in Internet Measurements through an Information-Theoretic Lens [ C ]//Proceedings of the 1 st IEEE International Workshop on Networking Meets Databases( NetDB' 05). Tokyo : [ s. n. ], 2005.
8Dhillon I S, Modha D S. Concept Decompositions for Large Sparse Text Data Using Clustering [ J]. Machine Learning, 2001,42(12): 143-175.
9Strehl A, Ghosh J. Cluster Ensembles : a Knowledge Reuse Framework for Combining Multiple Partitions [ J ].Journal of Machine Learning Research, 2002, 3: 583-617.
10CSAIL. 20 Newsgroups [ DB/OL]. 2008-01-14. http ://People. csail, mit. edu/jrennie/20Newsgroups/.

二级参考文献17

1龙海侠,须文波,孙俊.基于QPSO的数据聚类[J].计算机应用研究,2006,23(12):40-42. 被引量：14
2Pal S K,Mitra P.Pattern Recognition Algorithms for Data mining:Scalability,Knowledge Discovery and Soft Granular Computing,Chapman and Hall[M].Boca Raton,FL:CRC Press,2004.
3Chiang Jung-Hsien,Hao Pei-Yi.A new kernelbased fuzzy clustering approach:support vector clustering with cell growing[J].IEEE Trans Fuzzy Systems,2003,11(4):518-527.
4Ben-Hur A,Horn D,Siegelmann H T,et al.Support vector clustering[J].J Mach Learn Res,2001,2(2):125-137.
5Lee Sei-Hyung,Daniels Karen.Gaussian kernel width exploration in support vector cluslering[R].University of Massachusetts Lowell,2004.
6Pawlak Z.Rough sets[J].Int J of Computer and Information Sciences,1982,11(5):341-356
7Fletcher R.Practical Methods of Optimization(2nd ed)[M].New York:Wiley-Interscience,2000.
8Kanungo T, Mount D M, Netanyahu N, et al. An efficient K-means clustering algorithm: Analysis and implementation[J]. IEEE Trans Pattern Analysis and Machine Intelligence, 2002, 24 (7) :881-892.
9Kim Kyoung-jae, Ahn Hyunchul. A recommender system using GA K-means clustering in an online shopping market[J] Expert Systems with Applications, 2007, 33(2):317-332.
10Kennedy J, Ebcrhart R C. Particle swarm optimization[C] // Proceedings of the IEEE International Joint Conference on Neural Networks, IEEE Press, 1995, 1942-1948.

共引文献140

1陈丹雯,徐建军,谢毓湘,吴玲达.虚拟新闻自动生成系统的设计与实现[J].系统仿真学报,2006,18(z1):157-160.
2赵燕平,李超.网络安全信息挖掘中的特征选择与专利分析研究[J].中国管理科学,2004,12(z1):514-518. 被引量：3
3徐燕,李锦涛,王斌,孙春明,张森.不均衡数据集上文本分类的特征选择研究[J].计算机研究与发展,2007,44(z2):58-62. 被引量：20
4姜澜,李秀坤,单丽莉.一种新的词语权重计算方法[J].哈尔滨工业大学学报,2011,43(S1):315-318. 被引量：1
5李长虹,李堂秋.一种改进的特征选择方法在文本分类系统中的应用[J].学术问题研究,2005,0(1):94-98.
6施洁斌.基于支持向量机的文本自动分类试验研究[J].现代图书情报技术,2004(7):27-29.
7李国臣,段建勇.基于语法语义信息量化模型的语素字再分类[J].计算机工程,2004,30(11):37-39.
8鲁明羽,张红,付克明,陆玉昌.Web ME——一个大型网络挖掘环境系统[J].哈尔滨工业大学学报,2004,36(9):1164-1167. 被引量：1
9王大亮,孙建涛,陆玉昌,夏克俭.一种面向自动文本摘要特征评价的新方法[J].计算机工程与应用,2004,40(33):176-178.
10刘志为,何丕廉,孙越恒,郑小慎.N层向量空间模型在Web信息检索中的应用[J].微型机与应用,2004,23(12):60-62. 被引量：5

同被引文献154

1朱礼军,陶兰,刘慧.领域本体中的概念相似度计算[J].华南理工大学学报（自然科学版）,2004,32(z1):147-150. 被引量：48
2吴光远,何丕廉,曹桂宏,聂颂.基于向量空间模型的词共现研究及其在文本分类中的应用[J].计算机应用,2003,23(z1):138-140. 被引量：23
3李荣,杨冬,刘磊.基于本体的概念相似度计算方法研究[J].计算机研究与发展,2011,48(S3):312-317. 被引量：12
4许云,樊孝忠,张锋.基于知网的语义相关度计算[J].北京理工大学学报,2005,25(5):411-414. 被引量：53
5尉景辉,何丕廉,孙越恒.基于K-Means的文本层次聚类算法研究[J].计算机应用,2005,25(10):2323-2324. 被引量：18
6赵军,金千里,徐波.面向文本检索的语义计算[J].计算机学报,2005,28(12):2068-2078. 被引量：28
7张选平,蒋宇,袁明轩,马琮,梁平.一种基于概念的信息检索查询扩展[J].微电子学与计算机,2006,23(4):110-114. 被引量：13
8黄建鹏,陆立强.一种新的相似度标准及其相关的聚类算法[J].复旦学报（自然科学版）,2006,45(2):177-184. 被引量：4
9魏定国,彭宏.基于知识网格的数据挖掘[J].计算机科学,2006,33(6):210-213. 被引量：9
10罗娜,左万利,袁福宇,张靖波,张慧杰.Using ontology semantics to improve text documents clustering[J].Journal of Southeast University(English Edition),2006,22(3):370-374. 被引量：8

引证文献12

1张东娜,周春光,刘彦斌,郭东伟.一种基于WordNet和Corpus Statistics的语义相似性计算方法[J].吉林大学学报（理学版）,2010,48(5):811-816. 被引量：6
2李广明.基于本体的知识资源模糊聚类分析[J].计算机应用研究,2011,28(2):584-586. 被引量：1
3白秋产,金春霞,周海岩.概念向量文本聚类算法[J].计算机工程与应用,2011,47(35):155-157. 被引量：11
4吴夙慧,成颖,郑彦宁,潘云涛.文本聚类中文本表示和相似度计算研究综述[J].情报科学,2012,30(4):622-627. 被引量：23
5郝文宁,冯波,陈刚,靳大尉,赵水宁.基于领域本体的文档向量空间模型构建[J].计算机应用研究,2013,30(3):764-767. 被引量：8
6洪韵佳,许鑫.基于领域本体的知识库多层次文本聚类研究——以中华烹饪文化知识库为例[J].现代图书情报技术,2013(12):19-26. 被引量：9
7唐守忠,齐建东.一种结合关键词与共现词对的向量空间模型[J].计算机工程与科学,2014,36(5):971-976. 被引量：4
8兰富菊,赵志弘,韩永国.基于领域本体的主观题自动评阅算法的研究[J].计算机技术与发展,2014,24(6):166-169.
9侯超昆,李石君.基于领域本体的网页主题相关度计算[J].计算机工程与设计,2014,35(12):4344-4349. 被引量：3
10骆天,柳琼俊,陈建江,于红艳,徐彦龙.基于本体与VSM的导弹产品研发知识分类方法研究[J].战术导弹技术,2015(1):89-94.

二级引证文献65

1翟延冬,王康平,张东娜,黄岚,周春光.一种基于WordNet的短文本语义相似性算法[J].电子学报,2012,40(3):617-620. 被引量：34
2阎红灿,王坚,刘保相.基于P-集合的本体形式背景抽取[J].计算机应用研究,2012,29(6):2196-2199. 被引量：9
3叶飞.基于文本语义联系的特征选取算法研究[J].赤峰学院学报（自然科学版）,2012,28(12):35-37.
4马甲林,刘金岭,金春霞.基于概念簇的文本分类算法[J].图书情报工作,2013,57(15):132-136. 被引量：2
5邓盼盼,常春.基于精确匹配的概念映射关系规则研究[J].图书情报工作,2013,57(16):25-29. 被引量：9
6肖志军,冯广丽.基于《知网》义原空间的文本相似度计算[J].科学技术与工程,2013,21(29):8651-8656. 被引量：9
7许鑫,郭金龙.基于领域本体的专题库构建——以中华烹饪文化知识库为例[J].现代图书情报技术,2013(12):2-9. 被引量：18
8郭金龙,洪韵佳,许鑫.中华烹饪文化领域本体构建及其应用[J].现代图书情报技术,2013(12):10-18. 被引量：7
9金碧漪,郭金龙,许鑫.利用领域本体优化文档检索的研究——基于KIM平台的设计与实现[J].现代图书情报技术,2013(12):27-33. 被引量：3
10叶宇飞,安世全,代劲.一种新的Web中文文本聚类方法研究[J].计算机应用与软件,2013,30(12):222-225. 被引量：3

1何丽,刘军.CFV-NB:基于概念特征向量的NB文档分类模型[J].计算机工程,2006,32(20):4-6.

吉林大学学报（理学版）

2010年第2期

浏览历史

内容加载中请稍等...

一种基于本体的文本聚类方法被引量：12

参考文献15

二级参考文献17

共引文献140

同被引文献154

引证文献12

二级引证文献65

相关作者

相关机构

相关主题

浏览历史

一种基于本体的文本聚类方法 被引量：12

参考文献15

二级参考文献17

共引文献140

同被引文献154

引证文献12

二级引证文献65

相关作者

相关机构

相关主题

浏览历史

一种基于本体的文本聚类方法被引量：12