期刊文献⁺

任意字段

题名或关键词

题名

关键词

文摘

作者

第一作者

机构

刊名

分类号

参考文献

作者简介

基金资助

栏目信息

Using ontology semantics to improve text documents clustering 被引量：8

使用本体语义提高文本聚类(英文)

下载PDF

导出

摘要 In order to improve the clustering results and select in the results, the ontology semantic is combined with document clustering. A new document clustering algorithm based WordNet in the phrase of document processing is proposed. First, every word vector by new entities is extended after the documents are represented by tf-idf. Then the feature extracting algorithm is applied for the documents. Finally, the algorithm of ontology aggregation clustering （OAC） is proposed to improve the result of document clustering. Experiments are based on the data set of Reuters 20 News Group, and experimental results are compared with the results obtained by mutual information（MI）. The conclusion draws that the proposed algorithm of document clustering based on ontology is better than the other existed clustering algorithms such as MNB, CLUTO, co-clustering, etc. 为了提高聚类结果和允许在结果中进行选择,将本体语义与文档聚类相结合,在文档处理过程中提出了基于WordNet的新的文档聚类算法.首先通过tf-idf对文档进行了表示,为了将WordNet的概念出现在文档集合中,通过新的实体对每一个单词向量进行扩展.其次,运用特征提取算法对文档进行特征提取.最后提出了本体集合聚类算法用以提高文本的聚类效果.实验构建在Reuters20新闻组的数据基础上,应用互信息作为试验结果的比较.结果表明:与已经存在的一些算法如MNB,CLU-TO,co-clustering等相比,基于本体的聚类算法在文本聚类上有很明显的提高.

作者罗娜左万利袁福宇张靖波张慧杰

机构地区吉林大学计算机科学与技术学院东北师范大学计算机学院

出处《Journal of Southeast University(English Edition)》 EI CAS 2006年第3期370-374,共5页 东南大学学报（英文版）

基金 The National Natural Science Foundation of China(No.60373099),the Natural Science Foundation for Young Scholars of Northeast Normal University (No.20061005)

关键词 ONTOLOGY text clustering LEXICON WORDNET 本体文本聚类词典 WordNet

分类号 TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献1

1Peter Brusilovsky. Methods and techniques of adaptive hypermedia[J] 1996,User Modeling and User - Adapted Interaction(2-3):87～129

同被引文献148

1尉景辉,何丕廉,孙越恒.基于K-Means的文本层次聚类算法研究[J].计算机应用,2005,25(10):2323-2324. 被引量：18
2黄希全.数字图书馆推荐系统中用户偏好的建模方法[J].情报杂志,2006,25(1):28-30. 被引量：14
3黄建鹏,陆立强.一种新的相似度标准及其相关的聚类算法[J].复旦学报（自然科学版）,2006,45(2):177-184. 被引量：4
4史庆伟,赵政,朝柯.一种基于后缀树的中文网页层次聚类方法[J].辽宁工程技术大学学报（自然科学版）,2006,25(6):890-892. 被引量：11
5赵世奇,刘挺,李生.一种基于主题的文本聚类方法[J].中文信息学报,2007,21(2):58-62. 被引量：23
6赵鹏,耿焕同,蔡庆生.一种基于语义和统计特征的中文文本特征表示方法[J].小型微型计算机系统,2007,28(7):1311-1313. 被引量：8
7何婷婷,戴文华,焦翠珍.基于混合并行遗传算法的文本聚类研究[J].中文信息学报,2007,21(4):55-60. 被引量：11
8彭京,杨冬青,唐世渭,付艳,蒋汉奎.一种基于语义内积空间模型的文本聚类算法[J].计算机学报,2007,30(8):1354-1363. 被引量：44
9SOMAN K P.数据挖掘基础教程[M].范明,牛常勇,译.北京:机械工业出版社,2009.
10Salton G,Wong A,Yang C S.A Vector Space Model for Auto matic Indexing[J].Communication of the ACM,1975,18(11):613-620.

引证文献8

1戴维迪,王文俊,侯越先,王英,张璐.Document Clustering Based on Constructing Density Tree[J].Transactions of Tianjin University,2008,14(1):21-26.
2吴夙慧,成颖,郑彦宁,潘云涛.文本聚类中文本表示和相似度计算研究综述[J].情报科学,2012,30(4):622-627. 被引量：23
3洪韵佳,许鑫.基于领域本体的知识库多层次文本聚类研究——以中华烹饪文化知识库为例[J].现代图书情报技术,2013(12):19-26. 被引量：9
4王贤明,谷琼,胡智文.基于R-Grams的文本聚类方法[J].计算机应用,2015,35(11):3130-3134. 被引量：1
5曹晓.文本聚类研究综述[J].情报探索,2016(1):131-134. 被引量：16
6李金海,何有世,马云蕾,李治文.基于在线评论信息挖掘的动态用户偏好模型构建[J].情报杂志,2016,35(9):192-198. 被引量：13
7李金海,何有世,马云蕾.基于领域本体的在线评论信息层次化挖掘[J].系统工程,2016,34(10):39-47. 被引量：3
8杨秀璋,夏换,于小民,武帅,赵紫如,窦悦琪.基于特征词典构建和BIRCH算法的中文百科文本聚类研究[J].计算机时代,2019,0(11):23-27. 被引量：4

二级引证文献66

1彭佳丽,闫凯丽,宗思雨,谢俐萨.数据驱动下面向产品设计的需求识别研究[J].科技经济导刊,2019(35):3-4. 被引量：1
2许鑫,郭金龙.基于领域本体的专题库构建——以中华烹饪文化知识库为例[J].现代图书情报技术,2013(12):2-9. 被引量：18
3郭金龙,洪韵佳,许鑫.中华烹饪文化领域本体构建及其应用[J].现代图书情报技术,2013(12):10-18. 被引量：7
4金碧漪,郭金龙,许鑫.利用领域本体优化文档检索的研究——基于KIM平台的设计与实现[J].现代图书情报技术,2013(12):27-33. 被引量：3
5崔君君,于林森,李鹏.协同视觉信息与标注信息图像聚类[J].哈尔滨理工大学学报,2014,19(2):57-62. 被引量：3
6胡朝清.K-means算法研究[J].长春工业大学学报,2014,35(2):139-142. 被引量：4
7武森,冯小东,杨杰,张晓楠.基于MapReduce的大规模文本聚类并行化[J].北京科技大学学报,2014,36(10):1411-1419. 被引量：9
8许鑫,洪韵佳.专题知识库中文本聚类结果的可视化研究——以中华烹饪文化知识库为例[J].现代图书情报技术,2014(10):25-32. 被引量：3
9顾晓雪,章成志.结合内容和标签的Web文本聚类研究[J].现代图书情报技术,2014(11):45-52. 被引量：8
10王方,成颖,柯青.基于混合模型的文本聚类研究综述[J].情报学报,2015,34(5):536-548.

1原福永,杨治秋,王海霞.一种基于向量空间模型的文档聚类算法研究[J].信号处理,2005,21(z1):606-608.
2赵卫中,马慧芳,李志清,史忠植.一种结合主动学习的半监督文档聚类算法[J].软件学报,2012,23(6):1486-1499. 被引量：30
3杨占华,杨燕.一种基于SOM和K-means的文档聚类算法[J].计算机应用研究,2006,23(5):73-74. 被引量：16
4刘爱军.基于Packet Tracer的计算机网络综合实验构建[J].价值工程,2012,31(20):209-210. 被引量：1
5林庆,袁晓峰,吴旻.中文Web文档聚类算法研究[J].计算机工程与设计,2009,30(20):4759-4761. 被引量：3
6徐凯,周先琳.用户评论中的产品特征抽取方法研究[J].鄂州大学学报,2015,22(6):107-109.
7苑兆忠,姜华.Web挖掘技术在信息检索中的应用研究[J].聊城大学学报（自然科学版）,2006,19(1):74-77. 被引量：4
8魏建香,刘怀,苏新宁.基于遗传算法的文档聚类算法的设计与仿真(英文)[J].南京大学学报（自然科学版）,2009,45(3):432-438. 被引量：4
9蔡龙飞.无线网络传感器应用分析综述[J].科技资讯,2006,4(19):88-89.
10陈曦,徐家宁,杨建雄.基于免疫网络的k-means文档聚类算法研究[J].计算机工程与设计,2008,29(10):2629-2631.

Journal of Southeast University(English Edition)

2006年第3期

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...

;

使用帮助返回顶部