高维特征空间中文本聚类研究被引量：17

Text Clustering in High-dimension Feature Space

下载PDF

导出

摘要依据信息论的思想,从文档信息量变化的角度对文本聚类的过程进行了分析,指出了信息量在聚类过程中呈现的规律性,进而提出一种基于信息量模型的聚类分析算法。通过对高维特征空间中影响聚类准确率因素的分析,发现特征之间复杂的语义联系和过高的维度是影响文本聚类准确率的重要因素。从削弱特征之间的语义联系入手,提出了一种特征聚类算法,其算法复杂度与处理的文档数量无关,提高了高维空间下聚类的速度和效果。两种算法的结合使得对大量高维文本数据直接聚类变得可行,实际的测试中获得了满意的效果。 The authors study the latent relations between the documents information quantity and the different classifi-cations of them.The authors introduce a documents information quantity based hierarchical clustering algorithm.An effec-tive feature clustering algorithm is presented at the last part of the paper.The algorithm is suitable for processing vast data,for its time complexity is independent of the entries of documents.With the combination of the algorithms ,the au-thors process large set of dada successfully.

作者姜宁宫秀军史忠植

机构地区中国科技大学研究生院计算机学部中国科学院计算技术研究所

出处《计算机工程与应用》 CSCD 北大核心 2002年第10期63-67,共5页 Computer Engineering and Applications

基金国家自然科学基金资助项目:学习计算理论及其在知识发现中的应用(编号:60073019)

关键词高维特征空间文本聚类信息量平均准确率数据挖掘数据库 Text Clustering,Information Quantity,Feature Clustering,Average Accuracy

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献1

1王继成,潘金贵,张福炎.Web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513-520. 被引量：275

二级参考文献4

1Zalane O R，Proc of 1998ACM-SIGMOD Conf onManagement of Data.Seattle，1998年，581页
2Wang Ke，Newport Beach，1997年
3Salton G，Commun ACM，1975年，18卷，5期，613页
4邹涛,王继成,张福炎.基于WWW的资料搜集系统的设计与实现[J].情报学报,1999,18(3):195-201. 被引量：32

共引文献274

1兰晓芳,刘霞,肖毅.基于Django的校友在线平台的设计与实现[J].办公自动化,2021,26(18):17-18. 被引量：3
2王志明,沙莎.Web文本挖掘技术在新闻主题检测中的应用研究[J].长沙大学学报,2007,21(5):58-60. 被引量：2
3张脂平,林世平.Web文本挖掘中特征提取算法的分析及改进[J].福州大学学报（自然科学版）,2004,32(z1):63-66. 被引量：1
4杨斌,孟志青.一种文本分类数据挖掘的技术[J].湘潭大学自然科学学报,2001,23(4):34-37. 被引量：10
5李爱国,白冰.基于内容图像检索的Web搜索器[J].郑州大学学报（理学版）,2009,41(2):60-62. 被引量：1
6周云真,舒建文,王平根.数据挖掘在基于WEB的智能远程教育中的应用[J].文教资料,2006(27):154-155. 被引量：1
7郑泠.Web数据挖掘技术应用[J].科技经济市场,2006(12):302-303.
8姚轶.浅谈网络文本挖掘分类[J].科技风,2009(3). 被引量：1
9周涛,李军,陆惠玲.WEB数据挖掘技术研究[J].汉中师范学院学报,2004,22(3):86-90. 被引量：1
10刘春梅.通用Web日志挖掘系统(CWLMS)设计实现[J].防灾技术高等专科学校学报,2004,6(2):48-52. 被引量：1

同被引文献100

1戚涌,徐永红,刘凤玉.基于潜在语义标引的WEB文档自动分类[J].计算机工程与应用,2004,40(22):28-31. 被引量：9
2刘小芳,曾黄麟,吕炳朝.点密度函数加权模糊C-均值算法的聚类分析[J].计算机工程与应用,2004,40(24):64-65. 被引量：28
3陈伟雄,马少平,步建华.基于元搜索引擎的多关键词检索技术[J].计算机工程与应用,2004,40(24):83-87. 被引量：12
4林春燕,朱东华.科学文献的模糊聚类算法[J].计算机应用,2004,24(11):66-67. 被引量：9
5胡清华,谢宗霞,于达仁.基于粗糙集加权的文本分类方法研究[J].情报学报,2005,24(1):59-63. 被引量：11
6王昊.基于关联规则挖掘研究学科间相关性[J].现代图书情报技术,2005(3):23-28. 被引量：12
7刘涛,吴功宜,陈正.一种高效的用于文本聚类的无监督特征选择算法[J].计算机研究与发展,2005,42(3):381-386. 被引量：37
8龙银香.基于移动计算的数据挖掘研究[J].微计算机信息,2005,21(4):216-217. 被引量：12
9夏咏梅.基于文本挖掘的分类与聚类技术[J].情报探索,2005(3):65-67. 被引量：9
10尉景辉,何丕廉,孙越恒.基于K-Means的文本层次聚类算法研究[J].计算机应用,2005,25(10):2323-2324. 被引量：18

引证文献17

1龚静,李英杰.文本聚类算法的分析与比较[J].湖南环境生物职业技术学院学报,2006,12(3):283-286. 被引量：2
2孟海涛.基于模糊聚类的学术期刊数据挖掘算法[J].盐城工学院学报（自然科学版）,2006,19(4):68-70. 被引量：2
3郑煜,钱榕.Web文本聚类算法WTCA的研究与实现[J].计算机工程与应用,2007,43(4):170-172. 被引量：1
4孟海涛,陈笑蓉.基于模糊相似度的科技文献软聚类算法[J].贵州大学学报（自然科学版）,2007,24(2):175-178. 被引量：9
5李信利,吕月娥.基于概念的论文相似性检索[J].计算机工程与应用,2007,43(21):177-179. 被引量：5
6李信利,聂志强,吕月娥.基于层次聚类的论文相似性检索[J].微计算机信息,2007,23(21):246-248.
7胡健,杨炳儒,宋泽锋,钱榕.基于非结构化数据挖掘结构模型的Web文本聚类算法[J].北京科技大学学报,2008,30(2):217-220. 被引量：5
8周璨,刘琦婧,彭靖佳,韦俞军.基于聚类模型的论文分类检索系统的设计与实现[J].福建电脑,2008,24(6):17-18.
9吕月娥.中文科技期刊数据库文献分类与检索[J].临沂师范学院学报,2008,30(6):104-107.
10姜伦,丁华福.关于模糊C-均值(FCM)聚类算法的改进[J].计算机与数字工程,2010,38(2):4-6. 被引量：12

二级引证文献68

1熊回香,陈子薇,叶佳鑫.基于共现关系的关键词层次结构构建研究[J].知识管理论坛,2022(4):443-451. 被引量：1
2龚静,曾莉.用于文本分类的特征选择方法[J].湖南环境生物职业技术学院学报,2008,14(3):24-26. 被引量：2
3郭建永,蔡勇,甄艳霞.新相似性度量在文档模糊聚类中的应用研究[J].计算机工程与应用,2009,45(13):160-162. 被引量：1
4魏建香,苏新宁.基于关键词和摘要相关度的文献聚类研究[J].情报学报,2009,28(2):220-224. 被引量：4
5谢毓湘,栾悉道,吴玲达,谭洁,陈丹雯.基于概念的多媒体数据语义检索模型[J].计算机应用研究,2009,26(8):2945-2947.
6俞辉.基于LSA和pLSA的多文档自动文摘[J].计算机工程与科学,2009,31(9):108-111. 被引量：6
7唐俊.SSC软聚类算法在面向查询的多文档文摘中的应用[J].计算机工程与科学,2010,32(6):112-114.
8魏建香,孙越泓,苏新宁.基于聚类分析的学科交叉研究[J].情报学报,2010,29(6):1066-1073. 被引量：24
9赵小强,张守明.基于Boltzmann选择的人工蜂群KFCM算法[J].兰州理工大学学报,2011,37(1):71-75. 被引量：3
10范会联,仲元昌,胡江坤,贾年龙.带信息熵反馈机制的免疫克隆文本聚类算法[J].郑州大学学报（理学版）,2011,43(1):46-49. 被引量：1

1谢坤武.文本挖掘中的层次聚类算法[J].湖北民族学院学报（自然科学版）,2009,27(4):415-419. 被引量：1
2印国成.一种基于信息量模型的文本挖掘改进算法[J].微计算机信息,2009,25(36):203-204.
3李海芳,温侠,门立环.基于蚁群的图像情感特征聚类算法的研究[J].计算机应用,2009,29(2):360-363.
4于水英,丁华福,付志超.基于遗传算法和模糊聚类的文本分类研究[J].计算机技术与发展,2009,19(4):131-133. 被引量：6
5孙胜,曹绍君.对增量式模糊聚类算法的改进[J].黄石理工学院学报,2006,22(4):37-39.
6曹付元,牛文婷.一种基于词袋模型的块数据聚类算法[J].山西大学学报（自然科学版）,2016,39(2):216-222.
7范小春.关于信息检索中应用模糊聚类分析的若干问题[J].科学技术与工程,2010,10(11):2772-2776. 被引量：1
8胡红一,陈南岳,吴双全.校园网建设的技术经验[J].网管员世界,2003(11):41-42.
9刘盛辉,王伟,彭进业.不同Vague集相似度量直接聚类算法比较[J].中国科技论文,2013,8(1):41-45. 被引量：3
10刘建明,史一民,张俊,陈存衡.一种RDF图的语义相似性度量方法[J].计算机工程,2013,39(3):223-228. 被引量：3

计算机工程与应用

2002年第10期

浏览历史

内容加载中请稍等...

高维特征空间中文本聚类研究被引量：17

参考文献1

二级参考文献4

共引文献274

同被引文献100

引证文献17

二级引证文献68

相关作者

相关机构

相关主题

浏览历史

高维特征空间中文本聚类研究 被引量：17

参考文献1

二级参考文献4

共引文献274

同被引文献100

引证文献17

二级引证文献68

相关作者

相关机构

相关主题

浏览历史

高维特征空间中文本聚类研究被引量：17