Web文本聚类算法WTCA的研究与实现被引量：1

Research and implementation of Web text clustering algorithm WTCA

下载PDF

导出

摘要提出了一种新的Web文本聚类算法WTCA——基于自组织特征映射神经网络(SOM)的聚类算法。该算法分为训练SOM网络及聚类分析两个阶段,具有自稳定性,无须外界给出评价函数;能够识别概念空间中最有意义的特征,抗噪音能力强。该算法应用到现代远程教育网,可以对各类远程教育站点上收集的文本资料信息自动进行聚类分析;从海量Web文本信息源中快速有效地获取重要的知识。 In this paper,we present a new algorithm of Web text clustering mining WTCA.This algorithm includes the training stage and the clustering stage of SOM network.It can distinguish the most meaningful features from the Concept Space without the evaluation function.The algorithm has been applied to the Modern Long-distance Education Net.It can automatically congregate the text information of education field,which is collected from education sites and help people to browse the important information quickly by information navigation mechanism and acquire useful knowledge.

作者郑煜钱榕

机构地区东北林业大学理学院数学系北京科技大学信息工程学院

出处《计算机工程与应用》 CSCD 北大核心 2007年第4期170-172,共3页 Computer Engineering and Applications

基金北京市自然科学基金(the Natural Science Foundation of Beijing City of China under Grant No.4022008)。

关键词 WEB文本挖掘文本聚类非结构化数据挖掘结构模型自组织特征映射 Web text mining text clustering nonstruetural data mining Self-Organization Feature Mapping（SOM）

分类号 TP18 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献11

1王继成,潘金贵,张福炎.Web文本挖掘技术研究[J].计算机研究与发展,2000,37(5):513-520. 被引量：275
2韩客松,王永成.文本挖掘、数据挖掘和知识管理——二十一世纪的智能信息处理[J].情报学报,2001,20(1):100-104. 被引量：63
3Feldman R,Dagan I.Knowledge discovery in textual databases(KDT)[C]//proceedings of the first International Conference on knowledge Discovery and Data Mining (KDD-95),Montreal,Canada,August 20-21.AAAI Press,1995:112-117.
4Hodge,Victoria J,Jim A.Hierarchical word clustering-automatic thesaurus generation[J].Neuro Computing,2002,48 (1):819-846.
5Dmitri R,Leon Z J.Automatic discovery of similarity relationships through Web mining[J].Decision Support Systems,2003,35 (1):149-166.
6Runkler T A,Bezdek J C.Web mining with relational clustering[J].International Journal of Approximate Reasoning,2003,32(2):217-236.
7Daniel P.Integrating contextual information to enhance SOM-based text document clustering[J].Neural Networks,2002,15(8):1099-1106.
8吴斌,傅伟鹏,郑毅,刘少辉,史忠植.一种基于群体智能的Web文档聚类算法[J].计算机研究与发展,2002,39(11):1429-1435. 被引量：41
9李戈,邵峰晶,朱本浩.基于神经网络聚类的研究[J].青岛大学学报（工程技术版）,2001,16(4):21-24. 被引量：20
10姜宁,史忠植.文本聚类中的贝叶斯后验模型选择方法[J].计算机研究与发展,2002,39(5):580-587. 被引量：21

二级参考文献32

1[1]H H Bock.Probabilistic models in cluster analysis.Computational Statistics & Data Analysis,1996,23:5～28
2[2]Chris Fraley,Adrian E Raftery.Model-based clustering,discriminate analysis,and density estimation.Department of Statistics,University of Washington,Tech Rep:380,2000
3[3]Petri T Kontkanen,Petri J Myllymaki,Henry R Tirri.Comparing Bayesian model class selection criteria by discrete finite mixtures.In:D L Dowl,K B Korb,J J Oliver eds.Information,Statistics and Induction in Science (Proc of the ISIS'96 Conf in Melbourne.Australia,1996).Singapore:World Scientific,1996.364～374
4[4]An Introduction to Cluster Analysis for Data Mining.http://www.cs.umn.edu/classes/Spring-2000/csci5980-dm/cluster-survey.pdf
5[5]高等数理统计.超星数字图书馆.http://www.ssreader.com.cn.442～444(Advanced Mathematical Statistics (in Chinese),Superstar Digital Library.http://www.ssreader.com.cn.442～444)
6[6]Jeff A Bilmes.A gentle tutorial of the EM algorithm and its application to parameter estimation for Gaussian mixture and hidden Markov models.Computer Science Division Department of Electrical Engineering and Computer Science,U C Berkeley,Tech Rep:TR-97-021,1998
7[7]R E Kass,A E Raftery.Bayesian factors and model uncertainly.Department of Statistics,Carnegie-Mellon University,Tech Rep:571,1993
8[8]I J Good.Weight of evidence:A brief survey.In:J M Bernade ed.Bayesian Statistics 2.New York:Elsevier,1985.249～269
9[9]贝叶斯统计推断.超星数字图书馆.http://www.ssreader.com.cn(Bayesian Inferential Statistics (in Chinese).Superstar Digital Library.http://www.ssreader.com.cn)
10[10]P Cheeseman,J Stutz.Bayesian Classification (AutoClass):Theory and results.In:U M Tayyad ed.Knowledge Discovery in Data Bases II.AAAI Press /The MIT Press,1995.153～180

共引文献418

1兰晓芳,刘霞,肖毅.基于Django的校友在线平台的设计与实现[J].办公自动化,2021,26(18):17-18. 被引量：3
2王志明,沙莎.Web文本挖掘技术在新闻主题检测中的应用研究[J].长沙大学学报,2007,21(5):58-60. 被引量：2
3张脂平,林世平.Web文本挖掘中特征提取算法的分析及改进[J].福州大学学报（自然科学版）,2004,32(z1):63-66. 被引量：1
4彭喜元,彭宇,戴毓丰.群智能理论及应用[J].电子学报,2003,31(z1):1982-1988. 被引量：79
5牛志玲,曾丽娟.面向Web的数据挖掘面临的挑战[J].科技资讯,2008,6(9). 被引量：1
6戴斌,肖道举,梁先宇,廖翊希.移动通信决策分析系统研究[J].计算机科学,2002,29(z1):250-252. 被引量：2
7杨斌,孟志青.一种文本分类数据挖掘的技术[J].湘潭大学自然科学学报,2001,23(4):34-37. 被引量：10
8况夯,罗军.基于遗传FCM算法的文本聚类[J].计算机应用,2009,29(2):558-560. 被引量：5
9李爱国,白冰.基于内容图像检索的Web搜索器[J].郑州大学学报（理学版）,2009,41(2):60-62. 被引量：1
10周云真,舒建文,王平根.数据挖掘在基于WEB的智能远程教育中的应用[J].文教资料,2006(27):154-155. 被引量：1

同被引文献6

1朱克斌,唐菁,杨炳儒.Web文本挖掘系统及聚类分析算法[J].计算机工程,2004,30(13):138-139. 被引量：7
2Klose A,Nurnberger A,Kruse R,et al.Interaetive text retrieval based on document similarities[J].Phys Cbem Earth,2000,25 (8):649-654.
3Dunlavy D M,Oleary D P,Conroy J M,et al.QCS:A system for,clustering and summarizing documents[J].Informatian Processing and Management,2007.doi:10.101 6/j.ipm.2007.01.003.
4杨冬青.业务建模与数据挖掘[M].北京:机械工业出版社,2005.
5范明,范宏建.数据挖掘导论[M].北京:人民邮电出版社,2006.
6唐春生,金以慧.一种大规模的递增聚类算法及其在文档聚类中的应用[J].计算机工程与应用,2002,38(11):187-190. 被引量：2

引证文献1

1郭建永,蔡勇,甄艳霞.新相似性度量在文档模糊聚类中的应用研究[J].计算机工程与应用,2009,45(13):160-162. 被引量：1

二级引证文献1

1李向东,刘晓斌,武利平,常洪梅.面向路线图编制的模糊均值文本聚类挖掘方法研究[J].河北工业大学学报,2011,40(3):40-44. 被引量：1

1胡健,杨炳儒,宋泽锋,钱榕.基于非结构化数据挖掘结构模型的Web文本聚类算法[J].北京科技大学学报,2008,30(2):217-220. 被引量：5
2张瑞,王三福.GraphLab大数据框架与复杂网络结合研究[J].大东方,2016,0(5):209-210.
3李腊元,李春林.一种适应于通信协议自稳定性的恢复算法[J].计算机研究与发展,2000,37(9):1145-1152.
4游福成.一种基于反馈机制的Web文本挖掘分类算法[J].北京印刷学院学报,2009,17(2):52-54.
5欧阳浩,肖建华.基于网格的最小生成树聚类算法[J].计算机与现代化,2006(12):81-82. 被引量：3
6尹朝庆,章必雄.通信协议的自稳定性及其验证方法[J].武汉交通科技大学学报,1998,22(2):119-123.
7王竹.一种新型社交网络建模方法[J].计算机与现代化,2015(12):57-61. 被引量：1
8胡家宝,李腊元,章必雄.通信协议的自稳定性方法研究[J].计算机应用与软件,2000,17(1):21-24.
9郝兴伟,马军,吕刚.高等院校“网上教育”站点的规划和方案[J].高等理科教育,2000(5):28-34. 被引量：1
10赵佳.教育网站安全性建设探讨[J].科技信息,2008(27).

计算机工程与应用

2007年第4期

浏览历史

内容加载中请稍等...

Web文本聚类算法WTCA的研究与实现被引量：1

参考文献11

二级参考文献32

共引文献418

同被引文献6

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

Web文本聚类算法WTCA的研究与实现 被引量：1

参考文献11

二级参考文献32

共引文献418

同被引文献6

引证文献1

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

Web文本聚类算法WTCA的研究与实现被引量：1