基于WEKA平台的文本聚类研究与实现被引量：1

The Research and Implementation of Text Clustering Based on WEKA

下载PDF

导出

摘要文本聚类是文本挖掘领域的一个重要研究分支,是聚类方法在文本处理领域的应用。本文首先对基于空间向量模型的文本聚类过程做了较深入的讨论和总结。另外,本文回顾了现有的文本聚类算法,以及常用的文本聚类效果评价指标。在研究了已有成果的基础上,本文利用20Newsgroup文本语料库,针对向量空间表示模型,在开源的数据挖掘平台WEKA上实现了文本预处理和k-means聚类算法,并根据实际聚类效果,就文本表示、特征选择、特征降维等方面提出优化方案。 Text clustering, one of the most important research braches of text mining, is the application of clustering algorithm in text processing, Firstly, this paper makes relatively deep discussion and summary in the field of VSM-based text clustering process. Moreover, it also discusses with the text clustering algorithm and introduces basic knowledge of clustering validity. On the basis of these works, by doing research with the open source corpus of 20 Newsgroup, this paper implements text preprocessing and k-means clustering algorithm based on the open source data mining tool of WEKA. According to the effects of clustering of the corpus, it presents optimization of text clustering algorithm, including feature representation, dimensionality reduction etc.optimizations of text clustering algorithm, including feature representation, dimensionalitv reduction etc.

作者陈嘉勇

机构地区北京科技大学经济管理学院

出处《中国管理信息化》 2009年第21期9-12,共4页 China Management Informationization

关键词文本挖掘文本聚类向量空间模型 WEKA Text Mining Text Clustering Vector Space Model WEKA

分类号 TP393 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献8

1Ah-Hwee Tan Text Mining: The State of the Art and the Challenges [C]// Proceedings of the PAKDD, 1999.
2Feldman R, Dagan L Knowledge Discovery in Textual Databases (KDT) [C ]//Proceedings of the First International Conference on Knowledge Discovery and Data Mining (KDD-95), Montreal, Canada,AAAI Press, 1995:112-117.
3Michael W Berry, Malu Castellanos. Survey of Text Mining II: Clustering, Classification, and Retrieval[M]. NewYork:Springer, 2007.
4Marti Hearst and Jan Pedersen, Reexamining the Cluster Hypothesis: Scatter/GatheronRetrievalResttlts [C]//Proceedingsofthe 19thAnnual International ACM/SIGIR Conference, Zurich, August 1996.
5RXu, DWunsch.SurveyofClusteringAlgorithms [J]. IEEE Transactions on Neural Networks, 2005,16(3 ).
6Ayad H, Kamel MS. Topic Discovery from Text Using Aggregation of Different Clustering Methods[M ]. London:Springer, 2002.
7Witten IH, Frank E. Data Mining Practical Machine Learning Tools and Techniques[M]2nd Edition. Morgan Kaufmann,2005.
8Lee JM, Calvo RA. Scalable Document Classification [J]. Intelligent Data Analysis, 2005, 9(4) :65-80.

同被引文献8

1马准中.对三种数据挖掘工具的比较[J].实验科学与技术,2005,3(1):37-38. 被引量：6
2谌志群,张国煊.文本挖掘研究进展[J].模式识别与人工智能,2005,18(1):65-74. 被引量：49
3袁军鹏,朱东华,李毅,李连宏,黄进.文本挖掘技术研究进展[J].计算机应用研究,2006,23(2):1-4. 被引量：58
4周宇葵.国外数据挖掘与知识发现工具的评估研究[D]长沙中南大学湘雅医学院,2007.
5孙青.GATE:一个开放的自然语言处理平台.
6钱峰.国内数据挖掘工具研究综述[J].情报杂志,2008,27(10):11-13. 被引量：11
7王敏,李海存,许培扬.国外专利文本挖掘可视化工具研究[J].图书情报工作,2009,53(24):86-90. 被引量：30
8张雪英.国外先进数据挖掘工具的比较分析[J].计算机工程,2003,29(16):1-3. 被引量：20

引证文献1

1张雯雯,许鑫.文本挖掘工具述评[J].图书情报工作,2012,56(8):26-31. 被引量：35

二级引证文献35

1赵胜钢,李军莲,陈颖.编辑距离算法在科研基金名称数据分析中的应用[J].数字图书馆论坛,2014(5):53-58.
2申玫,徐宁,周明顺,赵晓玲,李先强.数据挖掘技术在中高职课程衔接中的应用[J].现代教育科学（高教研究）,2014(4):70-73. 被引量：2
3赵丽,齐兴斌,李雪梅,田涛.基于PTM潜在Dirichlet分配的少量标记样本文本分类[J].计算机应用研究,2015,32(5):1428-1432. 被引量：2
4杨锐,刘毅,张敏,张军,陈伟.基于Lingpipe的煤炭领域科研信息监测分析平台设计与实现[J].计算机应用与软件,2015,32(6):66-71.
5宁琳.一种基于句法规则的文本挖掘技术的设计[J].现代情报,2016,36(2):140-144. 被引量：3
6于曦,杨晋浩,李丹,刘昶,刘永红.基于招聘文本信息的软件工程人才知识结构需求研究[J].当代教育实践与教学研究（电子版）,2016,0(3):263-267.
7张幸芝,雷润玲,杨超.文本挖掘——基于ROSTCM和NetDraw的内容分析[J].科技文献信息管理,2017,31(1):17-21. 被引量：28
8李解,王建平,许娜,周哲.基于文本挖掘的地铁施工安全风险事故致险因素分析[J].隧道建设,2017,37(2):160-166. 被引量：40
9姚凯,李思志,李艳红,邱静静.MOOC评价模型研究[J].复旦教育论坛,2017,15(3):65-71. 被引量：45
10李颢,张吉皓.基于文本挖掘技术的客服投诉工单自动分类探讨[J].移动通信,2017,41(23):66-72. 被引量：12

1郭璠,唐琎,蔡自兴.基于融合策略的单幅图像去雾算法[J].通信学报,2014,35(7):199-207. 被引量：16
2吴仰玉,纪峰,常霞,李翠.图像融合研究新进展[J].科技创新导报,2013,10(1):49-52. 被引量：9
3孙温稳.基于国内现存文本语料库规范化的现状研究及改进[J].河南科技,2016,35(11):19-20.
4蒲强,李鑫,刘启和,杨国纬.一种Web主题文本通用提取方法[J].计算机应用,2007,27(6):1394-1396. 被引量：5
5张婉婉,范宇.基于教学的文本语料库设计与实现[J].萍乡高等专科学校学报,2013,30(6):55-58.
6王李冬,魏宝刚,袁杰.基于概率主题模型的文档聚类[J].电子学报,2012,40(11):2346-2350. 被引量：24
7耿治萌,钟春琳,刘玉琴.日语文本语料库的开发与利用[J].中国教育信息化（高教职教）,2015(1):58-60. 被引量：2
8刘鼎甲,刘国华,刘泽权,王伟.面向文本语料库的数据模型及其查询问题[J].小型微型计算机系统,2015,36(8):1711-1716. 被引量：2
9赵清华.基于相关分析理论的成人微信移动学习效果评价实证研究[J].电脑知识与技术,2015,0(5):267-269. 被引量：3
10路彩霞.科技干部继续教育效果评价系统的研究与实现[J].产业与科技论坛,2011,10(4):225-226.

中国管理信息化

2009年第21期

浏览历史

内容加载中请稍等...

基于WEKA平台的文本聚类研究与实现被引量：1

参考文献8

同被引文献8

引证文献1

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于WEKA平台的文本聚类研究与实现 被引量：1

参考文献8

同被引文献8

引证文献1

二级引证文献35

相关作者

相关机构

相关主题

浏览历史

基于WEKA平台的文本聚类研究与实现被引量：1