分布式环境下的文本聚类研究与实现被引量：3

Research and Implementation of Textual Clustering in Distributed Environment

导出

摘要【目的】通过开源工具,构建一种分布式环境下的文本聚类与分类应用平台。【方法】以海量文本的词收敛性为基础,通过词聚类指导文本聚类和分类。过程包括:使用开源分词器等工具进行训练集的文本预处理,结合Mahout数据挖掘平台对处理后的词集进行聚类分析,最后通过相似度算法计算测试文本与词类簇的相似度并分类。【结果】分布式环境下的基于词聚类的文本聚类分类计算方法,可有效解决海量文本的词聚类瓶颈问题。经测试,当训练文本集增加到100,迭代收敛阈值为0.01时,词聚类结果较理想。【局限】测试数据规模有限,仅限于新闻数据,基于其他领域的词聚类效果需要进一步测试、优化、调整。【结论】详细描述基于词聚类的文本聚类分类算法的开发环境构架和关键步骤,有助于研究者对相关开源工具使用及分布式并行环境部署的深入理解。 [Objective] To implement the textual clustering and classification in distributed environment through open-source tools. [Methods] According to the convergence of words in masses of text, this paper classifies texts based on word-clustering, including text preprocess by open-source tokenizer, cluster analysis by Mahout, classifying the test text by computing the similarity between the text and word-cluster. [Results] The textual clustering based on word-clustering in distributed environment effectively solves the bottleneck of word-clustering of massive texts. The tested result of word-clustering is ideal while the number of text training set exceeds 100 and the iterative convergence threshold is 0.01. [Limitations] The data type is limited in the field of news and the other field-based word-clustering also needs further test, optimization and adjustment. [Conclusions] This study describes the build process and key steps of the textual clustering and classification in distributed environment to help readers with in-der）th understood.

作者赵华茗

机构地区中国科学院文献情报中心

出处《现代图书情报技术》 CSSCI 2015年第1期82-88,共7页 New Technology of Library and Information Service

关键词分布式环境聚类文本聚类 HADOOP Mahout Distributed environment Clustering Textual clustering Hadoop Mahout

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献21

1胡建军,唐常杰,李川,彭京,元昌安,陈安龙,蒋永光.基于最近邻优先的高效聚类算法[J].四川大学学报（工程科学版）,2004,36(6):93-99. 被引量：24
2Han J, Kamber M. Data Mining Concepts and Techniques [M]. Beijing: China Machine Press, 2008: 261-284.
3Pena J M, Lozano J A, Larranaga P. An Empirical Comparison of Four Initialization Methods for the K-means Algorithm [J]. Pattern Recognition Letters, 1999, 20(10): 1027-1040.
4Bradley P S, Fayyad U M. Refining Initial Points for K-means Clustering [C]. In: Proceedings of the 15th International Conference on Machine Learning (ICML'98). San Francisco, USA: Morgan Kaufmann Publishers Inc., 1998: 91-99.
5Steinbach M, Karypis G, Kumar V. A Comparison of Document Clustering Techniques [C]. In: Proceedings of KDD 2000 Workshop on Text Mining. 2000: 1-20.
6Zhao Y, Karypis G, Fayyad U. Hierarchical Clustering Algorithms for Document Datasets [J]. Data Mining and Knowledge Discovery, 2005, 10(2): 141-168.
7Higgs R E, Bemis K G, Watson I A, et al. Experimental Designs for Selecting Molecules from Large Chemical Databases [J]. Journal of Chemical Information and Computer Sciences, 1997, 37(5): 861-870.
8Snarey M, Terrett N K, Willet P, et al. Comparison of Algorithms for Dissimilarity-based Compound Selection [J]. Journal of Molecular Graphics & Modelling, 1997, 15(6): 372-385.
9Slonim N, Tishby N. Document Clustering Using Word Clusters via the Information Bottleneck Method [C]. In: Proceedings of the 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR'00). New York, USA: ACM, 2000: 208-215.
10MapReduce [EB/OL]. [2014-08-06]. http://Hadoop.apache. org/mapreduce/.

二级参考文献12

1Han J W, Kambr M. Data mining concepts and techniques[M]. Beijing: Higher Education Press, 2001. 145～176.[2]Kaufan L, Rousseeuw P J. Finding groups in data: an introduction to cluster analysis[M]. New York: John Wiley & Sons, 1990.
2Guha S, Rastogi R, Shim K. CURE: an efficient clustering algorithm for large databases[A]. Haas L M, Tiwary A. Proceedings of the ACM SIGMOD International Conference on Management of Data[C]. Seattle: ACM Press, 1998. 73～84.
3Ester M, Kriegel H P, Sander J, et al. A density based algorithm for discovering clusters in large spatial databases with noise[A]. Simoudis E, Han J W, Fayyad U M. Proceedings of the 2nd International Conference on Knowledge Discovery and Data Mining[C].
4Agrawal R, Gehrke J, Gunopolos D, et al. Automatic subspace clustering of high dimensional data for data mining application[A]. Haas L M, Tiwary A. Proceedings of the ACM SIGMOD International Conference on Management of Data[C]. Seattle: ACM Press, 1998.
5Zhang T,Ramakrishnan R,Livny M. BIRCH:an efficient data clustering method for very large database[R].Computer Sciences Dept,Univ of Wisconsin-Madison,1995.
6Zhang T,Ramakrishnan R,Livny M. BIRCH:an efficient data clustering method for very large databases[A]. Jagadish H V, Mumick I S. Proceedings of the 1996 ACM SIGMOD International Conference on Management of Data[C]. Quebec: ACM Press, 1996.103～114.
7Beyer K S,Goldstein J,Ramakrishnan R,et al. When is 'nearest neighbor' meaningful?[A].Beeri C,Buneman P.Proceedings of the 7th International Conference on Data Theory[C].ICDT'99. LNCS1540,Jerusalem, Israel: Springer, 1999.217～235.
8Karypis G,Han E H,Kumar V. CHAMELEON: a hierarchical clustering algorithm using dynamic modeling[J].IEEE Computer,1999,32(8):68-75.
9田润涛.[D].郑州:河南中医学院药学院,2004:12—41.
10Fang KT, Liang YZ, Yu RQ. Data Mining and Bioinformatics in Chemistry and Chinese Medicines[M]. Volume 2. Hong Kong: Hong Kong Baptist University, 2004:59 - 72.

共引文献69

1谭有珍,陈碧莹,吴霞,高晓霞,冯毅凡.基于^(1)H-NMR指纹图谱建立沉香快速识别模型的研究[J].中药材,2021,44(4):818-823. 被引量：6
2徐鹏飞,张华,贾剑平.一种新的水下焊缝图像信号提取方法[J].上海交通大学学报,2008,42(S1):97-99. 被引量：2
3陈爱明,梁逸曾,张良晓,吴海.烟用香精香料指纹图谱质量控制系统的构建[J].计算机与应用化学,2009,26(3):373-378. 被引量：23
4田润涛,谢培山,杨云.色谱指纹图谱相似度评价方法的规范化研究(二)[J].中药新药与临床药理,2006,17(2):113-116. 被引量：2
5魏大刚,唐常杰,段磊,钟义啸,朱军,蒋永光.基于最优投影和动态阈值的最近邻搜索算法[J].四川大学学报（自然科学版）,2006,43(4):777-782. 被引量：2
6柴逸峰,朱臻宇.中药指纹图谱的研究进展[J].药学服务与研究,2006,6(4):241-245. 被引量：10
7吴青,翟建设,赵旭赟.基于层次聚类的分层可扩展性编码算法的优化[J].计算机应用与软件,2007,24(2):45-46. 被引量：4
8漆超,江嘉.基于数据挖掘技术的网站用户分析[J].昆明理工大学学报（理工版）,2007,32(2):48-51. 被引量：2
9朱臻宇,乔善磊,张海,娄子洋,柴逸峰.中药色谱指纹图谱全排序模板匹配算法研究[J].第二军医大学学报,2007,28(2):183-187. 被引量：5
10胡建军.浅谈数据仓库与数据挖掘的本科教学[J].广西科学院学报,2007,23(3):209-210. 被引量：9

同被引文献110

1鞠平,戴琦,黄永皓,付红军,何南强.我国电力负荷建模工作的若干建议[J].电力系统自动化,2004,28(16):8-12. 被引量：35
2王飞,孙莹.配电网故障定位的改进矩阵算法[J].电力系统自动化,2003,27(24):45-46. 被引量：89
3蒋秀洁,熊信银,吴耀武,唐剑东.改进矩阵算法及其在配电网故障定位中的应用[J].电网技术,2004,28(19):60-63. 被引量：90
4杨华春,贺仁睦,王鹏,石景海,张进.基于聚合理论的大区电网负荷建模[J].电力系统自动化,2005,29(1):49-52. 被引量：27
5贺仁睦,魏孝铭,韩民晓.电力负荷动特性实测建模的外推和内插[J].中国电机工程学报,1996,16(3):151-154. 被引量：46
6马进,贺仁睦,王景钢,周彦军.综合负荷模型参数的简化辨识策略[J].电网技术,2006,30(9):28-34. 被引量：22
7张华伟,王明文,甘丽新.基于随机森林的文本分类模型研究[J].山东大学学报（理学版）,2006,41(3):5-9. 被引量：58
8汤涌,张东霞,张红斌,朱方,蒋宜国,蒋卫平,赵红光.东北电网大扰动试验仿真计算中的综合负荷模型及其拟合参数[J].电网技术,2007,31(4):75-78. 被引量：23
9梅念,石东源,杨增力,段献忠.一种实用的复杂配电网故障定位的矩阵算法[J].电力系统自动化,2007,31(10):66-70. 被引量：103
10范听炜.支持向量机算法的研究及其应用[D].浙江大学,2003,5

引证文献3

1曹军威,袁仲达,明阳阳,张华赢.能源互联网大数据分析技术综述[J].南方电网技术,2015,9(11):1-12. 被引量：66
2陆泉,张良韬.处理流程视角下的大数据技术发展现状与趋势[J].信息资源管理学报,2017,7(4):17-28. 被引量：8
3彭杨.基于Hadoop的文本分析算法研究与实践[J].信息与电脑,2020,32(24):48-51.

二级引证文献74

1王申,麻超,吴家敬,冯凯军.地铁工程智能用电及能耗控制综合评价体系研究[J].中国水运（下半月）,2023,23(11):40-42.
2周云红,黄飞,王玉莹.物联塑壳断路器的拓扑识别模块设计[J].电器与能效管理技术,2022(12):38-45. 被引量：4
3陈明辉,王珂,蔡莹,廖晔.基于数据驱动的母线负荷特性分析[J].南方电网技术,2016,10(2):70-76. 被引量：3
4吴卉男.大数据系统和分析技术综述[J].信息记录材料,2016,17(3):2-4. 被引量：4
5张勇军,陈泽兴,蔡泽祥,李立浧,宋伟伟.新一代信息能源系统:能源互联网[J].电力自动化设备,2016,36(9):1-7. 被引量：47
6张阳,胡绍谦,汤震宇.电力系统僵尸网络检测分析[J].微型机与应用,2016,35(18):10-12. 被引量：1
7赵文会,李阮,王辉,谈一鸣.关于电动汽车综合效益的再思考[J].价格理论与实践,2016(7):151-154. 被引量：5
8李刚,杨立业,刘福炎,俞敏,宋雨,文福拴.能源互联网关联数据融合的互信息方法[J].电力建设,2016,37(9):22-29. 被引量：9
9黄超,姚森敬,朱正国,邓琨,魏恩伟.电网自动智能调度模型的改进设计[J].中国电力,2016,49(12):37-41. 被引量：4
10刘敦楠,唐天琦,赵佳伟,叶彬,马静,王宝,杨敏.能源大数据信息服务定价及其在电力市场中的应用[J].电力建设,2017,38(2):52-59. 被引量：23

1蒋加伏,赵嘉,胡益红.一种基于支持向量聚类的图像分割方法[J].计算机工程与应用,2009,45(30):165-167. 被引量：3
2高继森,赵杰,张忠辅,张晶.增强型K-means聚类算法在入侵检测中的应用[J].微计算机信息,2008,24(9):72-73. 被引量：5
3邓世昆,张月芬,李红灵,卫纯.高校网络教学支撑环境构架[J].云南大学学报（自然科学版）,2007,29(S1):47-50. 被引量：1
4TIAN Junfeng LIU Yongli.A New Honeynet Model[J].Wuhan University Journal of Natural Sciences,2006,11(6):1835-1838.
5于瑛英.支持向量机多分类问题中聚类分类方法研究[J].统计与决策,2009,25(3):32-34. 被引量：2
6刘小民,张文斌.一种基于径向基函数的近似模型构造方法[J].燕山大学学报,2010,34(5):390-394.
7王勇杰,岳云康.三维纹理图像特征准确识别技术仿真研究[J].计算机仿真,2012,29(5):295-298. 被引量：6
8邓力,陈晓翔,林嘉宇.基于GPU的CUDA应用开发环境构架[J].微处理机,2013,34(1):1-3. 被引量：2
9毛倩,董德存,曾小清.一种AWGN信道下非规则LDPC码的优化方法[J].计算机应用,2010,30(2):292-294. 被引量：5
10万雅奇.高等学校教育资源集聚分类的SOM模型及应用[J].计算机工程与应用,2007,43(22):228-230.

现代图书情报技术

2015年第1期

浏览历史

内容加载中请稍等...

分布式环境下的文本聚类研究与实现被引量：3

参考文献21

二级参考文献12

共引文献69

同被引文献110

引证文献3

二级引证文献74

相关作者

相关机构

相关主题

浏览历史

分布式环境下的文本聚类研究与实现 被引量：3

参考文献21

二级参考文献12

共引文献69

同被引文献110

引证文献3

二级引证文献74

相关作者

相关机构

相关主题

浏览历史

分布式环境下的文本聚类研究与实现被引量：3