一种基于MapReduce的知识聚类与统计机制被引量：1

Knowledge Clustering and Statistics Based on Map Reduce

下载PDF

导出

摘要网络文献知识库中的海量资源及其分类的粗粒度,导致学习者容易在文献检索和阅读过程出现认知迷航和知识过载问题。该文提出一种基于Map Reduce的知识聚类与统计机制:首先,提出基于Map Reduce的共现矩阵构建算法MR-Co Matrix;其次,将共现矩阵与相似度系数结合构建相似度矩阵;然后,通过Z Scores对相似度矩阵进行标准化;最后,使用离差平方和法(Ward,s method)对相似度矩阵进行聚类,生成树状的知识聚类谱系图;基于聚类结果,提出基于Map Reduce的知识文献统计算法MR-Statistics,对每个分类的知识属性进行统计。实验结果表明:将MR-Co Matrix和MR-Statistics方法应用于网络文献知识库进行知识聚类和统计,达到较理想的聚类精度和计算效率,实现了细粒度知识聚类和多维统计,同时减少了时间开销。 The large scale and the coarse classification granularity of resources in literature knowledge bases lead to disorientation and overloading when learners retrieve and read papers. This paper proposes a mechanism of knowledge clustering and knowledge statistics based on Map Reduce. Firstly, this paper presents a Co-occurrence Matrix building algorithm based on Map Reduce（MR-Co Matrix）. Secondly, it makes combination of the co-occurrence matrix and similarity coefficient to build the similarity matrix. Thirdly, the similarity matrix is standardized with Z scores. Finally, knowledge clusters are constructed with the Ward,s method. After knowledge clustering, this paper introduces a knowledge Statistics algorithm based on Map Reduce（MR-Statistics） to dig the hidden information in each cluster. The experimental results show that the literature knowledge base with MRCo Matrix and MR-Statistics can realize the accurate and fine clustering, multi-dimension statistics, computational efficiency, and less cost of time.

作者徐小龙李永萍

机构地区南京邮电大学计算机学院

出处《电子与信息学报》 EI CSCD 北大核心 2016年第1期202-208,共7页 Journal of Electronics & Information Technology

基金国家自然科学基金(61202004 61472192) 教育部科技发展中心网络时代的科技论文快速共享专项研究(2013116) 江苏省高校自然科学研究计划(14KJB520014)~~

关键词数据挖掘聚类知识共现矩阵统计 MAP REDUCE Data mining Cluster Knowledge Co-occurrence matrix Statistics Map Reduce

分类号 TP311.5 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献25

1SERET A, VERBRAKEN T, and BAESENS B. A new knowledge-based constrained clustering approach: theory and application in direct marking[J]. Applied Soft Computing, 2014, 24(3): 316-327.
2朱林,雷景生,毕忠勤,杨杰.一种基于数据流的软子空间聚类算法[J].软件学报,2013,24(11):2610-2627. 被引量：31
3ZHU Lin, CHUNG Fulai, and WANG Shitong. Generalized fuzzy C-means clustering algorithm with improved fuzzy partitions[J]. IEEE Transactions on Systems, Man, and Cybernetics, 2009, 39(3): 578-591.
4张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：176
5徐森,周天,于化龙,李先锋.一种基于矩阵低秩近似的聚类集成算法[J].电子学报,2013,41(6):1219-1224. 被引量：6
6徐森,卢志茂,顾国昌.使用谱聚类算法解决文本聚类集成问题[J].通信学报,2010,31(6):58-66. 被引量：15
7ZHU Wenxing, CHEN Jianli, and LI Weiguo. An augmented Lagrangian method for VLSI global placement[J]. The Journal of Supercomputing, 2014, 69(2): 714-738.
8ZHOU F, TORRE F D L, and HODGINS J K. Hierarchical aligned cluster analysis for temporal clustering of human motion[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2013, 35(3): 582-596.
9MASHSHI S, NIU G, MAKOTO Y, et al. Information- maximization clustering based on squared-loss mutual information[J]. Neural Computation, 2014. 26(1): 84-131.
10YU Feili, CAO Liangliang, FERIS R S, et al. Designing Category-level attributes for discriminative visual recognition [C]. Preceedings of the IEEE Conference on Computer Vision and Pattern Recognition, Portland, 2013: 771-776.

二级参考文献200

1张敏,于剑.基于划分的模糊聚类算法[J].软件学报,2004,15(6):858-868. 被引量：176
2唐伟,周志华.基于Bagging的选择性聚类集成[J].软件学报,2005,16(4):496-502. 被引量：95
3罗四维,赵连伟.基于谱图理论的流形学习算法[J].计算机研究与发展,2006,43(7):1173-1179. 被引量：76
4KONG Wan-zeng,ZHU Shan-an.Multi-face detection based on downsampling and modified subtractive clustering for color images[J].Journal of Zhejiang University-Science A(Applied Physics & Engineering),2007,8(1):72-78. 被引量：10
5陶文兵,金海.一种新的基于图谱理论的图像阈值分割方法[J].计算机学报,2007,30(1):110-119. 被引量：58
6TIAN Zheng,LI XiaoBin,JU YanWei.Spectral clustering based on matrix perturbation theory[J].Science in China(Series F),2007,50(1):63-81. 被引量：19
7田铮,李小斌,句彦伟.谱聚类的扰动分析[J].中国科学（E辑）,2007,37(4):527-543. 被引量：33
8宁焕生,张瑜,刘芳丽,刘文明,渠慎丰.中国物联网信息服务系统研究[J].电子学报,2006,34(B12):2514-2517. 被引量：151
9罗会兰,孔繁胜,李一啸.聚类集成中的差异性度量研究[J].计算机学报,2007,30(8):1315-1324. 被引量：36
10J Dean,S Ghemawat.MapReduce:Simplified data processing on large clusters[J].Communications of the ACM,2008,51(1):107-113.

共引文献487

1李小波,刘威,李健.基于模糊聚类分析方法的高含水期油藏层系优化[J].当代化工,2019,0(11):2630-2633. 被引量：2
2娄冬梅,陈明,朱有娜.一种基于密度的无参数聚类算法[J].计算机研究与发展,2006,43(z3):328-331.
3刘琳,曾鹏,于海斌.工业无线传感器网络中的簇首节点部署问题[J].中国仪器仪表,2008(S1):115-121.
4桂智明,向宇,李玉鉴.基于出租车轨迹的并行城市热点区域发现[J].华中科技大学学报（自然科学版）,2012,40(S1):187-190. 被引量：22
5秦燕,赵彦伟,杨志峰.基于模糊聚类技术的区域生态功能区划研究——以三峡库区万州为例[J].应用基础与工程科学学报,2009,17(S1):74-81. 被引量：2
6张吉稳,何汉武,胡兆勇.基于虚拟环境的汽车驾驶安全预警方法[J].系统仿真学报,2009,21(S1):234-237. 被引量：1
7司建波,姚燕,郭蔚莹,杨芳.基于模糊聚类的Web用户聚类方法与实现[J].吉林大学学报（工学版）,2013,43(S1):485-488.
8张强.论FCM在城市社会公共服务设施规划中的应用[J].求索,2014(8):107-111. 被引量：2
9凌萍.一种基于网格划分的模糊聚类算法[J].徐州师范大学学报（自然科学版）,2005,23(1):39-44. 被引量：1
10李翠霞,于剑.一种模糊聚类算法归类的研究[J].北京交通大学学报,2005,29(2):17-21. 被引量：12

同被引文献3

1陈黎飞,郭躬德,姜青山.自适应的软子空间聚类算法[J].软件学报,2010,21(10):2513-2523. 被引量：33
2李鑫,张继福,蔡江辉.一种基于大密度区域的模糊聚类算法[J].小型微型计算机系统,2012,33(6):1310-1315. 被引量：11
3尹进田,刘云连,刘丽,伍铁斌.一种高效的混合蝙蝠算法[J].计算机工程与应用,2014,50(7):62-66. 被引量：24

引证文献1

1寇广,汤光明,何嘉婧,张恒巍.一种基于变异蝙蝠算法的高维聚类方法[J].系统仿真学报,2018,30(4):1253-1259. 被引量：4

二级引证文献4

1许德刚,赵萍.蝙蝠算法研究及应用综述[J].计算机工程与应用,2019,55(15):1-12. 被引量：34
2张勇,陈菊.基于决策树的网络高维数据软子空间聚类方法研究[J].现代电子技术,2019,42(20):81-83. 被引量：4
3周燕茹.基于模糊数学的高维稀疏数据聚类统计方法设计[J].吉林化工学院学报,2021,38(9):107-111.
4周燕茹.基于模糊数学的高维稀疏数据聚类统计方法设计[J].德州学院学报,2021,37(6):60-65.

1谭黔林,覃运初,卢艳兰.一种改进的K-medoids知识聚类算法研究[J].软件导刊,2016,15(8):13-15.
2季铎,苗雪雷.知识聚类技术[J].沈阳航空工业学院学报,2008,25(5):58-62.
3李丽萍,孟宪宇,李凤华.办公自动化系统中知识发现的研究[J].辽宁工业大学学报（自然科学版）,2010,30(1):28-30. 被引量：4
4张鹏飞,李德胜,王祁.一种新颖的虹膜识别方法[J].光电工程,2005,32(5):89-92. 被引量：8
5李雪梅,张素琴.数据挖掘中聚类分析技术的应用[J].武汉大学学报（工学版）,2009,42(3):396-399. 被引量：9
6李家.聚类分析谱系图二叉树的建立及应用[J].辽宁师范大学学报（自然科学版）,1994,17(2):157-162. 被引量：4
7廖文彬.RBFN神经网络和蚁群算法在企业知识聚类中的对比分析[J].科技资讯,2006,4(21):181-182.
8吴斐,张玉红,胡学钢.面向评论信息的跨领域词汇情感倾向判别方法[J].计算机科学,2015,42(6):220-222. 被引量：2
9董吉文,周劲,杨秀丽.综合值贴近和形贴近的新的统计量的研究[J].微电子学与计算机,2005,22(5):192-194. 被引量：3
10王勋,张磊,鲍虎军.ILS中知识的聚类和表示[J].浙江大学学报（工学版）,2003,37(5):528-531. 被引量：4

电子与信息学报

2016年第1期

浏览历史

内容加载中请稍等...

一种基于MapReduce的知识聚类与统计机制被引量：1

参考文献25

二级参考文献200

共引文献487

同被引文献3

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

一种基于MapReduce的知识聚类与统计机制 被引量：1

参考文献25

二级参考文献200

共引文献487

同被引文献3

引证文献1

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

一种基于MapReduce的知识聚类与统计机制被引量：1