基于Hadoop的Canopy-K-means并行算法的学生成绩与毕业流向关系分析被引量：11

Analysis of student score and graduation destination based on Hadoop's Canopy-K-means parallel algorithm

下载PDF

导出

摘要为了探究学生成绩与其毕业去向之间存在的内在关系,提出基于Hadoop的Canopy-Kmeans并行算法并进行分析.首先基于"最小最大原则"确定Canopy的初始中心点并快速粗糙聚类,将其作为K-means算法的初始聚类中心,并基于MapReduce计算框架实现其并行化.然后以西安工程大学2017届毕业生的教务数据为基础,进行海量教务数据的挖掘分析实验,完成相同毕业流向类型学生的聚类,同时分析各毕业流向与课程之间的内在联系.实验结果证明,改进后的Canopy-K-means算法在处理海量数据时,相比传统K-means算法,聚类收敛速度提高约2.1倍,准确率提高约15%,具有良好的聚类效果. In order to explore the intrinsic relationship between student grades and graduation destination,Canopy-K-means parallel algorithm based on Hadoop was used for analysis.Firstly,based on the“minimum and maximum principle”,the initial center point of Canopy was determined,clustering fastly.K-means algorithm uses it as the initial clustering center,and achieves parallelization based on MapReduce.Then mining analysis experiment was conducted with the educational data of the2017graduates of Xi′an Polytechnic University,clustering the students with the same graduation type,and get the result of the internal relationship between graduation types and courses.The experimental results show that when processing massive data,compared with the traditional K-means algorithm,Canopy-K-means algorithm improves the cluster convergence speed by about2.1times,and increases the accuracy rate by around15percentage points,which has better clustering effect.

作者郭卫霞薛涛李婷 GUO Weixia;XUE Tao;LI Ting(School of Computer Science, Xi′an Polytechnic University, Xi′an 710048, China)

机构地区西安工程大学计算机科学学院

出处《西安工程大学学报》 CAS 2018年第6期705-712,共8页 Journal of Xi’an Polytechnic University

基金陕西省自然科学基础计划一般项目(2018JQ6103)

关键词 HADOOP Canopy-K-means 最小最大原则 MAPREDUCE 教务毕业流向 Hadoop Canopy-K-means minimum and maximum principle MapReduce educational administration graduation flow

分类号 TP391.1 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献17

1张承畅,张华誉,罗建昌,何丰.基于云计算和改进K-means算法的海量用电数据分析方法[J].计算机应用,2018,38(1):159-164. 被引量：29
2龙松,向丽苹.学生学习成绩与就业去向间的判别分析[J].科教导刊,2018(14):167-169. 被引量：5
3林秀科,沈良忠.基于决策树的学生成绩对毕业影响分析[J].电脑知识与技术（过刊）,2017,23(12X):15-16. 被引量：2
4陈甲华.基于改进Apriori算法的大学成绩关联规则——某大学信管专业的实证研究[J].电子技术与软件工程,2017(8):177-178. 被引量：6
5韩霖,金健宇,方丹丹.什么影响学生就业:大数据模型告诉你[J].中国教育网络,2016(7):71-72. 被引量：1
6金健宇,韩霖,方丹丹.大数据让就业有迹可循[J].中国教育网络,2016(12):76-77. 被引量：1
7李铁,燕彩蓉,黄永锋,宋亚龙.面向Hadoop分布式文件系统的小文件存取优化方法[J].计算机应用,2014,34(11):3091-3095. 被引量：12
8栾景超,马志强,李昊甦,董科军.Hadoop分布式文件系统资源管理器的设计与实现[J].科研信息化技术与应用,2014,5(1):41-52. 被引量：9
9陶莹,杨锋,刘洋,戴兵.K均值聚类算法的研究与优化[J].计算机技术与发展,2018,28(6):90-92. 被引量：62
10孙吉贵,刘杰,赵连宇.聚类算法研究[J].软件学报,2008(1):48-61. 被引量：1072

二级参考文献131

1郭庆琳,吴克河,吴慧芳,李存斌.基于文本聚类的多文档自动文摘研究[J].计算机研究与发展,2007,44(z2):140-144. 被引量：5
2姜明明,马丹.因子分析和聚类分析方法在大学生综合素质评价中的应用[J].齐齐哈尔大学学报（自然科学版）,2013,29(2):77-80. 被引量：8
3周丽娟,王慧,王文伯,张宁.面向海量数据的并行KMeans算法[J].华中科技大学学报（自然科学版）,2012,40(S1):150-152. 被引量：32
4江小平,李成华,向文,张新访,颜海涛.k-means聚类算法的MapReduce并行化实现[J].华中科技大学学报（自然科学版）,2011,39(S1):120-124. 被引量：79
5王燕.一种改进的K-means聚类算法[J].计算机应用与软件,2004,21(10):122-123. 被引量：9
6徐君,黄亚楼,李飞.K-Means聚类中序列模式和批量模式的比较研究[J].计算机科学,2004,31(6):156-158. 被引量：5
7袁方,孟增辉,于戈.对k-means聚类算法的改进[J].计算机工程与应用,2004,40(36):177-178. 被引量：48
8萍萍.Windows资源管理器技巧几则[J].计算机与网络,2005,31(21):16-16. 被引量：1
9杨峰,周宁,吴佳鑫.基于信息可视化技术的文本聚类方法研究[J].情报学报,2005,24(6):679-683. 被引量：18
10刘远超,王晓龙,刘秉权.一种改进的k-means文档聚类初值选择算法[J].高技术通讯,2006,16(1):11-15. 被引量：23

共引文献1288

1丁小军,陈杰,李霖,徐碧通,朱晓姝.一种基于聚类结果稳定性来确定聚类数的方法[J].玉林师范学院学报,2020(3):43-47. 被引量：1
2吴运明,王令村,魏子栋,郭顺利.基于Canopy-Kmeans的移动商务用户需求聚合挖掘及分析研究[J].情报科学,2022,40(10):97-106. 被引量：3
3王玥,李文权,梁爽,余静财.基于改进聚类算法的共享汽车网点选址研究[J].武汉理工大学学报,2021,43(2):79-85.
4林耿堃,盛积良.乡村振兴时代背景下农民消费结构变迁研究[J].农业农村部管理干部学院学报,2021(2):76-81. 被引量：3
5高显义,林欣晖.基于文本聚类的变电工程变更特征识别研究[J].建筑经济,2020,41(S02):200-203. 被引量：2
6毛颖颖,杨新凯.融合拓扑势的自适应层次聚类算法研究[J].计算机应用研究,2020,37(S01):37-39.
7张睿恺,吴克河.基于优化特征集的LeNet-5攻击检测模型的态势感知技术[J].计算机应用研究,2020,37(S01):287-289. 被引量：3
8李对红,王裴岩 ,张桂平,张少阳.基于字簇的多模型中文分词方法研究[J].计算机应用研究,2020,37(2):355-359. 被引量：2
9薛潇.船舶水下通信系统中海声信道文本数据聚类方法研究[J].舰船科学技术,2019,0(20):115-117.
10尧少波,蒋励剑,赵文文,卢铮,吴昌聚,陈伟芳.耦合聚类的数据驱动稀薄流非线性本构计算方法[J].航空学报,2022,43(S02):43-56.

同被引文献102

1李卫华,刘卫国.一种基于压缩矩阵的Apriori改进算法[J].计算机系统应用,2008,17(3):27-30. 被引量：9
2盛莉,邹开其,邓冠男.基于网格和密度的模糊C均值聚类初始化方法[J].计算机应用与软件,2008,25(3):22-23. 被引量：9
3杨燕,靳蕃,KAMEL Mohamed.聚类有效性评价综述[J].计算机应用研究,2008,25(6):1630-1632. 被引量：117
4吴斌,肖刚,陆佳炜.基于关联规则挖掘领域的Apriori算法的优化研究[J].计算机工程与科学,2009,31(6):116-118. 被引量：22
5谢娟英,蒋帅,王春霞,张琰,谢维信.一种改进的全局K-均值聚类算法[J].陕西师范大学学报（自然科学版）,2010,38(2):18-22. 被引量：47
6张岩,李爱秋.高校学生成绩预警系统的改进研究[J].沈阳师范大学学报（自然科学版）,2010,28(2):225-228. 被引量：5
7李霞,李荣国.基于ASP.NET和ADO.NET技术交互式教学辅助网站的设计与实现[J].网络与信息,2010,24(7):26-27. 被引量：5
8王小姣,徐夫田,单国杰.模糊C-均值聚类算法的改进[J].微型机与应用,2010,29(12):42-44. 被引量：3
9关志伟,王新建,郑明锋.牵引车—半挂车列车转向稳定性分析[J].汽车技术,2011(6):41-45. 被引量：1
10谢娟英,郭文娟,谢维信,高新波.基于样本空间分布密度的初始聚类中心优化K-均值算法[J].计算机应用研究,2012,29(3):888-892. 被引量：53

引证文献11

1夏邢,薛涛,李婷.基于Spark的模糊C均值算法改进[J].西安工程大学学报,2019,33(1):100-105. 被引量：5
2常颖.基于Hadoop下的数据智能分类算法分析[J].通讯世界,2019,26(12):78-79. 被引量：1
3吴发辉,张玲.基于PRAM模型的集群计算机混合并行算法设计[J].信息工程大学学报,2019,20(4):417-420.
4王东新,曲建晶.基于ASP.NET的学生素质评价管理系统设计[J].微型电脑应用,2020,36(7):81-84. 被引量：3
5蒋勇斌,赵炜,曹晶晶,周丹.基于k-means聚类算法的用户复杂用电特征挖掘方法研究[J].电子设计工程,2020,28(18):11-15. 被引量：7
6杨延庆,袁华兵.基于MapReduce的模糊K-means算法并行化研究[J].计算机与数字工程,2020,48(7):1564-1567. 被引量：1
7孙美琪,薛涛,梁家瑞.一种基于节点局部相似度的标签传播算法[J].西安工程大学学报,2020,34(5):93-99.
8余弦,周谊芬.大数据背景下基于Apriori算法的学生成绩与就业流向研究[J].四川职业技术学院学报,2020,30(6):156-160. 被引量：5
9李兵,屈亚洲,熊乐,王晓亮,赵晨光.基于Canopy-K-means算法的半挂汽车列车行驶数据分析[J].科技和产业,2021,21(8):288-294.
10富立琪,王华倩,乔学工.基于k-means分簇和灰狼优化的无线传感网络路由算法[J].电子设计工程,2021,29(23):1-6. 被引量：9

二级引证文献37

1王洋,赵锐.基于大数据的全聚合媒资数据管理后台设计[J].黑龙江广播电视技术,2020(4):14-15.
2王烽.FCM聚类算法对平面标靶中心提取精度的探究[J].测绘通报,2019(S1):122-125.
3陈怡君,曹逻炜,杜玉倩.基于自步数据重构正则化的模糊C均值聚类算法改进[J].计算机与现代化,2020,0(6):120-126. 被引量：5
4杨延庆,袁华兵.基于MapReduce的模糊K-means算法并行化研究[J].计算机与数字工程,2020,48(7):1564-1567. 被引量：1
5刘磊,康瑞华.改进Apriori算法在学生能力影响因子分析中的应用[J].软件导刊,2021,20(4):194-198. 被引量：1
6许静雯,彭思敏,徐玥.基于Apriori算法的校园垃圾分类统计分析——以江苏大学京江学院为例[J].科学大众（科技创新）,2021(4):55-56.
7孙彤,钱慎一,甘琤.基于大数据的学生成绩分析与研究[J].信息与电脑,2021,33(14):253-256.
8张世元,王治国,董昊男,傅冠凯.数据驱动的用电行为分析模型研究[J].电子设计工程,2021,29(23):69-73. 被引量：1
9赵放,任远.基于混合密码的互联网大数据隐匿性特征提取研究[J].电子设计工程,2021,29(23):171-174. 被引量：3
10胡建华,尹慧琳.基于余弦相似性的自适应权重的改进FCM算法[J].智能计算机与应用,2021,11(7):73-79.

12001年高校毕业生就业最受欢迎专业排行榜[J].求学,2001(9).
2张苗苗,靳耀宇,杨轩博.大数据背景下应用统计学毕业生就业分析——以东北大学秦皇岛分校2015-2017届毕业生为例[J].智库时代,2018(25):73-73. 被引量：1
3欧阳浩,王智文,黄镇谨.基于小生境遗传禁忌的粗糙聚类分析算法[J].计算机工程与设计,2017,38(10):2718-2722. 被引量：2
4马福民,逯瑞强,张腾飞.基于边界区域局部模糊增强的πRKM聚类算法[J].控制与决策,2017,32(11):1949-1956. 被引量：4
5钱旭升,付文晓.她为什么迷茫——英语学科教学专业学位研究生培养问题的叙事研究[J].教育与教学研究,2018,32(8):47-52. 被引量：1
6逯瑞强,马福民,张腾飞.基于区间2-型模糊度量的粗糙K-means聚类算法[J].模式识别与人工智能,2018,31(3):265-274. 被引量：6
7胡晓雪.考虑类结构变动的自适应进化聚类及其在客户细分中的应用[J].数据分析与知识发现,2017,1(12):21-31. 被引量：1
8戴月明,王明慧,张明,王艳.SVD优化初始簇中心的K-means中文文本聚类算法[J].系统仿真学报,2018,30(10):3835-3842. 被引量：10
9马福民,逯瑞强,张腾飞.基于局部密度自适应度量的粗糙K-means聚类算法[J].计算机工程与科学,2018,40(1):184-190. 被引量：15
10龙玉兰.跨界生学习投入的影响因素探究[J].太原城市职业技术学院学报,2018(11):6-8. 被引量：1

西安工程大学学报

2018年第6期

浏览历史

内容加载中请稍等...

基于Hadoop的Canopy-K-means并行算法的学生成绩与毕业流向关系分析被引量：11

参考文献17

二级参考文献131

共引文献1288

同被引文献102

引证文献11

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

基于Hadoop的Canopy-K-means并行算法的学生成绩与毕业流向关系分析 被引量：11

参考文献17

二级参考文献131

共引文献1288

同被引文献102

引证文献11

二级引证文献37

相关作者

相关机构

相关主题

浏览历史

基于Hadoop的Canopy-K-means并行算法的学生成绩与毕业流向关系分析被引量：11