期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于Hadoop、Spark及Flink大规模数据分析的性能评价 被引量:27
1
作者 代明竹 高嵩峰 《中国电子科学研究院学报》 北大核心 2018年第2期149-155,共7页
针对目前缺少大型数据分析框架间的横向比较问题,使用有代表性的大数据工作负载,对Hadoop、Spark和Flink进行性能和可扩展性等因素的比较评价。此外,通过调整工作负载的一些主要参数,例如HDFS块大小、输入数据大小、互连网络或线程配置... 针对目前缺少大型数据分析框架间的横向比较问题,使用有代表性的大数据工作负载,对Hadoop、Spark和Flink进行性能和可扩展性等因素的比较评价。此外,通过调整工作负载的一些主要参数,例如HDFS块大小、输入数据大小、互连网络或线程配置等,描述了这些框架的行为模式特征。实验结果分析表明,对于非排序的基准测试程序,使用Spark或Flink替代Hadoop,分别带来平均77%和70%执行时间的降低。整体上,Spark的性能结果最好;而Flink通过使用的显式迭代程序,极大提高了迭代算法的性能。 展开更多
关键词 大数据 分析框架 基准测试程序 模型
下载PDF
基于考试过程和知识结构的数据挖掘算法研究 被引量:4
2
作者 代明竹 高嵩峰 《计算机科学》 CSCD 北大核心 2018年第B06期437-441,共5页
为了研究学生在不同阶段对知识点的掌握情况,基于对数据挖掘的理论研究,把知识结构与考试成绩相结合来进行数据研究。以教育测量学为基础,结合数据挖掘的决策树算法,针对原有的C4.5算法提出改进算法,应用试卷中涉及到的知识点的难易程... 为了研究学生在不同阶段对知识点的掌握情况,基于对数据挖掘的理论研究,把知识结构与考试成绩相结合来进行数据研究。以教育测量学为基础,结合数据挖掘的决策树算法,针对原有的C4.5算法提出改进算法,应用试卷中涉及到的知识点的难易程度与知识点种类进行知识结构细化,以便确定单个学生或群体学生对知识点的掌握程度和试卷中各知识点之间的关系。结果显示,改进后算法的计算公式比原计算公式简单实用;根据决策树模型,使用剩余数据对计算公式进行验证,能够更快地得出对程序设计这个知识点的掌握是影响成绩相对重要的因素。使用测试数据对已创建的决策树进行验证,准确率为90%。最后对决策树进行可视化展示,为学生的学习安排、教师的教学方案及安排等提供有效的参考。 展开更多
关键词 数据挖掘 决策树 C4.5 知识结构 试卷分析
下载PDF
聚类算法在高校学生微博的应用研究 被引量:2
3
作者 代明竹 高嵩峰 《现代电子技术》 北大核心 2019年第7期177-180,共4页
为研究聚类算法在高校学生微博的应用情况,针对K-means算法和分层聚类算法在聚类中心选择不精确的问题,基于高校学生使用微博的背景,对微博文本挖掘应用中聚类算法的应用进行改进。通过文本的矢量表示、文本相似度计算和聚类算法的实现... 为研究聚类算法在高校学生微博的应用情况,针对K-means算法和分层聚类算法在聚类中心选择不精确的问题,基于高校学生使用微博的背景,对微博文本挖掘应用中聚类算法的应用进行改进。通过文本的矢量表示、文本相似度计算和聚类算法的实现,验证了聚类算法在微博热门话题检测的准确性和效率,并针对实验数据提出几点针对性的措施。 展开更多
关键词 聚类算法 热门话题 微博 高校 文本 算法改进
下载PDF
基于改进蚁群算法的虚拟网络映射优化 被引量:1
4
作者 谢永浩 高嵩峰 代明竹 《计算机科学》 CSCD 北大核心 2017年第S1期312-313,347,共3页
优化了基于改进蚁群算法的虚拟网络映射结果。以最优化应用底层网络的资源,提升虚拟网络映射底层网络的资源利用效率为研究目标,在不需要支持路径分裂底层网络的情况下,提出一种新的基于改进蚁群算法的虚拟网络映射。通过引入高斯过程模... 优化了基于改进蚁群算法的虚拟网络映射结果。以最优化应用底层网络的资源,提升虚拟网络映射底层网络的资源利用效率为研究目标,在不需要支持路径分裂底层网络的情况下,提出一种新的基于改进蚁群算法的虚拟网络映射。通过引入高斯过程模型,加快蚁群优化算法的收敛速度,满足实际应用的实时性要求;并且以映射开销作为适应度函数,最终解决虚拟网络映射问题。实验结果表明,在满足相同准确度的前提下,该算法显著地降低了算法的求解时间,发挥了积极影响。 展开更多
关键词 虚拟网络映射 改进蚁群算法 高斯算法
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部