期刊文献+
共找到5篇文章
< 1 >
每页显示 20 50 100
基于MapReduce的大数据主动学习 被引量:5
1
作者 翟俊海 张素芳 +2 位作者 王聪 沈矗 刘晓萌 《计算机应用》 CSCD 北大核心 2018年第10期2759-2763,共5页
针对传统的主动学习算法只能处理中小型数据集的问题,提出一种基于MapReduce的大数据主动学习算法。首先,在有类别标签的初始训练集上,用极限学习机(ELM)算法训练一个分类器,并将其输出用软最大化函数变换为一个后验概率分布。然后,将... 针对传统的主动学习算法只能处理中小型数据集的问题,提出一种基于MapReduce的大数据主动学习算法。首先,在有类别标签的初始训练集上,用极限学习机(ELM)算法训练一个分类器,并将其输出用软最大化函数变换为一个后验概率分布。然后,将无类别标签的大数据集划分为l个子集,并部署到l个云计算节点上。在每一个节点,用训练出的分类器并行地计算各个子集中样例的信息熵,并选择信息熵大的前q个样例进行类别标注,将标注类别的l×q个样例添加到有类别标签的训练集中。重复以上步骤直到满足预定义的停止条件。在Artificial、Skin、Statlog和Poker 4个数据集上与基于ELM的主动学习算法进行了比较,结果显示,所提算法在4个数据集上均能完成主动样例选择,而基于ELM的主动学习算法只在规模最小的数据集上能完成主动样例选择。实验结果表明,所提算法优于基于极限学习机的主动学习算法。 展开更多
关键词 大数据 主动学习 不确定性 极限学习机 样例选择
下载PDF
大数据与大数据机器学习 被引量:22
2
作者 张素芳 翟俊海 +2 位作者 王聪 沈矗 赵春玲 《河北大学学报(自然科学版)》 CAS 北大核心 2018年第3期299-308,336,共11页
大数据时代已经到来,大数据是指具有海量(Volume)、多样(Variety)、时效(Velocity)、不精确(Veracity)和价值(Value)这5种特征的数据,大数据研究是近几年信息处理领域最热门的研究方向,已经引起了工业界、学术界乃至政府部门的高度关注... 大数据时代已经到来,大数据是指具有海量(Volume)、多样(Variety)、时效(Velocity)、不精确(Veracity)和价值(Value)这5种特征的数据,大数据研究是近几年信息处理领域最热门的研究方向,已经引起了工业界、学术界乃至政府部门的高度关注.大数据之所以备受关注,是因为大数据里面蕴藏着巨大的价值.如何把蕴藏在大数据中的价值挖掘出来,为企业或政府部门提供决策支持具有重要的意义.大数据给传统的机器学习带来了许多挑战,这些挑战可以从大数据的5个特征或从5个不同的角度进行分析.本文首先介绍大数据的概念,并详细剖析大数据5种特征的内涵;然后在此基础上,重点分析大数据给机器学习带来的挑战及可能的解决方法.本文对从事大数据研究的人员,特别是从事大数据机器学习研究的人员具有较高的参考价值. 展开更多
关键词 大数据 机器学习 云计算 决策支持
下载PDF
基于Spark和SimHash的大数据K-近邻分类算法 被引量:3
3
作者 翟俊海 沈矗 +1 位作者 张素芳 王婷婷 《河北大学学报(自然科学版)》 CAS 北大核心 2019年第2期201-210,共10页
在笔者之前的工作中,提出了一种基于MapReduce和SimHash的大数据K-近邻算法(HMR-K-NN).虽然该算法能够有效解决大数据K-近邻算法的计算效率问题,运行时间远远低于基于MapReduce的K-近邻(MR-K-NN)所用的运行时间.然而,用MapReduce处理大... 在笔者之前的工作中,提出了一种基于MapReduce和SimHash的大数据K-近邻算法(HMR-K-NN).虽然该算法能够有效解决大数据K-近邻算法的计算效率问题,运行时间远远低于基于MapReduce的K-近邻(MR-K-NN)所用的运行时间.然而,用MapReduce处理大数据时,需要从磁盘读取数据,再将中间结果写回磁盘,导致系统的I/O开销极大,这大大降低了MapReduce的效率.与MapReduce不同,Spark是一种基于内存的计算框架,它将数据第1次从磁盘读入内存,生成一种抽象的内存对象RDD(resilient distributed datasets).此后,Spark只操作内存中的RDD,计算过程只涉及内存读写,因此大幅提升了数据处理效率.基于这一事实,对算法H-MR-K-NN进行了改进,提出了一种改进的算法(简记为HSpark-K-NN),可以进一步提高大数据K-近邻分类的运行效率. 展开更多
关键词 内存计算框架 K-近邻 哈希技术 分类算法 大数据集
下载PDF
基于MapReduce和Spark的大数据主动学习比较研究 被引量:6
4
作者 翟俊海 齐家兴 +3 位作者 沈矗 宋丹丹 王谟瀚 田石 《计算机工程与科学》 CSCD 北大核心 2019年第10期1715-1722,共8页
在我们以前的工作中,提出了基于MapReduce的大数据主动学习算法。在本文中,将这一算法移植到Spark环境,提出了基于Spark的大数据主动学习算法,并对基于MapReduce和Spark的2种大数据主动学习算法从运行时间、文件数目、同步数目和内存耗... 在我们以前的工作中,提出了基于MapReduce的大数据主动学习算法。在本文中,将这一算法移植到Spark环境,提出了基于Spark的大数据主动学习算法,并对基于MapReduce和Spark的2种大数据主动学习算法从运行时间、文件数目、同步数目和内存耗费4个方面进行了比较研究,得出了一些有价值的结论,这些结论将为相关研究人员提供很好的帮助。 展开更多
关键词 大数据 机器学习 主动学习 样例选择 开源框架
下载PDF
基于AT89C51单片机的计数器设计 被引量:1
5
作者 沈矗 孙妍 《传播力研究》 2019年第3期246-246,共1页
本文利用AT89C51单片机对计数器程序进行设计,并利用数码管、开关、电容、电阻、导线等硬件进行组装,最终与单片机联系起来,使得计数器的计数范围是0—99。设计第一个按键使数码管显示的数字依次累加,再设计一个按键使数字逐个倒退,最... 本文利用AT89C51单片机对计数器程序进行设计,并利用数码管、开关、电容、电阻、导线等硬件进行组装,最终与单片机联系起来,使得计数器的计数范围是0—99。设计第一个按键使数码管显示的数字依次累加,再设计一个按键使数字逐个倒退,最后一个按键可以实现复位。这期间我们还需要将程序设计出来并进行编写,连接电路并进行测试,若出现问题,则需要对其进行反复的修改和测试,最终实现本次设计的基本要求。 展开更多
关键词 计数器 单片机 AT89C51
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部