期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
大数据云清洗系统的设计与实现 被引量:1
1
作者 黄沈滨 王海洁 朱振华 《智能计算机与应用》 2015年第3期88-90,共3页
数据清洗是大数据中一个重要的主题。本文基于Hadoop设计并实现了一个大数据的云清洗系统。通过Map-Reduce计算模型,该系统能够检测并修复数据质量方面的各类问题。该系统包含以下特征:(1)支持数据质量方面各类问题的清洗工作;(2)数据... 数据清洗是大数据中一个重要的主题。本文基于Hadoop设计并实现了一个大数据的云清洗系统。通过Map-Reduce计算模型,该系统能够检测并修复数据质量方面的各类问题。该系统包含以下特征:(1)支持数据质量方面各类问题的清洗工作;(2)数据云清洗进度可视化以及参数设置;(3)友好的数据集输入接口以及清洗后的数据集输出接口。该大数据云清洗系统对文本数据和数据库数据均是一个有效且高效的数据清洗系统。 展开更多
关键词 大数据 数据质量 云清洗 MAP-REDUCE
下载PDF
基于Map-Reduce的大数据缺失值填充算法 被引量:18
2
作者 金连 王宏志 +1 位作者 黄沈滨 高宏 《计算机研究与发展》 EI CSCD 北大核心 2013年第S1期312-321,共10页
缺失值大量存在于现实数据库中,这不仅严重影响了信息查询质量,还会扭曲数据挖掘与数据分析结论,进而误导决策.解决这一问题的最佳方法是预先填充这些丢失的数据.给出了一种基于概率推理的填充分类属性的算法.推理过程是在一个基于属性... 缺失值大量存在于现实数据库中,这不仅严重影响了信息查询质量,还会扭曲数据挖掘与数据分析结论,进而误导决策.解决这一问题的最佳方法是预先填充这些丢失的数据.给出了一种基于概率推理的填充分类属性的算法.推理过程是在一个基于属性相关性而建立起来的贝叶斯网中完成.为实现大数据处理的并行化,在Map-Reduce框架中给出这两个算法.实验部分分别验证了贝叶斯网构建方法和概率推理对分类数据处理的有效性,以及算法在hadoop中运行的并行化程度. 展开更多
关键词 缺失值填充 概率推理 MAP-REDUCE
下载PDF
基于马尔科夫随机场的粘连字符串切分算法 被引量:5
3
作者 杨庆海 卢波 +2 位作者 颜子夜 黄沈滨 王海洁 《计算机工程》 CAS CSCD 2013年第4期258-262,共5页
粘连字符串模式复杂,难以通过基于传统图像处理的方法进行准确分割,针对该问题,提出一种基于机器学习的粘连字符串切分方法。包括训练和分割2个部分,对字符串之间的分割位置进行学习,对于输入的粘连字符串,利用马尔科夫随机场网络得到... 粘连字符串模式复杂,难以通过基于传统图像处理的方法进行准确分割,针对该问题,提出一种基于机器学习的粘连字符串切分方法。包括训练和分割2个部分,对字符串之间的分割位置进行学习,对于输入的粘连字符串,利用马尔科夫随机场网络得到各点可作为分割点的概率,在概率图上使用图像分割的算法确定分割位置。实验结果表明,该算法对模拟的粘连字符串、重叠字符串和真实的手写字符串都可以得到较好的分割结果。 展开更多
关键词 字符串切分 粘连字符串 机器学习 马尔科夫随机场 信念传播 概率图
下载PDF
分布式数据不一致性检测的实现与优化
4
作者 王海洁 黄沈滨 朱振华 《智能计算机与应用》 2015年第3期57-60,64,共5页
数据的不一致性检测是数据清洗中一个重要的主题。传统集中式数据的不一致性检测问题可以使用基于SQL的技术得到解决,而对于分布式的数据,往往面临着诸多挑战。目前研究者提出了基于函数条件依赖的不一致性检测技术对该问题进行了深入研... 数据的不一致性检测是数据清洗中一个重要的主题。传统集中式数据的不一致性检测问题可以使用基于SQL的技术得到解决,而对于分布式的数据,往往面临着诸多挑战。目前研究者提出了基于函数条件依赖的不一致性检测技术对该问题进行了深入研究,将分布式不一致性检测问题转化成最优化问题,并提出了若干可行的解决算法。本文介绍了分布式数据下的基于函数条件依赖的不一致性检测问题,并实现了基于最优化问题的分布式检测算法,最后组织相关实验进行验证和改进。 展开更多
关键词 分布式数据 不一致性 条件函数依赖 最优化
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部