-
题名大数据云清洗系统的设计与实现
被引量:1
- 1
-
-
作者
黄沈滨
王海洁
朱振华
-
机构
哈尔滨工业大学网络与信息中心
哈尔滨工业大学计算机科学与技术学院
-
出处
《智能计算机与应用》
2015年第3期88-90,共3页
-
基金
国家自然科学基金(61173022)
-
文摘
数据清洗是大数据中一个重要的主题。本文基于Hadoop设计并实现了一个大数据的云清洗系统。通过Map-Reduce计算模型,该系统能够检测并修复数据质量方面的各类问题。该系统包含以下特征:(1)支持数据质量方面各类问题的清洗工作;(2)数据云清洗进度可视化以及参数设置;(3)友好的数据集输入接口以及清洗后的数据集输出接口。该大数据云清洗系统对文本数据和数据库数据均是一个有效且高效的数据清洗系统。
-
关键词
大数据
数据质量
云清洗
MAP-REDUCE
-
Keywords
Big Data
Data Quality
Cloud Clean
Map-Reduce
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Map-Reduce的大数据缺失值填充算法
被引量:18
- 2
-
-
作者
金连
王宏志
黄沈滨
高宏
-
机构
哈尔滨工业大学计算机科学与技术学院
哈尔滨工业大学网络与信息中心
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2013年第S1期312-321,共10页
-
基金
国家"九七三"重点基础研究发展计划基金项目(2012CB316200)
国家自然科学基金项目(61003046
+5 种基金
61111130189)
国家"八六三"高技术研究发展计划基金项目(2012AA011004)
国家博士后基金项目(20090450126
201003447)
高等学校博士点专项科研基金项目(20102302120054)
哈尔滨工业大学优秀青年教师培养计划基金项目(HITQNJS.2009.052)
-
文摘
缺失值大量存在于现实数据库中,这不仅严重影响了信息查询质量,还会扭曲数据挖掘与数据分析结论,进而误导决策.解决这一问题的最佳方法是预先填充这些丢失的数据.给出了一种基于概率推理的填充分类属性的算法.推理过程是在一个基于属性相关性而建立起来的贝叶斯网中完成.为实现大数据处理的并行化,在Map-Reduce框架中给出这两个算法.实验部分分别验证了贝叶斯网构建方法和概率推理对分类数据处理的有效性,以及算法在hadoop中运行的并行化程度.
-
关键词
缺失值填充
概率推理
MAP-REDUCE
-
Keywords
missing value imputation
probabilistic reasoning
Map-Reduce
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于马尔科夫随机场的粘连字符串切分算法
被引量:5
- 3
-
-
作者
杨庆海
卢波
颜子夜
黄沈滨
王海洁
-
机构
哈尔滨工业大学网络与信息中心
华润万东医疗装备股份有限公司
-
出处
《计算机工程》
CAS
CSCD
2013年第4期258-262,共5页
-
文摘
粘连字符串模式复杂,难以通过基于传统图像处理的方法进行准确分割,针对该问题,提出一种基于机器学习的粘连字符串切分方法。包括训练和分割2个部分,对字符串之间的分割位置进行学习,对于输入的粘连字符串,利用马尔科夫随机场网络得到各点可作为分割点的概率,在概率图上使用图像分割的算法确定分割位置。实验结果表明,该算法对模拟的粘连字符串、重叠字符串和真实的手写字符串都可以得到较好的分割结果。
-
关键词
字符串切分
粘连字符串
机器学习
马尔科夫随机场
信念传播
概率图
-
Keywords
string segmentation
touched string
machine learning
Markov random filed
belief propagation
probability map
-
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
-
-
题名分布式数据不一致性检测的实现与优化
- 4
-
-
作者
王海洁
黄沈滨
朱振华
-
机构
哈尔滨工业大学网络与信息中心
哈尔滨工业大学计算机科学与技术学院
-
出处
《智能计算机与应用》
2015年第3期57-60,64,共5页
-
基金
国家自然科学基金(61173022)
-
文摘
数据的不一致性检测是数据清洗中一个重要的主题。传统集中式数据的不一致性检测问题可以使用基于SQL的技术得到解决,而对于分布式的数据,往往面临着诸多挑战。目前研究者提出了基于函数条件依赖的不一致性检测技术对该问题进行了深入研究,将分布式不一致性检测问题转化成最优化问题,并提出了若干可行的解决算法。本文介绍了分布式数据下的基于函数条件依赖的不一致性检测问题,并实现了基于最优化问题的分布式检测算法,最后组织相关实验进行验证和改进。
-
关键词
分布式数据
不一致性
条件函数依赖
最优化
-
Keywords
Distributed Data
Inconsistency
Conditional Functional Dependency
Optimizations
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-