期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
多源异构环境下基于层次约简分类的大数据清洗方法研究
1
作者 陈旭 《电脑与电信》 2023年第1期86-90,104,共6页
大数据清洗是数据分析与应用的关键环节之一,针对传统大数据清洗方法缺陷提出一种基于层次约简分类的大数据清洗方法研究。利用大数据清洗原理先判定数据集的属性类别,并建立层次约简分类模型,按照大数据集中值域范围最广的属性确定字... 大数据清洗是数据分析与应用的关键环节之一,针对传统大数据清洗方法缺陷提出一种基于层次约简分类的大数据清洗方法研究。利用大数据清洗原理先判定数据集的属性类别,并建立层次约简分类模型,按照大数据集中值域范围最广的属性确定字符串之间的编辑距离,遍历掉重要性和相关性较弱的干扰数据;采用逆文本词频分割的方式,对大量的冗余数据做聚合处理,进一步降低大数据集冗余程度。实验结果表明,提出方法在数据清理运行时间、查全率和查准率等指标控制方面均有优势。 展开更多
关键词 多元异构 层次约简分类 编辑距离 词频分割 冗余程度
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部