期刊文献+

数据分析中的数据质量识别 被引量:5

The Identification of Data Quality in Data Analysis
下载PDF
导出
摘要 数据的质量直接影响数据分析的效率和分析结果的可靠性。数据质量包括数据结构质量和给定数据结构后的数据真实性、一致性和完整性。在着重考虑拿到数据之后,从单元格、记录、变量三个角度如何识别数据中潜在的质量问题,并以案例为支撑,介绍了各种可能出现的问题。 The outcome of the data analysis depends heavily on data quality. Data quality consists of the quality of data structure and reliability, consistency and integrity of the data at the given data stucture. This study discusses how to recognize the potential data quality problems from the cells, the records and the variables. We also provide a few real cases for demonstration and description to support our argument.
作者 吴喜之 闫洁
出处 《统计与信息论坛》 2006年第6期12-16,27,共6页 Journal of Statistics and Information
基金 自然科学基金重点项目(10431010) 教育部重点基地重大项目(05JJD910001) 中国人民大学应用统计中心资助。
关键词 数据质量 缺失值 异常值 无效记录 无效变量 data quality missing values abnormal values invalid reoords invalid variables
  • 相关文献

参考文献3

二级参考文献4

  • 1Neena Buck.Eureka: Knowledge Discovery[J]. Software Magazine,2000-2001,20(6):24-29.
  • 2M Jay Norton . Knowledge Discovery in Database[J].Library Trends,1999,48(1):9-12.
  • 3Seth Paul, Nitin Gautam, Raymond Balint. Preparing and Mining Data with Microsoft SQL Server 2000 and Analysis Services [R].Microsoft Corporation,2002.43-79.
  • 4王珏,王任,苗夺谦,郭萌,阮永韶,袁小红,赵凯.基于Rough Set理论的“数据浓缩”[J].计算机学报,1998,21(5):393-400. 被引量:239

共引文献44

同被引文献52

引证文献5

二级引证文献6

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部