期刊文献+
共找到55篇文章
< 1 2 3 >
每页显示 20 50 100
Intelligent Data Pre-processing Model in Integrated Ocean Observing Network System
1
作者 韩华 丁永生 刘凤鸣 《Journal of Donghua University(English Edition)》 EI CAS 2009年第5期499-502,共4页
There are a number of dirty data in observation data set derived from integrated ocean observing network system. Thus, the data must be carefully and reasonably processed before they are used for forecasting or analys... There are a number of dirty data in observation data set derived from integrated ocean observing network system. Thus, the data must be carefully and reasonably processed before they are used for forecasting or analysis. This paper proposes a data pre-processing model based on intelligent algorithms. Firstly, we introduce the integrated network platform of ocean observation. Next, the preprocessing model of data is presemed, and an imelligent cleaning model of data is proposed. Based on fuzzy clustering, the Kohonen clustering network is improved to fulfill the parallel calculation of fuzzy c-means clustering. The proposed dynamic algorithm can automatically f'md the new clustering center with the updated sample data. The rapid and dynamic performance of the model makes it suitable for real time calculation, and the efficiency and accuracy of the model is proved by test results through observation data analysis. 展开更多
关键词 integrated ocean observing network intelligentdata pre-processing data cleaning fuzzy soft clustering
下载PDF
协同过滤下混合大数据无损挖掘算法研究 被引量:4
2
作者 卢思安 刘江平 《计算机仿真》 2024年第4期485-488,共4页
大数据具有大规模性、多样性以及价值性,由于海量数据间的较高相似度,导致数据挖掘过程易受冗余干扰,出现数据丢失、损坏等问题。为解决上述问题,提出基于协同过滤算法的混合大数据无损挖掘方法。对混合大数据集成预处理,去除冗余,将不... 大数据具有大规模性、多样性以及价值性,由于海量数据间的较高相似度,导致数据挖掘过程易受冗余干扰,出现数据丢失、损坏等问题。为解决上述问题,提出基于协同过滤算法的混合大数据无损挖掘方法。对混合大数据集成预处理,去除冗余,将不同来源的相同数据无损融合。采用协同过滤算法的时间衰减函数,计算挖掘项目间相似性。在混合大数据特征关联度的约束下,实现混合大数据无损挖掘。实验结果表明,所提方法应用下,混合大数据量高达25000MB时,数据挖掘所需时间仅为45ms左右,且挖掘精度高达95%以上,数据挖掘结果与目标具有一致性。 展开更多
关键词 协同过滤算法 混合大数据 无损挖掘 数据清理 数据集成
下载PDF
数据清理研究 被引量:2
3
作者 张志兵 李华旸 张勇 《计算机工程与应用》 CSCD 北大核心 2004年第28期164-166,共3页
异构数据的数据清理,侧重于重复记录,异常数值的探测,有效地发现数据源中的重复记录、异常等,笔者通过增加过滤条件的方法提高了字符串匹配算法的效率,加快了重复记录的识别,另外在刷新数据仓库的数据提出了增量式算法,有效地减少了比... 异构数据的数据清理,侧重于重复记录,异常数值的探测,有效地发现数据源中的重复记录、异常等,笔者通过增加过滤条件的方法提高了字符串匹配算法的效率,加快了重复记录的识别,另外在刷新数据仓库的数据提出了增量式算法,有效地减少了比较的次数,节省了大量时间并确保数据仓库中数据的质量。文章实现了一个数据清理工具原型—DMCleaner,并用其进行了试验,结果表明采用了这些改进以后,数据清理的速度、效率和正确性都有了很大的提高,数据质量得到了保证。 展开更多
关键词 dmcleaner 数据集成 数据清理
下载PDF
高职院校数据清洗仓湖一体架构的研究
4
作者 肖斌 《福建电脑》 2024年第8期30-35,共6页
为了有效地应对多元化应用对于数据实时性新需求,构建一个适应数据实时性新需求的数据清洗新架构十分必要。ETL和ELT是常用的数据清洗架构,二者在处理数据质量和实时性方面各有其优势和不足。本文设计一种更适应多元化数据应用需求的清... 为了有效地应对多元化应用对于数据实时性新需求,构建一个适应数据实时性新需求的数据清洗新架构十分必要。ETL和ELT是常用的数据清洗架构,二者在处理数据质量和实时性方面各有其优势和不足。本文设计一种更适应多元化数据应用需求的清洗架构,以解决高职院校在数据治理工作中面临的数据质量和数据实时性的平衡问题,为高职院校数据治理提供一个新尝试。 展开更多
关键词 数据治理 数据清洗 仓湖一体
下载PDF
领域无关数据清洗研究综述 被引量:27
5
作者 曹建军 刁兴春 +1 位作者 汪挺 王芳潇 《计算机科学》 CSCD 北大核心 2010年第5期26-29,共4页
对领域无关数据清洗的研究进行了综述。首先阐明了全面数据质量管理、数据集成和数据清洗之间的关系,着重说明了领域无关数据清洗的特点。将领域无关数据清洗方法分为基于特征相似度的方法、基于上下文的方法和基于关系的方法分别介绍... 对领域无关数据清洗的研究进行了综述。首先阐明了全面数据质量管理、数据集成和数据清洗之间的关系,着重说明了领域无关数据清洗的特点。将领域无关数据清洗方法分为基于特征相似度的方法、基于上下文的方法和基于关系的方法分别介绍。最后对领域无关数据清洗的研究方向进行了展望。 展开更多
关键词 数据质量 数据清洗 数据集成 领域无关数据清洗
下载PDF
数据质量和数据清洗研究综述 被引量:268
6
作者 郭志懋 周傲英 《软件学报》 EI CSCD 北大核心 2002年第11期2076-2082,共7页
对数据质量,尤其是数据清洗的研究进行了综述.首先说明数据质量的重要性和衡量指标,定义了数据清洗问题.然后对数据清洗问题进行分类,并分析了解决这些问题的途径.最后说明数据清洗研究与其他技术的结合情况,分析了几种数据清洗框架.最... 对数据质量,尤其是数据清洗的研究进行了综述.首先说明数据质量的重要性和衡量指标,定义了数据清洗问题.然后对数据清洗问题进行分类,并分析了解决这些问题的途径.最后说明数据清洗研究与其他技术的结合情况,分析了几种数据清洗框架.最后对将来数据清洗领域的研究问题作了展望. 展开更多
关键词 数据质量 数据清洗 数据库系统 数据集成 相似重复记录
下载PDF
数据ETL工具通用框架设计 被引量:26
7
作者 周宏广 周继承 +1 位作者 彭银桥 龙思锐 《计算机应用》 CSCD 北大核心 2003年第12期96-98,共3页
异构多数据源集成和数据清洗是将操作数据导入数据仓库过程中面临的两大挑战。从实践角度设计了数据ETL工具的整体框架,使用通用数据访问接口来屏蔽各种数据源之间的差异,并以数据清洗为主要目的,为消除多数据源的模式冲突和数据冲突提... 异构多数据源集成和数据清洗是将操作数据导入数据仓库过程中面临的两大挑战。从实践角度设计了数据ETL工具的整体框架,使用通用数据访问接口来屏蔽各种数据源之间的差异,并以数据清洗为主要目的,为消除多数据源的模式冲突和数据冲突提供了通用而有效的解决方案。 展开更多
关键词 数据ETL 数据集成 数据清洗
下载PDF
中文数据清洗研究综述 被引量:42
8
作者 叶鸥 张璟 李军怀 《计算机工程与应用》 CSCD 2012年第14期121-129,共9页
针对中文数据清洗研究进行了综述。阐明了全面数据质量管理与数据清洗之间的关系,给出数据清洗的定义及对象;介绍中文数据清洗问题产生的背景、国内外研究现状与研究热点,并简介其基本原理、模型及已有算法;着重阐明了中文数据清洗的方... 针对中文数据清洗研究进行了综述。阐明了全面数据质量管理与数据清洗之间的关系,给出数据清洗的定义及对象;介绍中文数据清洗问题产生的背景、国内外研究现状与研究热点,并简介其基本原理、模型及已有算法;着重阐明了中文数据清洗的方法;总结中文数据清洗研究的不足,并对中文数据清洗的研究及应用进行了展望。 展开更多
关键词 中文数据清洗 数据质量管理 数据集成
下载PDF
电子商务商品归一化方法研究 被引量:10
9
作者 王立 张蓉 +2 位作者 沙朝锋 王晓玲 周傲英 《计算机学报》 EI CSCD 北大核心 2014年第2期312-325,共14页
电子商务网站中不断增长的商品数量和商品规模对数据管理提出了新的挑战,其中一项重要基本任务是商品归一化,即识别属于同一个客观实体的所有商品.商品归一化的实现有助于提高商品搜索的准确性、改善用户的体验.但由于在电子商务网站中... 电子商务网站中不断增长的商品数量和商品规模对数据管理提出了新的挑战,其中一项重要基本任务是商品归一化,即识别属于同一个客观实体的所有商品.商品归一化的实现有助于提高商品搜索的准确性、改善用户的体验.但由于在电子商务网站中,特别是在C2C(Customer-to-Customer)模式下,商品信息的数据质量很低且缺乏统一的模式定义规范,导致已有的商品归一化方法难以适用.针对这一问题,文中设计了一种将数据集成、数据清理和商品归一化相结合的混合框架.该框架首先基于图的方法进行模式集成,然后利用商品的描述信息进行数据清理,从而得到数据质量更高且模式统一的商品信息数据;在数据集成和数据清理之后,利用逻辑斯蒂回归(Logistic regression)模型训练分类器,从而得到商品之间的相似度矩阵,最后对相似度矩阵聚类实现商品归一化.通过与已有的方法在真实数据上进行对比实验,验证了文中提出的方法的有效性. 展开更多
关键词 实体识别 模式集成 数据清理 逻辑斯蒂回归 聚类 电子商务中图法
下载PDF
面向ATMS共用信息平台的数据预处理技术的研究 被引量:8
10
作者 季常煦 杨楠 高歌 《交通运输系统工程与信息》 EI CSCD 2005年第3期27-30,70,共5页
对面向ATMS共用信息平台的数据预处理技术进行了探讨.介绍了面向ATMS的共用信息平台的含义以及作用,探讨了面向ATMS共用信息平台的数据预处理技术,从故障识别,故障修复来对动态交通数据预处理方法进行了研究.该研究对于面向ATMS共用信... 对面向ATMS共用信息平台的数据预处理技术进行了探讨.介绍了面向ATMS的共用信息平台的含义以及作用,探讨了面向ATMS共用信息平台的数据预处理技术,从故障识别,故障修复来对动态交通数据预处理方法进行了研究.该研究对于面向ATMS共用信息平台数据预处理提供了依据. 展开更多
关键词 智能运输系统 ATMS共用信息平台 数据清理 数据集成 数据变换 数据归约
下载PDF
基于遗传神经网络的相似重复记录检测方法 被引量:13
11
作者 孟祥逢 鲁汉榕 郭玲 《计算机工程与设计》 CSCD 北大核心 2010年第7期1550-1553,共4页
为了有效解决数据清洗领域中相似重复记录的检测问题,提出了一种基于遗传神经网络的相似重复记录检测方法。该方法计算两条记录对应字段间的相似度,构建基于神经网络的检测模型,利用遗传算法对网络模型的权值进行优化,使用遗传神经网络... 为了有效解决数据清洗领域中相似重复记录的检测问题,提出了一种基于遗传神经网络的相似重复记录检测方法。该方法计算两条记录对应字段间的相似度,构建基于神经网络的检测模型,利用遗传算法对网络模型的权值进行优化,使用遗传神经网络组合多个字段上的相似度来检测相似重复记录。在不同领域数据集上的测试结果表明,该方法能够提高相似重复记录检测的准确率和检测精度。 展开更多
关键词 相似重复记录检测 神经网络 遗传算法 数据清洗 数据集成
下载PDF
一种基于模式的实体解析算法 被引量:6
12
作者 刘辉平 金澈清 周傲英 《计算机学报》 EI CSCD 北大核心 2015年第9期1796-1808,共13页
实体解析是数据融合和数据清洗的关键步骤,旨在从大量的数据集中找出描述相同实体的记录.当前主要有两种基本的解决思路,一种是穷尽式的实体解析,通过两两比较数据集中的所有记录,然后再合并相似的记录,从而找到描述某一个实体的若干记... 实体解析是数据融合和数据清洗的关键步骤,旨在从大量的数据集中找出描述相同实体的记录.当前主要有两种基本的解决思路,一种是穷尽式的实体解析,通过两两比较数据集中的所有记录,然后再合并相似的记录,从而找到描述某一个实体的若干记录集合.然而,该方法的计算复杂度比较高(O(n2),其中n表示数据集合的规模),难以处理大型数据集合.另一种思路是基于分块的实体解析,它调用特定的分块函数(如哈希函数、滑动窗口技术等)将集合中较为相似的记录划分到同一个块中,再仅对属于同一块中的记录进行两两比较.这种方法显著降低了运行时间,但会损失部分精度,因为某些描述同一实体的记录可能没有被分到同一个块中.文中提出了一种基于模式的实体解析算法,通过将相似的记录合并成记录集合并尝试生成对应的记录模式,然后进行模式之间的两两比较来产生一个边界值,以确定对应的记录集合是否需要进行进一步的精确比较,从而判断是否属于同一个实体.与第一种方法相比,该方法可有效地过滤部分不可能相似的记录,从而避免了针对所有数据记录进行两两比较,显著地降低了时间复杂度;与第二种方法相比,该方法并不损失任何精度.基于真实和模拟数据集合的实验结果验证了新方法的执行效率和有效性. 展开更多
关键词 数据融合 数据清洗 实体解析 编辑距离 字符串相似度
下载PDF
数据挖掘中数据预处理技术综述 被引量:42
13
作者 刘莉 徐玉生 马志新 《甘肃科学学报》 2003年第1期117-119,共3页
 数据挖掘是数据库系统和信息决策领域的前沿研究方向.论述了数据预处理在数据挖掘中的重要地位,介绍了数据预处理所包含的内容和采用的方法.
关键词 数据挖掘 数据预处理 数据清理 数据集成 数据归约 数据库系统
下载PDF
数据仓库中的数据集成 被引量:4
14
作者 贾旭光 黄厚宽 黄婉秋 《北方交通大学学报》 CSCD 北大核心 2002年第2期34-39,共6页
首先提出了数据仓库中数据集成的一个总体框架 ;然后探讨了数据集成在数据仓库设计方案中的作用、所要解决的问题、工作流程等 ;最后 ,介绍作者依据这一框架所开发的”铁路货票信息综合利用系统数据仓库解决方案”的数据集成工具DWE DI.
关键词 数据仓库 数据集成 抽取 转换 清理 装载
下载PDF
不一致数据库上带信任标记的查询结果 被引量:2
15
作者 吴爱华 谈子敬 汪卫 《软件学报》 EI CSCD 北大核心 2012年第5期1167-1182,共16页
不一致数据无法正确反映现实世界,其上的查询结果内含错误或矛盾,而现有的很多不一致数据查询处理相关研究都存在信息丢失的问题.AQA(annotation based query answer)针对这一问题采用信任标签在属性级别上区分一致和不一致数据,避免了... 不一致数据无法正确反映现实世界,其上的查询结果内含错误或矛盾,而现有的很多不一致数据查询处理相关研究都存在信息丢失的问题.AQA(annotation based query answer)针对这一问题采用信任标签在属性级别上区分一致和不一致数据,避免了信息丢失.但AQA假设记录在依赖左边属性上的分量可信,且只针对函数依赖一种约束,具有应用局限性.在综合约束(函数依赖、包含依赖和域约束)范围内、不确定属性任意的情况下扩展了AQA,重新审视了AQA的数据模型及其上的查询代数,讨论了任意约束在查询结果上的蕴含约束计算问题.实验结果表明,扩展后的AQA非连接类查询的性能和普通的SQL基本相同,连接查询经优化后性能接近普通SQL查询,但AQA不丢失信息,与部分同类研究相比有很大优势. 展开更多
关键词 不确定数据 数据质量 一致的查询回答 完整性约束 数据清洗
下载PDF
大数据集成中确定数据准确属性值的WR方法 被引量:1
16
作者 周宁南 盛万兴 +2 位作者 刘科研 张孝 王珊 《计算机研究与发展》 EI CSCD 北大核心 2016年第2期449-458,共10页
大数据集成是提供高质量数据以进行决策的基础.集成的一个关键环节是根据实体在数据库中的不同元组确定其准确属性值.最新的R-topK方法在数据上实施人工设计的规则确定属性值间的准确程度,得到了相对准确的属性值.然而这种方法在处理... 大数据集成是提供高质量数据以进行决策的基础.集成的一个关键环节是根据实体在数据库中的不同元组确定其准确属性值.最新的R-topK方法在数据上实施人工设计的规则确定属性值间的准确程度,得到了相对准确的属性值.然而这种方法在处理多个可能的准确值或设计的规则存在冲突等情况下需要较多人工交互.为此提出基于权重规则的WR(weighted-rule)方法确定大数据集成中数据的准确属性值.该方法为属性值间准确程度的判断规则扩充了权重,在准确值发生冲突时避免了R-topK方法中人工交互干预.基于追逐过程设计了约束条件推理算法,并证明它能够在O(n/+2)内推导出每对属性值间的带权重的准确程度,形成推导准确属性值的约束条件.面对约束条件中可能的冲突,提出了目标求解算法,在O(n)时间内从所有属性值组合中搜索最可能的准确属性值.在真实和合成数据集中进行了充分的实验,验证了WR方法的效果和效率.WR方法较R-topK方法在性能上提高了3~15倍,在效果上提升7%~80%. 展开更多
关键词 大数据集成 数据质量 数据准确性 数据清洗 权重规则
下载PDF
医学科研数据仓库的建设 被引量:2
17
作者 翟凤杰 费晓璐 +1 位作者 洪松林 庄映辉 《中国医疗设备》 2013年第12期78-80,共3页
应用面向主题的数据仓库技术,将我院现有的电子化业务数据中有关临床医学的海量数据进行整合,以集成的电子化数据形成医学科研的专用数据仓库。利用该独立的医学科研数据仓库,使得科研人员可对历史的全部海量数据进行在线的、实时的、... 应用面向主题的数据仓库技术,将我院现有的电子化业务数据中有关临床医学的海量数据进行整合,以集成的电子化数据形成医学科研的专用数据仓库。利用该独立的医学科研数据仓库,使得科研人员可对历史的全部海量数据进行在线的、实时的、深入的分析,挖掘和共享临床科研数据,帮助提高各级医学技术人员的科研能力和效率。 展开更多
关键词 医学科研 数据仓库 数据集市 数据清洗 数据整合 数据挖掘
下载PDF
基于业务规则的数据处理技术 被引量:1
18
作者 余晓平 刘丽娅 肖婧 《石河子大学学报(自然科学版)》 CAS 2009年第1期130-132,共3页
以整合银行数据为例,提出了数据处理的二级架构形式。指出数据处理的概念模型设计、数据源分析和数据抽取转换的方法策略。以目标数据为依据,针对数据源中存在的冗余数据和语义冲突数据、不完整数据和错误数据以及格式或定义不一致的数... 以整合银行数据为例,提出了数据处理的二级架构形式。指出数据处理的概念模型设计、数据源分析和数据抽取转换的方法策略。以目标数据为依据,针对数据源中存在的冗余数据和语义冲突数据、不完整数据和错误数据以及格式或定义不一致的数据分别给出清洗的业务规则,使用SQL Server的DTS工具予以实现并上线使用。 展开更多
关键词 业务规则 概念模型 实例整合 数据抽取-清洗-转换
下载PDF
基于数据仓库的ETL过程优化 被引量:13
19
作者 彭璐 《计算机与数字工程》 2010年第5期166-169,共4页
提出一种优化ETL整体过程的方法,包括:其一,针对现有ETL过程的局限性提出一个优化其整体流程的框架EICLF(Extracting/Integrating/Cleaning/Loading/Feedback)流程;其二,对现有相似重复记录的识别算法进行改进;其三,根据清理后得到的干... 提出一种优化ETL整体过程的方法,包括:其一,针对现有ETL过程的局限性提出一个优化其整体流程的框架EICLF(Extracting/Integrating/Cleaning/Loading/Feedback)流程;其二,对现有相似重复记录的识别算法进行改进;其三,根据清理后得到的干净数据对源数据进行反馈处理。 展开更多
关键词 数据仓库 ETL 数据清理 数据集成 EICLF
下载PDF
基于云平台的图书馆书目智能管理系统设计及开发 被引量:4
20
作者 汤雪唯 《现代电子技术》 北大核心 2020年第19期142-145,151,共5页
由于图书馆中书目较多,传统的图书馆书目管理系统不能有效对图书馆书目进行管理,常出现书目误检的现象,为此应用云平台对图书馆书目智能管理系统进行设计及开发。系统的硬件部分主要包括主控模块和通信模块,主控模块主要控制图书馆书目... 由于图书馆中书目较多,传统的图书馆书目管理系统不能有效对图书馆书目进行管理,常出现书目误检的现象,为此应用云平台对图书馆书目智能管理系统进行设计及开发。系统的硬件部分主要包括主控模块和通信模块,主控模块主要控制图书馆书目数量,通信模块主要用来接收与发送图书馆书目信息。系统的软件部分首先整合图书馆书目信息,然后将书目信息按照一定的标准存储,并对读者信息进行管理,最后通过书目清理、书目集成、书目变换和书目归约4个步骤对图书馆书目进行检索,以此完成基于云平台的图书馆书目智能管理系统设计及开发。实验对比结果表明,设计的基于云平台的图书馆书目智能管理系统比传统系统查全率、查准率高,误检数量少,能够抵抗噪声干扰,满足书目智能管理需求。 展开更多
关键词 云平台 图书馆书目 智能管理 书目信息整合 书目检索 数据清理 数据规约
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部