-
题名一个可扩展的数据清洗系统
被引量:11
- 1
-
-
作者
郭志懋
俞荣华
田增平
周傲英
-
机构
复旦大学计算机系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2003年第3期95-96,183,共3页
-
文摘
在给数据挖掘这类应用准备数据的过程中,面临着一系列数据清洗问题。要把数 据清洗过程做得很灵活并不容易,已有的工具往往过于依赖特定的应用。该文提出并实现 了 一个可扩展的数据清洗框架。它以术语模型、过程描述文件、共享库等概念和技术实现 了模 块的高度独立性和系统的可扩展性,并提供了一个可视化的流程定义环境。
-
关键词
数据挖掘
数据库
数据清洗系统
数据标准化
数据集成
可视化
-
Keywords
Data preparation
Data cleaning
Term model
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名数据质量和数据清洗研究综述
被引量:268
- 2
-
-
作者
郭志懋
周傲英
-
机构
复旦大学计算机科学与工程系
复旦大学智能信息处理开放实验室
-
出处
《软件学报》
EI
CSCD
北大核心
2002年第11期2076-2082,共7页
-
基金
国家自然科学基金资助项目(60003016)
霍英东教育基金青年教师基金资助项目
教育部跨世纪优秀人才培养计划资助项目~~
-
文摘
对数据质量,尤其是数据清洗的研究进行了综述.首先说明数据质量的重要性和衡量指标,定义了数据清洗问题.然后对数据清洗问题进行分类,并分析了解决这些问题的途径.最后说明数据清洗研究与其他技术的结合情况,分析了几种数据清洗框架.最后对将来数据清洗领域的研究问题作了展望.
-
关键词
数据质量
数据清洗
数据库系统
数据集成
相似重复记录
-
Keywords
data quality
data cleaning
data integration
duplicate record
data cleaning framework
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名Web服务组合的基于文法的消息处理
被引量:11
- 3
-
-
作者
王晓玲
郭志懋
周傲英
-
机构
复旦大学计算机科学与工程系
-
出处
《计算机学报》
EI
CSCD
北大核心
2005年第4期478-485,共8页
-
基金
国家自然科学基金(60228006)
国家"八六三"高技术研究发展计划项目基金(2002AA116020)
中国科学院软件研究所计算机科学重点实验室开放课题项目基金(SYSKF0408)资助.
-
文摘
Web服务作为一种新型的信息集成架构,已经受到了来自数据库领域和软件工程领域的广泛关注.在Web服务应用中,将多个服务组合成一个能完成复杂商业任务的组合服务技术是企业应用集成(EAI)的关键.在服务组合过程中,两个需要通信的服务之间的消息数据模式经常是不一致的,需要用户程序进行消息内容的获取和重组.这个问题在以往的研究中很少受到关注.该文首次形式化描述了服务间的接口信息处理问题,并且把服务组合中的接口信息处理问题转换为XML数据的处理问题,然后,引入基于文法的处理方法来解决接口数据之间的处理问题.实验表明了基于文法的接口数据处理技术提供了一种方便灵活的消息处理手段,可以解决复杂的信息处理需求,并且有较好的性能.
-
关键词
WEB服务
文法
XML
DTD
-
Keywords
Computational grammars
Data communication systems
Distributed computer systems
Quality of service
XML
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名VXMLR系统存储模式的自适应调整
被引量:1
- 4
-
-
作者
周傲英
胥正川
郭志懋
周水庚
-
机构
复旦大学计算机科学与工程系
复旦大学管理学院信息管理与信息系统系
-
出处
《计算机学报》
EI
CSCD
北大核心
2004年第4期433-441,共9页
-
基金
国家自然科学基金 ( 60 2 2 80 0 6
60 0 0 3 0 0 8)
国家"八六三"高技术研究发展规划项目基金 ( 2 0 0 2AA1160 2 0 )资助
-
文摘
XML管理系统的查询处理效率很大程度上取决于系统中XML数据的存储模式 .在用户查询已知或可预测的情况下 ,根据用户查询设计存储模式可以改善系统的查询处理效率 .该文介绍VXMLR系统存储模式的自适应调整机制 .根据历史查询信息 ,VXMLR系统对其存储模式进行自适应调整 ,从而提高查询处理效率 .其基本思路是 :首先根据历史查询 ,推导出适当的映射规则 ,得到XML文档在关系数据库中的存储模式 ;然后 ,在给定的空间约束下 ,根据历史查询使用背包问题求解算法选择关系表进行垂直分割或冗余存储相关数据 ,使查询所访问的无关数据尽可能少 .VXMLR系统提供四种存储模式调整策略 ,其中两种策略可以实现自适应的存储模式调整 .实验结果表明文中提出的方法是有效的 .
-
关键词
XML
数据管理
存储模式
自适应调整
VXMLR系统
-
Keywords
Adaptive algorithms
Constraint theory
Mapping
XML
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名利用缓存优化关系数据的XML发布
被引量:3
- 5
-
-
作者
邱洋
岳昆
郭志懋
王晓玲
周傲英
-
机构
复旦大学计算机科学与工程系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2004年第10期1802-1808,共7页
-
基金
国家"八六三"高技术研究发展计划基金项目 ( 2 0 0 2AA1160 2 0 )
-
文摘
随着Web的不断发展 ,XML逐渐成为Web数据表示和交换的标准 但是大量企业数据仍然存储在关系数据库中 ,因此必须将关系数据发布成为XML文档并且传送给合作者 目前广泛采用的发布方式是针对每个用户的请求独立完成的 但是这样的发布方法忽视了用户发布请求所具有的相似性 ,导致发布成本高和响应时间长的问题 基于用户发布请求的相似性 ,提出了挖掘频繁发布请求并且缓存中间结果的解决方法 当新的发布请求发出时就可以利用缓存的中间结果 ,从而在很大程度上降低响应时间
-
关键词
XML
发布
属性转换文法
发布请求树
发布根子树
频繁发布根子树
-
Keywords
XML
publishing
ATG
PRT
PRST
FPRST
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-