期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于函数依赖与条件约束的数据修复方法 被引量:16
1
作者 金澈清 刘辉平 周傲英 《软件学报》 EI CSCD 北大核心 2016年第7期1671-1684,共14页
随着经济与信息技术的发展,在许多应用中均产生大量数据.然而,受硬件设备、人工操作、多源数据集成等诸多因素的影响,在这些应用之中往往存在较为严重的数据质量问题,特别是不一致性问题,从而无法有效管理数据.因此,首要的任务就是开发... 随着经济与信息技术的发展,在许多应用中均产生大量数据.然而,受硬件设备、人工操作、多源数据集成等诸多因素的影响,在这些应用之中往往存在较为严重的数据质量问题,特别是不一致性问题,从而无法有效管理数据.因此,首要的任务就是开发新型数据清洗技术来提升数据质量,以支持后续的数据管理与分析.现有工作主要研究基于函数依赖的数据修复技术,即以函数依赖来描述数据一致性约束,通过变更数据库中部分元组的属性值(而非增加/删除元组)来使得整个数据库遵循函数依赖集合.从一致性约束描述的角度来看,函数依赖并非是唯一的表达方式,还存在其他表达方式,例如硬约束、数量约束、等值约束、非等值约束等.然而,随着一致性约束种类的增加,其处理难度也远比仅有函数依赖的场景要困难.考虑以函数依赖与其他一致性约束共同表述数据库的一致性约束,并在此基础上设计数据修复算法,从而提升数据质量.实验结果表明,所提方法的执行效率较高. 展开更多
关键词 数据质量 数据修复 函数依赖 条件约束 等价类
下载PDF
面向海量低质手机轨迹数据的重要位置发现 被引量:3
2
作者 章志刚 金澈清 +1 位作者 王晓玲 周傲英 《软件学报》 EI CSCD 北大核心 2016年第7期1700-1714,共15页
重要位置是指人们在日常生活中的主要活动地点,比如居住地和工作地.智能手机的不断发展与普及为人们的日常生活带来了极大的便利.除了通话、上网等传统应用之外,手机连接基站自动生成的日志记录也是用于用户行为模式挖掘的重要数据来源... 重要位置是指人们在日常生活中的主要活动地点,比如居住地和工作地.智能手机的不断发展与普及为人们的日常生活带来了极大的便利.除了通话、上网等传统应用之外,手机连接基站自动生成的日志记录也是用于用户行为模式挖掘的重要数据来源,例如重要位置发现.然而,相关工作面临着诸多挑战,包括轨迹数据规模庞大、位置精度低以及手机用户的多样性.为此,提出了一个通用解决框架以提高轨迹数据可用性.该框架包含一个基于状态的过滤模块,提高了数据的可用性,以及一个重要位置挖掘模块.基于此框架设计了两种分布式挖掘算法:GPMA(grid-based parallel mining algorithm)和SPMA(station-based parallel mining algorithm).进一步地,为提高挖掘结果的准确性和精确度,从3个方面进行优化:(1)使用多元数据的融合技术,提高结果的准确性;(2)提出了无工作地人群的发现算法;(3)提出了夜间工作人群的发现算法.理论分析和实验结果表明,所提算法具有较高的执行效率和可扩展性,并具有更高的精度. 展开更多
关键词 低质 轨迹挖掘 重要位置 数据修正
下载PDF
基于移动轨迹数据的商圈消费者规模分析 被引量:2
3
作者 刘志 刘辉平 +1 位作者 赵大鹏 王晓玲 《华东师范大学学报(自然科学版)》 CAS CSCD 北大核心 2017年第4期97-113,138,共18页
随着城市化的推进以及大数据技术的不断发展,智慧商圈成为智慧城市建设的重要组成部分.智慧商圈的热门程度、消费者的规模、消费层次等因素成为智慧商圈建设的关注热点.然而,传统的消费者规模的统计,还是基于传统的问卷调查或者抽样等,... 随着城市化的推进以及大数据技术的不断发展,智慧商圈成为智慧城市建设的重要组成部分.智慧商圈的热门程度、消费者的规模、消费层次等因素成为智慧商圈建设的关注热点.然而,传统的消费者规模的统计,还是基于传统的问卷调查或者抽样等,这些方法不仅成本昂贵而且效率低下.但随着数据挖掘技术的发展,使得通过分析用户行为轨迹来确定商圈消费者规模成为可能.本文提出了一种基于轨迹数据分析的商圈消费者规模分析方法.本文的主要工作包括:①在轨迹数据中,如何确定商圈的边界这是一个首要的问题,基于此,才能确定一位消费者是在商圈内活动,还是在商圈外面.本文提出了根据商圈内基站点的位置分布,运用k-Nearest Neighbor(kNN)分类算法,对该商圈的范围进行圈定的方法.②由于轨迹数据的不确定性特点,确定一个用户与商圈的关系也是一个难题.本文利用计算不规则多边形面积的方法计算基站点的权重值,结合时间阈值分析该区域内每天的消费者规模.③最后,鉴于轨迹数据的海量性,本文提出了一个大数据计算框架BPDA(Business-Circle Parallel Distributed Algorithm),基于Hadoop大数据处理平台和Kafka分布式消息系统,实现了基于移动轨迹数据的商圈消费者规模分析系统,并使用中山公园商圈基站数据,展示了本文所提方法的可行性. 展开更多
关键词 移动轨迹数据 消费者规模分析 KNN分类算法 商圈轮廓
下载PDF
Crypt-JDBC模型:洋葱加密算法的优化改进 被引量:4
4
作者 陈鹤 田秀霞 +1 位作者 袁培森 金澈清 《计算机科学与探索》 CSCD 北大核心 2017年第8期1246-1257,共12页
CryptDB是一种典型的密文存储技术,它根据运算操作语义使用洋葱加密算法将SQL语句改写到不同的洋葱密文列,从而仅暴露数据的部分属性即可执行查询任务。针对洋葱加密算法的不足之处提出了一种名为Crypt-JDBC的改进模型:(1)鉴于洋葱层数... CryptDB是一种典型的密文存储技术,它根据运算操作语义使用洋葱加密算法将SQL语句改写到不同的洋葱密文列,从而仅暴露数据的部分属性即可执行查询任务。针对洋葱加密算法的不足之处提出了一种名为Crypt-JDBC的改进模型:(1)鉴于洋葱层数多,且相邻层功能差异大,新模型把洋葱列分为主列与辅助列,并压缩洋葱层的改进方法(主列使用双向算法可还原明文,辅助列使用单向算法提供属性,保证安全性);(2)鉴于等值连接算法复杂低效,新模型通过简化一个关键模块(差异性转换)来降低复杂度;(3)鉴于列名的明文、密文名称对应性弱,新模型重新设计了明密文列名称的对应关系,减少了上下文信息,加强了密钥整体性。实现了Crypt-JDBC模型,用JDBC替换中间件软件MySQL-Proxy。实验结果表明,该模型具有较高的执行效率。 展开更多
关键词 CryptDB 加密数据库 Crypt-JDBC模型 洋葱加密算法 密文数据库
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部