期刊文献+
共找到20篇文章
< 1 >
每页显示 20 50 100
ETL综述 被引量:23
1
作者 缪嘉嘉 邓苏 刘青宝 《计算机工程》 CAS CSCD 北大核心 2004年第3期4-5,21,共3页
阐述了ETL在创建数据仓库过程中的重要地位;分析了整个ETL流程,把它分为数据源验证、数据源改造、一般性变换、装载目标表和数据聚合5个阶段。最后分析了ETL产品现状、现有ETL产品的功能特点,以及今后ETL产品的发展趋势。
关键词 抽取转换和加载 数据仓库 数据集成 元数据
下载PDF
一种基于条件概率分布的近似重复记录检测方法 被引量:3
2
作者 缪嘉嘉 吴刚 +2 位作者 毛捍东 杨强 邓苏 《小型微型计算机系统》 CSCD 北大核心 2004年第12期2164-2168,共5页
数据集成往往会形成一些近似重复记录 ,如何检测重复信息是数据质量研究中的一个热门课题 .文中提出了一种高效的基于条件概率分布的动态聚类算法来进行近似重复记录检测 .该方法在评估两个记录之间是否近似等价的问题上 ,解决了原来的... 数据集成往往会形成一些近似重复记录 ,如何检测重复信息是数据质量研究中的一个热门课题 .文中提出了一种高效的基于条件概率分布的动态聚类算法来进行近似重复记录检测 .该方法在评估两个记录之间是否近似等价的问题上 ,解决了原来的算法忽略序列结构特点的问题 ,基于条件概率分布定义了记录间的距离 ;并根据近邻函数准则选择了一个评议聚类结果质量的准则函数 ,采用动态聚类算法完成对序列数据集的聚类 .使用该方法 ,对仿真数据进行了聚类实验 。 展开更多
关键词 信息集成 近似重复记录 动态聚类 概率后缀树
下载PDF
Deep Web集成中数据模式映射失效检测方法研究 被引量:2
3
作者 缪嘉嘉 李爱平 +1 位作者 贾焰 吴泉源 《计算机研究与发展》 EI CSCD 北大核心 2008年第z1期222-227,共6页
查询接口集成是Deep Web数据集成的关键,在动态环境下,Web数据源的变化会引起数据模式映射的失效,使得查询接口集成维护难度增加,因此数据模式映射失效检测是Deep Web数据集成研究中的热点问题.针对目前数据模式映射失效检测方法的局限... 查询接口集成是Deep Web数据集成的关键,在动态环境下,Web数据源的变化会引起数据模式映射的失效,使得查询接口集成维护难度增加,因此数据模式映射失效检测是Deep Web数据集成研究中的热点问题.针对目前数据模式映射失效检测方法的局限,在模糊聚集算子的研究基础上,提出一种适用于数据模式映射失效检测的结果融合算法.通过实验对比测试,并对映射失效检测方法的性能和效率进行了分析和实验,结果证明了提出的方法对于失效模型的检测是有效的. 展开更多
关键词 DEEP WEB集成 模式映射 模糊聚集算子
下载PDF
一种基于数据流的网络威胁监控框架 被引量:1
4
作者 缪嘉嘉 张瞩熹 +1 位作者 贾焰 吴泉源 《计算机工程与科学》 CSCD 北大核心 2009年第12期23-26,51,共5页
本文基于数据集成和数据流技术,提出一种网络威胁监控框架。该框架复用底层IDS、Fire Wall、Net Flow等系统的监控日志,将安全日志转换为该系统的数据流输入,通过模式映射屏蔽各异构系统的日志异构,使得用户能够在全局视图上进行网络事... 本文基于数据集成和数据流技术,提出一种网络威胁监控框架。该框架复用底层IDS、Fire Wall、Net Flow等系统的监控日志,将安全日志转换为该系统的数据流输入,通过模式映射屏蔽各异构系统的日志异构,使得用户能够在全局视图上进行网络事件查询。该框架的优势在于:(1)复用已有安全日志,避免重复部署网络探测器;(2)使得各分布式系统之间的监测结果能够共享;(3)基于数据流的查询技术能够保障监控的及时性和连续性;(4)通过实验验证了系统良好的扩展性和适应性。 展开更多
关键词 数据流 数据集成 网络监控 入侵检测
下载PDF
低能耗磁光混合归档系统的设计与实现 被引量:1
5
作者 缪嘉嘉 付印金 +1 位作者 余沛毅 毛捍东 《计算机技术与发展》 2017年第8期52-56,共5页
层次型混合归档系统是数据存储领域的研究热点,在工业界也被广泛接受,小到个人存储大到数据中心都在使用混合存储系统。针对大数据中心的能耗问题,引入更为廉价低能耗的光介质存储,建立阵列、在线光盘库、离线光盘库构成的混合归档系统... 层次型混合归档系统是数据存储领域的研究热点,在工业界也被广泛接受,小到个人存储大到数据中心都在使用混合存储系统。针对大数据中心的能耗问题,引入更为廉价低能耗的光介质存储,建立阵列、在线光盘库、离线光盘库构成的混合归档系统,采用低能耗磁光混合的存储架构,在牺牲陈旧文件读取速度的情况下,大幅降低了存储能耗;在研究分析数据的一致性保证机制以及多级存储系统的弹性设计的基础上,针对光介质的读写特性,重点研究了磁光混合归档系统的文件缓存和预取机制。采用基于整体访问频率的数据迁移策略解决了热度文件的访问效率不受影响的问题,采用基于I/O特征预测模型的预取算法,提升了多级存储结构的命中准确度。实验结果表明,所构建的系统能够有效节省能源并可维持数据检索查询的时效性。 展开更多
关键词 低能耗 光盘库 磁光混合 多级存储系统 文件预取 文件缓存
下载PDF
基于可信隔离运行环境的信息资产保护系统 被引量:1
6
作者 缪嘉嘉 尹小虎 +1 位作者 温研 冷健 《信息网络安全》 2009年第10期35-37,40,共4页
针对目前日益严峻的企业信息资产泄漏问题,构建了基于基于可信隔离运行环境的信息资产保护系统,采用本地虚拟化技术实现工作环境与宿主机的运行环境安全隔离,确保核心信息资产不在宿主机存储,其中卷快照和硬件配置迁移技术能保障宿主机... 针对目前日益严峻的企业信息资产泄漏问题,构建了基于基于可信隔离运行环境的信息资产保护系统,采用本地虚拟化技术实现工作环境与宿主机的运行环境安全隔离,确保核心信息资产不在宿主机存储,其中卷快照和硬件配置迁移技术能保障宿主机环境复现;通过企业核心信息资产集中存放和基于特征行为模式的访问控制技术有效的控制信息资产的访问,避免电子信息流传的随意性,能够在不改变用户操作习惯的同时达到信息资产防泄漏的目的。 展开更多
关键词 隔离运行环境 本地虚拟化 信息资产保护 动态迁移 卷快照
下载PDF
信息集成中数据获取关键技术的研究
7
作者 缪嘉嘉 李爱平 +1 位作者 贾焰 吴泉源 《计算机研究与发展》 EI CSCD 北大核心 2007年第z3期452-457,共6页
信息集成是消除信息孤岛,实现信息共享,为企业决策提供支持的核心技术,而数据获取过程是信息集成系统的基础.在数据同步更新研究中,通过根据失配元组的间隔自适应调整窗口大小,在不牺牲效率的前提下有效提高快照差分算法的查全率.进一步... 信息集成是消除信息孤岛,实现信息共享,为企业决策提供支持的核心技术,而数据获取过程是信息集成系统的基础.在数据同步更新研究中,通过根据失配元组的间隔自适应调整窗口大小,在不牺牲效率的前提下有效提高快照差分算法的查全率.进一步,在相似重复记录检测方法的研究中,结合一种新的字符串距离度量算法,并利用二次聚类,提出一种高效的基于条件概率分布的相似重复记录检测方法.最后通过实验对比测试,对快照差分算法以及相似重复记录检测算法的性能和效率进行分析,理论分析和实验结果均证明了提出的改进算法是非常有效的. 展开更多
关键词 数据集成 快照差分算法 相似重复记录检测 概率后缀树
下载PDF
KingCloud:智能对象归档系统
8
作者 缪嘉嘉 付印金 毛捍东 《计算机科学》 CSCD 北大核心 2016年第S2期575-577,596,共4页
随着信息化进程的不断推进,生产系统积累了大量的数据,形成了归档需求;与此同时,数据信息类型不断丰富,非结构化数据的处理是挖掘数据价值的关键。设计并实现了KingCloud智能对象归档系统,通过文档分类技术实现了文本文件的分类,并提供... 随着信息化进程的不断推进,生产系统积累了大量的数据,形成了归档需求;与此同时,数据信息类型不断丰富,非结构化数据的处理是挖掘数据价值的关键。设计并实现了KingCloud智能对象归档系统,通过文档分类技术实现了文本文件的分类,并提供了文档逻辑视图;利用图像识别、视频关键帧提取等技术实现图片和视频文件的内容元数据获取,在整体存储结构上结合文件系统语义研究对文件预取、存储缓存、数据布局和策略感知等方面进行优化,能够对数据进行智能的分类、归纳总结、智能的发现和预测及智能的分析,有效提升了存储系统的服务能力、服务质量和服务性能。 展开更多
关键词 文件系统语义 归档系统 文档分类 数据布局 文件预取
下载PDF
典型Bloom过滤器的研究及其数据流应用 被引量:7
9
作者 袁志坚 陈颖文 +2 位作者 缪嘉嘉 贾焰 杨树强 《计算机工程》 CAS CSCD 北大核心 2009年第7期5-7,共3页
Bloom过滤器是一种空间高效但有一定假阳性的数据表示方法。该文分析比较计数型Bloom过滤器、光谱Bloom过滤器和动态计数过滤器的异同点及适用场合,介绍Bloom过滤器在重复项检测及频繁项挖掘中的应用,总结Bloom过滤器给数据流带来的挑战... Bloom过滤器是一种空间高效但有一定假阳性的数据表示方法。该文分析比较计数型Bloom过滤器、光谱Bloom过滤器和动态计数过滤器的异同点及适用场合,介绍Bloom过滤器在重复项检测及频繁项挖掘中的应用,总结Bloom过滤器给数据流带来的挑战,包括元素突发问题及数据流相异元素数目变化问题。 展开更多
关键词 BLOOM过滤器 计数型Bloom过滤器 光谱Bloom过滤器 动态计数过滤器 数据流
下载PDF
一种面向语义Web的组合服务演化方法研究 被引量:4
10
作者 王晓璇 鲍爱华 +2 位作者 缪嘉嘉 丁科 王真 《计算机科学》 CSCD 北大核心 2011年第2期138-143,151,共7页
为了敏捷、有效地调整动态环境下的组合服务,系统地提出一种面向语义Web的组合服务结构化演化方法EM4CS。EM4CS方法采用OWL-S语言描述的组合式语义Web服务为研究对象,将组合服务演化过程划分为3个部分、6个阶段,分别从演化需求获取、演... 为了敏捷、有效地调整动态环境下的组合服务,系统地提出一种面向语义Web的组合服务结构化演化方法EM4CS。EM4CS方法采用OWL-S语言描述的组合式语义Web服务为研究对象,将组合服务演化过程划分为3个部分、6个阶段,分别从演化需求获取、演化需求形式化表示、语法一致性维护、语义一致性维护、演化结果确认和演化结果发布与传播6个方面覆盖组合服务演化周期。EM4CS方法从系统工程的角度分析组合服务演化过程,以迭代求精的方式逐步实现演化需求,同时维持服务描述语法和语义的一致性。介绍了遵循EM4CS方法的组合服务演化支撑系统ESS4CS,该系统能够全程辅助知识工程师完成组合服务演化工作,能有效地提高组合服务演化的效率和精度。 展开更多
关键词 语义WEB 组合服务演化 组合服务 EM4CS ESS4CS OWL-S
下载PDF
数据库复制技术研究进展 被引量:7
11
作者 杜凯 缪嘉嘉 +1 位作者 杨树强 王怀民 《计算机工程与科学》 CSCD 2008年第7期118-121,135,共5页
在简要说明数据库复制技术目标的基础上,本文重点展开论述了数据库复制中的核心问题、解决方法与研究现状。通过对已有复制协议从不同侧面的分类,本文分析了各种协议不同的性能和可用性特点;通过对lazy和eager两种模式下复制协议的深入... 在简要说明数据库复制技术目标的基础上,本文重点展开论述了数据库复制中的核心问题、解决方法与研究现状。通过对已有复制协议从不同侧面的分类,本文分析了各种协议不同的性能和可用性特点;通过对lazy和eager两种模式下复制协议的深入分析,揭示了技术发展的历史脉络和当前进展;对新兴应用需求进行归纳,得出了数据库复制技术可能的新发展方向。 展开更多
关键词 数据库复制 数据库容错 复制协议
下载PDF
一种基于虚拟隔离机制的安全私有云存储系统 被引量:2
12
作者 鲍爱华 袁晓萍 +1 位作者 陈锋 缪嘉嘉 《计算机科学》 CSCD 北大核心 2014年第1期202-207,216,共7页
云存储技术是云计算领域的重要研究方向,由于存在隐私泄漏和安全问题,公共云存储服务在持有核心数据的组织(如创新型企业、军队)中往往难以得到广泛应用。提出一种基于虚拟隔离机制的安全私有云存储系统VIPCS:系统将物理存储介质和公共... 云存储技术是云计算领域的重要研究方向,由于存在隐私泄漏和安全问题,公共云存储服务在持有核心数据的组织(如创新型企业、军队)中往往难以得到广泛应用。提出一种基于虚拟隔离机制的安全私有云存储系统VIPCS:系统将物理存储介质和公共云存储服务虚拟化为虚拟存储能力,通过集中生命周期管理使其为系统提供服务;系统将文件存储过程划分为元数据管理、文件虚拟存储和文件物理存储3个层面,通过文件重命名、IO透明加解密等方式实现数据安全可靠存储;系统提供基于隔离沙箱技术的安全网盘访问方法,通过虚拟化隔离环境来保证数据安全、可控、可用;系统提出基于有序哈希树的文件双向同步方法来实现数据的高效同步,其离线模式也提高了系统的可用性和适应性。结果表明,系统在可靠性、安全性、可伸缩性和适应性方面具有一定的优势。 展开更多
关键词 云计算 私有云存储 虚拟隔离 沙盒 双向同步
下载PDF
一种基于发布/订阅机制的数据集成方法 被引量:2
13
作者 汪洋 李爱平 +1 位作者 缪嘉嘉 邹鹏 《计算机工程与应用》 CSCD 北大核心 2007年第9期164-166,177,共4页
数据集成包括数据的抽取、转换、加载三个过程。针对当前大多数据集成工具适应性差、源数据端和目的数据端的耦合度太紧和数据不易自动更新的问题,基于发布/订阅机制的消息代理模式提出了一种新型的数据集成体系结构,把数据集成划分为... 数据集成包括数据的抽取、转换、加载三个过程。针对当前大多数据集成工具适应性差、源数据端和目的数据端的耦合度太紧和数据不易自动更新的问题,基于发布/订阅机制的消息代理模式提出了一种新型的数据集成体系结构,把数据集成划分为源数据处理(抽取转换)和目的数据处理(过滤加载)两个过程,不仅实现了数据的可靠异步传输,而且降低了源数据端和目的数据端的耦合度,增加了数据集成的灵活性,并使数据的抽取转换和过滤加载独立、并行执行。实验结果也证明了提出的数据集成方法有效地提高了数据集成的效率。 展开更多
关键词 数据集成 消息代理 发布/订阅 异步传输 同步更新
下载PDF
面向行为的内网空间安全态势建模与分析 被引量:3
14
作者 朱承 缪嘉嘉 毛捍东 《网络与信息安全学报》 2016年第8期17-22,共6页
依据态势的一般理论,结合内网安全的特点,将内网空间划分为物理域、信息域、社会域,提出了面向行为的内网安全态势——PMDV模型。该模型抽象出内网空间物理域和信息域中人(P)、机(M)、数据(D)、虚拟实体(V)等4类行为主体,各类主体及其... 依据态势的一般理论,结合内网安全的特点,将内网空间划分为物理域、信息域、社会域,提出了面向行为的内网安全态势——PMDV模型。该模型抽象出内网空间物理域和信息域中人(P)、机(M)、数据(D)、虚拟实体(V)等4类行为主体,各类主体及其交互定义态势中的核心要素——行为,为面向行为的内网空间安全态势构建提供了依据。在此基础上,进一步给出了面向行为的内网空间安全态势分析平台的结构设计及其实现途径。 展开更多
关键词 网络空间 内网 安全 态势 行为
下载PDF
一种流量无关的数据流突发检测算法
15
作者 袁志坚 张涛 +2 位作者 缪嘉嘉 宋金玉 贾焰 《解放军理工大学学报(自然科学版)》 EI 北大核心 2012年第2期141-146,共6页
针对数据流整体数据量波动剧烈的情况下准确突发检测问题,改进了经典的聚合塔数据结构,提出了一种流量无关的数据流突发检测方法FFBD(flow free burst detection)。该方法使用单个元素数量与总体元素数量的比值作为单个元素滑动窗口内... 针对数据流整体数据量波动剧烈的情况下准确突发检测问题,改进了经典的聚合塔数据结构,提出了一种流量无关的数据流突发检测方法FFBD(flow free burst detection)。该方法使用单个元素数量与总体元素数量的比值作为单个元素滑动窗口内的聚合函数值,并使用前后2个滑动窗口内的聚合函数的比值来判断突发,该数据结构能够高效支持弹性窗口时间跨度不大的应用场景。实验结果证明,与典型的聚合塔突发检测方法相比,FFBD方法虽然多使用了2%的存储空间、提高了5%的计算复杂度,但能有效地规避整体数据流的显著变化对单个元素突发检测带来的影响,有着更好的检测效果。 展开更多
关键词 流量无关 数据流 突发检测 比例聚合塔
下载PDF
基于网格聚类的数据流多事件检测
16
作者 袁志坚 缪嘉嘉 +1 位作者 杜凯 贾焰 《计算机工程与科学》 CSCD 2008年第9期82-85,共4页
事件检测是事件处理系统最重要的研究问题之一。异常、变化和突发是三类最典型的数据流事件。本文关注如何在数据流中同时检测多种事件,首先研究了多种事件之间的联系,然后给出了基于网格聚类的统一处理方法,最后为了评估事件的严重程度... 事件检测是事件处理系统最重要的研究问题之一。异常、变化和突发是三类最典型的数据流事件。本文关注如何在数据流中同时检测多种事件,首先研究了多种事件之间的联系,然后给出了基于网格聚类的统一处理方法,最后为了评估事件的严重程度,给出了打分函数。实验验证了所提方法的正确性与有效性。 展开更多
关键词 数据流 数据挖掘 事件检测 网格聚类
下载PDF
机动车辆装载问题的一种混合遗传算法实现 被引量:3
17
作者 陈晨 缪嘉嘉 +1 位作者 李爱平 吴泉源 《计算机应用研究》 CSCD 北大核心 2007年第9期34-36,共3页
针对货物装载地和运送目的地均已确定情况下的车辆装载问题,给出了基于遗传算法求解的数学模型,并对基本遗传算法的各个算子针对问题的特点提出了改进方法,同时引入启发式策略,形成了一种混合遗传算法。该算法的特点是各个算子都以提高... 针对货物装载地和运送目的地均已确定情况下的车辆装载问题,给出了基于遗传算法求解的数学模型,并对基本遗传算法的各个算子针对问题的特点提出了改进方法,同时引入启发式策略,形成了一种混合遗传算法。该算法的特点是各个算子都以提高算法收敛速度和解的最优性为目标,同时种群大小是动态变化的,以求在保证群体多样性的同时加快收敛速度。实验结果表明,该算法对求解此类问题是有效的。 展开更多
关键词 车辆装载 混合遗传算法 算子优化 启发式策略
下载PDF
一种企业应用集成中的数据集成方案的研究与实现 被引量:1
18
作者 陈晨 缪嘉嘉 +1 位作者 李爱平 吴泉源 《计算机工程与科学》 CSCD 2006年第z2期90-92,96,共4页
本文针对企业应用集成中数据集成模式的局限,提出了一种新型的基于构件和消息代理模式的数据集成方案.首先给出该数据集成方案的体系结构,然后对数据集成中的关键技术进行研究.本方案中的数据抽取、转换和加载部分都以构件的形式集成在... 本文针对企业应用集成中数据集成模式的局限,提出了一种新型的基于构件和消息代理模式的数据集成方案.首先给出该数据集成方案的体系结构,然后对数据集成中的关键技术进行研究.本方案中的数据抽取、转换和加载部分都以构件的形式集成在系统中,使得数据的抽取、转换和加载可以独立、并行执行,加快了数据集成的效率;同时,在数据抽取过程当中运用消息代理模式,通过根据匹配元组的间隔自适应调整窗口大小,有效提高了快照差分算法的效率,并通过消息构件实现数据的可靠异步传输,增强了数据集成的灵活性.实验结果表明了本方案的有效性. 展开更多
关键词 企业应用集成 数据集成 快照差分算法 消息代理模式
下载PDF
一种基于 CORBA的异构数据源集成系统的设计与实现
19
作者 齐贤红 缪嘉嘉 +2 位作者 李爱平 贾焰 杜娟 《南京大学学报(自然科学版)》 CAS CSCD 北大核心 2005年第z1期227-233,共7页
许多企业存在原有信息系统之间不能共享数据,不能充分利用信息资源进行辅助决策的问题.而基于CORBA的异构数据源集成的EAI解决方案很好的解决这些问题.它以CORBA技术为核心,实现了不同操作系统之间和不同开发语言之间的互操作,在此基础... 许多企业存在原有信息系统之间不能共享数据,不能充分利用信息资源进行辅助决策的问题.而基于CORBA的异构数据源集成的EAI解决方案很好的解决这些问题.它以CORBA技术为核心,实现了不同操作系统之间和不同开发语言之间的互操作,在此基础上,应用XML来解决不同数据库之间的数据转换问题.在实现上采用基于事件驱动和构件化的方法,使用户只需通过可视化的建模工具,针对不同的应用建立不同的模型,复杂的实现则交给系统去完成,让开发人员从繁重的开发、编程过程中解脱出来,集中精力于业务逻辑. 展开更多
关键词 CORBA 平台异构性 异构数据源 XML
下载PDF
Log integration on large scale for global networking monitoring
20
作者 缪嘉嘉 吴泉源 贾焰 《Journal of Central South University》 SCIE EI CAS 2009年第6期976-981,共6页
Supposing that the overall situation is dug out from the distributed monitoring nodes,there should be two critical obstacles,heterogenous schema and instance,to integrating heterogeneous data from different monitoring... Supposing that the overall situation is dug out from the distributed monitoring nodes,there should be two critical obstacles,heterogenous schema and instance,to integrating heterogeneous data from different monitoring sensors. To tackle the challenge of heterogenous schema,an instance-based approach for schema mapping,named instance-based machine-learning (IML) approach was described. And to solve the problem of heterogenous instance,a novel approach,called statistic-based clustering (SBC) approach,which utilized clustering and statistics technologies to match large scale sources holistically,was also proposed. These two algorithms utilized the machine-leaning and clustering technology to improve the accuracy. Experimental analysis shows that the IML approach is more precise than SBC approach,reaching at least precision of 81% and recall rate of 82%. Simulation studies further show that SBC can tackle large scale sources holistically with 85% recall rate when there are 38 data sources. 展开更多
关键词 网络监测 大规模集成电路 登录 机器学习 统计技术 SBC 监控节点 异构数据
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部