科学研究在经历了实验科学、理论科学、计算科学阶段后,进入了数据密集型科学阶段,与之相伴的是大数据时代的到来.大数据泛指规模达到几百TB,甚至PB级的数据①,其典型的特征是分布、异构、低质量等.尽管传统数据库管理技术(特别是商业...科学研究在经历了实验科学、理论科学、计算科学阶段后,进入了数据密集型科学阶段,与之相伴的是大数据时代的到来.大数据泛指规模达到几百TB,甚至PB级的数据①,其典型的特征是分布、异构、低质量等.尽管传统数据库管理技术(特别是商业关系型数据库)在过去40年间取得了巨大成功,但是这些技术和系统无法有效管理支持数据密集型科学与工程(Data-Intensive Science and Engineering,DISE)的大数据.文中探讨数据密集型科学与工程的具体需求和现实挑战.它涵盖的内容表现在4个层面,包括数据存储与组织、计算方法、数据分析以及用户接口技术等.同时,数据质量、数据安全、数据监护等内容也需要在各层面得到重视.文中尝试梳理了数据密集型科学与工程的整体架构,回顾了相关领域的新近发展,分析了面临的挑战,探讨了未来的研究方向.展开更多
在许多KDD(knowledge discovery in databases)应用中,如电子商务中的欺诈行为监测,例外情况或离群点的发现比常规知识的发现更有意义.现有的离群点发现大多是针对数值属性的,而且这些方法只能发现离群点不能对其含义进行解释.提出了一...在许多KDD(knowledge discovery in databases)应用中,如电子商务中的欺诈行为监测,例外情况或离群点的发现比常规知识的发现更有意义.现有的离群点发现大多是针对数值属性的,而且这些方法只能发现离群点不能对其含义进行解释.提出了一种基于超图模型的离群点(outlier)定义,这一定义既体现了“局部”的概念能很好地解释离群点的含义.同时给出了HOT(hypergraph-based outlier test)算法,通过计算每个点的支持度、隶属度和规模偏差来检测离群点.该算法既能够处理数值属性,又能够处理类别属性.分析表明,该算法能有效地发现高维空间数据中的离群点.展开更多
提出了一种存储方法 ,首先把 XML 文档映射为泛关系模式 ,再利用算法 Derive FDs推导出 XML 键所蕴含的泛关系模式上函数依赖集的规范覆盖 ,根据此规范覆盖 ,最后将泛关系模式保持函数依赖地分解为 3NF模式集 .得到了保持 XML 键约束的...提出了一种存储方法 ,首先把 XML 文档映射为泛关系模式 ,再利用算法 Derive FDs推导出 XML 键所蕴含的泛关系模式上函数依赖集的规范覆盖 ,根据此规范覆盖 ,最后将泛关系模式保持函数依赖地分解为 3NF模式集 .得到了保持 XML 键约束的规范化存储模式 ,实现了 XML 文档在关系数据库中的规范化存储 .展开更多
Skyline计算是要发现数据集中不被其他点支配的所有点的集合.近来,它在实时在线服务方面的良好应用前景,使其成为数据库研究领域的一个热点.实际应用中,用户通常期望快速、渐进地返回Skyline计算结果,因此文中主要讨论了高维空间子空间S...Skyline计算是要发现数据集中不被其他点支配的所有点的集合.近来,它在实时在线服务方面的良好应用前景,使其成为数据库研究领域的一个热点.实际应用中,用户通常期望快速、渐进地返回Skyline计算结果,因此文中主要讨论了高维空间子空间Skyline渐进查询问题.据我们所知,现有的Skyline计算方法都不能直接或者通过简单修改来高效解决该种查询问题.BNL(Blocked Nested Loop)算法是一个可用来进行子空间Skyline计算的算法,但是,该方法低效且非渐进.基于此,文中提出了在线高效子空间Skyline算法——CSky(Count the Skyline).该算法充分利用了一个新颖数据结构——InvertS的特征,即通过对目标数据集进行排序,存放最可能为Skyline点的数据于算法优先扫描的位置,这使得CSky算法能高效计算出任意子空间上的Skyline;同时,CSky每次计算子空间Skyline查询时,至多访问一遍数据库;再有,算法扫描一个点时,只需和当前已发现的Skyline点进行比较即能判断该点是否为Skyline点,保证了算法的渐进性.这样,相比BNL,CSky大大减少了计算开销,具有其他基于索引的Skyline算法计算Skyline时的高效,且这种高效适用于所有子空间.理论分析和实验表明,在解决高维空间子空间Skyline查询问题方面,CSky性能大大优于BNL.展开更多
微服务架构降低应用模块之间的耦合度,有利于复杂应用系统的开发、部署和运维。但相比于单体应用其资源的访问控制也变得更加复杂。对微服务架构下的资源访问控制需求进行分析,提出一种基于角色的访问控制模型——MSAM(Microservice of ...微服务架构降低应用模块之间的耦合度,有利于复杂应用系统的开发、部署和运维。但相比于单体应用其资源的访问控制也变得更加复杂。对微服务架构下的资源访问控制需求进行分析,提出一种基于角色的访问控制模型——MSAM(Microservice of Authority Management)。该模型具有对用户授予和屏蔽权限、数据权限和服务实例权限等特征,能够很好地满足微服务架构下的资源访问控制需求。讨论访问控制模型的实现,对比集中式鉴权与独立式鉴权两种实现的优缺点,说明不同实现方式所适用的场景。展开更多
文摘科学研究在经历了实验科学、理论科学、计算科学阶段后,进入了数据密集型科学阶段,与之相伴的是大数据时代的到来.大数据泛指规模达到几百TB,甚至PB级的数据①,其典型的特征是分布、异构、低质量等.尽管传统数据库管理技术(特别是商业关系型数据库)在过去40年间取得了巨大成功,但是这些技术和系统无法有效管理支持数据密集型科学与工程(Data-Intensive Science and Engineering,DISE)的大数据.文中探讨数据密集型科学与工程的具体需求和现实挑战.它涵盖的内容表现在4个层面,包括数据存储与组织、计算方法、数据分析以及用户接口技术等.同时,数据质量、数据安全、数据监护等内容也需要在各层面得到重视.文中尝试梳理了数据密集型科学与工程的整体架构,回顾了相关领域的新近发展,分析了面临的挑战,探讨了未来的研究方向.
文摘提出了一种存储方法 ,首先把 XML 文档映射为泛关系模式 ,再利用算法 Derive FDs推导出 XML 键所蕴含的泛关系模式上函数依赖集的规范覆盖 ,根据此规范覆盖 ,最后将泛关系模式保持函数依赖地分解为 3NF模式集 .得到了保持 XML 键约束的规范化存储模式 ,实现了 XML 文档在关系数据库中的规范化存储 .
文摘Skyline计算是要发现数据集中不被其他点支配的所有点的集合.近来,它在实时在线服务方面的良好应用前景,使其成为数据库研究领域的一个热点.实际应用中,用户通常期望快速、渐进地返回Skyline计算结果,因此文中主要讨论了高维空间子空间Skyline渐进查询问题.据我们所知,现有的Skyline计算方法都不能直接或者通过简单修改来高效解决该种查询问题.BNL(Blocked Nested Loop)算法是一个可用来进行子空间Skyline计算的算法,但是,该方法低效且非渐进.基于此,文中提出了在线高效子空间Skyline算法——CSky(Count the Skyline).该算法充分利用了一个新颖数据结构——InvertS的特征,即通过对目标数据集进行排序,存放最可能为Skyline点的数据于算法优先扫描的位置,这使得CSky算法能高效计算出任意子空间上的Skyline;同时,CSky每次计算子空间Skyline查询时,至多访问一遍数据库;再有,算法扫描一个点时,只需和当前已发现的Skyline点进行比较即能判断该点是否为Skyline点,保证了算法的渐进性.这样,相比BNL,CSky大大减少了计算开销,具有其他基于索引的Skyline算法计算Skyline时的高效,且这种高效适用于所有子空间.理论分析和实验表明,在解决高维空间子空间Skyline查询问题方面,CSky性能大大优于BNL.
文摘微服务架构降低应用模块之间的耦合度,有利于复杂应用系统的开发、部署和运维。但相比于单体应用其资源的访问控制也变得更加复杂。对微服务架构下的资源访问控制需求进行分析,提出一种基于角色的访问控制模型——MSAM(Microservice of Authority Management)。该模型具有对用户授予和屏蔽权限、数据权限和服务实例权限等特征,能够很好地满足微服务架构下的资源访问控制需求。讨论访问控制模型的实现,对比集中式鉴权与独立式鉴权两种实现的优缺点,说明不同实现方式所适用的场景。