期刊文献+
共找到29篇文章
< 1 2 >
每页显示 20 50 100
面向多模态数据的新型数据库技术专题前言 被引量:1
1
作者 彭智勇 高云君 +1 位作者 李国良 许建秋 《软件学报》 EI CSCD 北大核心 2024年第3期1049-1050,共2页
以数字技术为标志的新一轮科技革命方兴未艾,将人类带入数字经济时代.全球各行各业数据量呈现爆炸式增长,数据类型和数据格式也呈现多种形式,例如结构化关系表、半结构化JSON/XML、非结构化文本/图像/视频,以及图数据、流数据和时序数据... 以数字技术为标志的新一轮科技革命方兴未艾,将人类带入数字经济时代.全球各行各业数据量呈现爆炸式增长,数据类型和数据格式也呈现多种形式,例如结构化关系表、半结构化JSON/XML、非结构化文本/图像/视频,以及图数据、流数据和时序数据等.这要求数据库系统能够同时高效地管理多种不同类型的数据.多模态数据管理与分析成为亟需解决的问题.目前的方法主要通过拓展现有的数据库或通过集成各种不同模态数据管理引擎来支持多模态数据管理与分析,缺少新颖的理论、方法与技术的支撑.本专题围绕多模态数据管理与分析的整个生命周期,通过结合大数据技术和人工智能方法探讨新型数据库系统理论、方法和技术,包括多模态数据统一建模、存储与索引、查询与挖掘、并发控制、多模态数据库系统构建及其典型应用等主题,赋予数据库系统新的管理能力,形成多模态数据管理与分析在各行各业的最新应用成果. 展开更多
关键词 数据库系统 多模态数据 数据库技术 人工智能方法 并发控制 大数据技术 数据类型 统一建模
下载PDF
基于空间位置关系的轨迹数据高效降维和查询算法
2
作者 巢成 蒲非凡 +1 位作者 许建秋 高云君 《计算机研究与发展》 EI CSCD 北大核心 2024年第7期1771-1790,共20页
由于新型信息技术的快速发展,社会处于数字化、信息化转型的关键时期,各行业对于以数据库技术为基础的信息系统的需求也日益凸显.基于位置的服务依赖于海量实时生成的轨迹数据,在处理亿万级随时间连续变化的轨迹数据时,降维算法和查询... 由于新型信息技术的快速发展,社会处于数字化、信息化转型的关键时期,各行业对于以数据库技术为基础的信息系统的需求也日益凸显.基于位置的服务依赖于海量实时生成的轨迹数据,在处理亿万级随时间连续变化的轨迹数据时,降维算法和查询技术一直是研究的关键,通过降低轨迹数据的规模,减少查询操作时处理数据的时间,能有效提升查询的性能,而能否实现高质量、高效率查询对于数据库而言至关重要.提出了面向轨迹数据的均匀网格编码,并在进一步优化后提出非均匀网格降维算法,将轨迹数据的坐标转化为1维字符串存储,对不符合要求的网格进行合并处理;通过空间位置映射充分保留轨迹数据间复杂的相互关系,并采用范围查询与最近邻查询对降维后的数据进行性能测试.实验使用不同城市真实轨迹数据与模拟生成轨迹数据作为数据集,将提出的均匀网格算法、非均匀网格算法与3种基准方法进行对比.实验证明,优化后的非均匀网格算法降维后数据的空间位置关系相似度可高达82.50%,范围查询时间较其他查询时间提升了至少73.86%,最近邻查询时间提升了至少52.26%,与其他基准方法相比取得了更好的效果. 展开更多
关键词 轨迹数据 降维算法 非均匀网格 空间位置关系 查询技术
下载PDF
面向关系型数据与知识图谱的数据集成技术综述 被引量:8
3
作者 高云君 葛丛丛 +1 位作者 郭宇翔 陈璐 《软件学报》 EI CSCD 北大核心 2023年第5期2365-2391,共27页
目前,各个国家和地区均已将大数据视为重要的战略资源.然而,大数据时代普遍存在数据流通困难、数据监管不足等问题,致使数据孤岛现象严重,数据质量低下,数据要素潜能难以释放.这驱使研究人员探索数据集成技术,以打破数据壁垒、实现信息... 目前,各个国家和地区均已将大数据视为重要的战略资源.然而,大数据时代普遍存在数据流通困难、数据监管不足等问题,致使数据孤岛现象严重,数据质量低下,数据要素潜能难以释放.这驱使研究人员探索数据集成技术,以打破数据壁垒、实现信息共享、提升数据质量,进而激活数据要素潜能.关系型数据和知识图谱作为两种至关重要的数据组织与存储形式,在现实生活中应用广泛.为此,聚焦关系型数据和知识图谱,归纳总结并分析实体解析、数据融合、数据清洗3方面的数据集成关键技术,最后展望未来研究方向与趋势. 展开更多
关键词 关系型数据 知识图谱 数据集成
下载PDF
基于联邦学习的跨源数据错误检测方法 被引量:2
4
作者 陈璐 郭宇翔 +2 位作者 葛丛丛 郑白桦 高云君 《软件学报》 EI CSCD 北大核心 2023年第3期1126-1147,共22页
随着海量数据的涌现和不断积累,数据治理成为提高数据质量、最大化数据价值的重要手段.其中,数据错误检测是提高数据质量的关键步骤,近年来引起了学术界及工业界的广泛关注.目前,绝大多数错误检测方法只适用于单数据源场景.然而在现实... 随着海量数据的涌现和不断积累,数据治理成为提高数据质量、最大化数据价值的重要手段.其中,数据错误检测是提高数据质量的关键步骤,近年来引起了学术界及工业界的广泛关注.目前,绝大多数错误检测方法只适用于单数据源场景.然而在现实场景中,数据往往不集中存储与管理.不同来源且高度相关的数据能够提升错误检测的精度.但由于数据隐私安全问题,跨源数据往往不允许集中共享.鉴于此,提出了一种基于联邦学习的跨源数据错误检测方法 FeLeDetect,以在数据隐私保证的前提下,利用跨源数据信息提高错误检测精度.为了充分捕获每一个数据源的数据特征,首先提出一种基于图的错误检测模型GEDM,并在此基础上设计了一种联邦协同训练算法FCTA,以支持在各方数据不出本地的前提下,利用跨源数据协同训练GEDM.此外,为了降低联邦训练的通信开销和人工标注成本,还提出了一系列优化方法.最后,在3个真实数据集上进行了大量的实验.实验结果表明:(1)相较于5种现有最先进的错误检测方法,GEDM在本地场景和集中场景下,错误检测结果的F1分数平均提高了10.3%和25.2%;(2) FeLeDetect错误检测结果的F1分数较本地场景下GEDM的结果平均提升了23.2%. 展开更多
关键词 数据治理 数据质量 错误检测 联邦学习
下载PDF
XML技术在电子政务信息交换中的应用研究 被引量:8
5
作者 高云君 张学杰 章方铭 《计算机应用》 CSCD 北大核心 2003年第z2期170-172,179,共4页
随着信息与通信技术的迅猛发展 ,电子政务已成为当前我国信息化建设的首要任务。文中先分析目前电子政务信息交换中存在的主要问题及其应用需求 ,提出了基于XML技术的电子政务信息交换实现方式 ;接着从数据表示、数据格式转换、数据传... 随着信息与通信技术的迅猛发展 ,电子政务已成为当前我国信息化建设的首要任务。文中先分析目前电子政务信息交换中存在的主要问题及其应用需求 ,提出了基于XML技术的电子政务信息交换实现方式 ;接着从数据表示、数据格式转换、数据传输、信息交换体系结构及其实现四个方面具体阐述了XML技术在电子政务信息交换中的应用。 展开更多
关键词 电子政务 三网一库 数据表示 数据格式转换 数据传输
下载PDF
基于SQL_DMO和ActiveX的数据分发监控系统的设计与实现 被引量:3
6
作者 高云君 章方铭 张学杰 《计算机应用研究》 CSCD 北大核心 2004年第6期120-122,170,共4页
随着信息时代的到来和信息化技术的快速发展 ,各信息系统及应用系统间的数据交互变得越来越重要。论述了一个基于SQLDMO和ActiveX技术的数据分发监控系统DDS(DataDistributionSystem)的开发原理。
关键词 SQL分布式管理对象(SQL—DMO) ACTIVEX 发布服务器 分发服务器 订阅服务器
下载PDF
新一代数据库技术在CSCW中的应用 被引量:1
7
作者 高云君 楼海清 +2 位作者 陈岭 陈根才 张学杰 《计算机工程与应用》 CSCD 北大核心 2005年第6期167-170,共4页
支持协同工作是最重要的数据库应用之一。分析CSCW对数据库的要求,并从科研角度出发,具体阐述分布式数据库、时态数据库、实时数据库、主动数据库、移动对象数据库、时空数据库以及其它数据库(如协同数据库、多版本数据库等)等新一代数... 支持协同工作是最重要的数据库应用之一。分析CSCW对数据库的要求,并从科研角度出发,具体阐述分布式数据库、时态数据库、实时数据库、主动数据库、移动对象数据库、时空数据库以及其它数据库(如协同数据库、多版本数据库等)等新一代数据库技术在CSCW中的应用。 展开更多
关键词 CSCW 主动数据库 移动对象数据库 时空数据库 协同数据库
下载PDF
大数据环境下移动对象自适应轨迹预测模型 被引量:29
8
作者 乔少杰 李天瑞 +4 位作者 韩楠 高云君 元昌安 王晓腾 唐常杰 《软件学报》 EI CSCD 北大核心 2015年第11期2869-2883,共15页
已有的轨迹预测算法针对移动对象运动模式,使用数学模型进行交通流模拟,难以对路网中的移动对象进行准确的描述.为了解决这一问题,提出基于隐马尔可夫模型(hidden Markov model,简称HMM)的自适应轨迹预测模型SATP(self-adaptive traject... 已有的轨迹预测算法针对移动对象运动模式,使用数学模型进行交通流模拟,难以对路网中的移动对象进行准确的描述.为了解决这一问题,提出基于隐马尔可夫模型(hidden Markov model,简称HMM)的自适应轨迹预测模型SATP(self-adaptive trajectory prediction model based on HMM),对大数据环境下移动对象海量轨迹利用基于密度的聚类方法进行位置密度分区和高效分段处理,减少HMM的状态数量.根据输入轨迹自动选取参数组合,避免HMM模型中隐状态不连续、状态停留等问题.实验结果表明,SATP模型在实验中表现出较高的预测准确性,并维持较低的时间开销.针对速度随机改变的移动对象,其平均预测准确率为84.1%;相同情况下,平均高出朴素预测算法46.7%. 展开更多
关键词 位置大数据 智能交通 轨迹预测 隐马尔可夫模型 自适应
下载PDF
不确定数据查询处理 被引量:21
9
作者 蒋涛 高云君 +2 位作者 张彬 周傲英 乐光学 《电子学报》 EI CAS CSCD 北大核心 2013年第5期966-976,共11页
数据的不确定性在现实世界中的经济、军事、物流、金融、电信等领域普遍存在.不确定数据广泛应用于环境维护、市场分析、基于位置的服务LBS以及数量经济研究等应用.由于这些应用的重要性以及收集和累积的不确定数据数量的快速增长,查询... 数据的不确定性在现实世界中的经济、军事、物流、金融、电信等领域普遍存在.不确定数据广泛应用于环境维护、市场分析、基于位置的服务LBS以及数量经济研究等应用.由于这些应用的重要性以及收集和累积的不确定数据数量的快速增长,查询这些数据已经成为一个重要的任务,并日益受到广大数据库研究者的关注.本文介绍了不确定数据查询的基本原理,并对不确定数据的近邻查询、逆向近邻查询、排序查询、Top-k查询以及连接查询进行了详细的讨论.同时对这些技术的优缺点进行了分析、对比.最后给出了未来的研究方向. 展开更多
关键词 不确定数据 近邻 逆向近邻 连接 查询处理
下载PDF
高效的Top-k相互Skyline查询算法 被引量:4
10
作者 蒋涛 张彬 +1 位作者 高云君 乐光学 《计算机研究与发展》 EI CSCD 北大核心 2013年第5期986-997,共12页
Top-k相互Skyline查询返回相互Skyline查询中的前k个对象.这种查询是数据分析者寻找有意义对象进行决策支持的一种重要直觉工具.然而,这种查询还没有引起研究社区足够的注意力.介绍了几种新颖的算法,包括Topk-TBBS,Topk-dMBBS,Topk-wMB... Top-k相互Skyline查询返回相互Skyline查询中的前k个对象.这种查询是数据分析者寻找有意义对象进行决策支持的一种重要直觉工具.然而,这种查询还没有引起研究社区足够的注意力.介绍了几种新颖的算法,包括Topk-TBBS,Topk-dMBBS,Topk-wMBBS.主要的思想是信息重用和高效的修剪策略.特别地,Topk-wMBBS算法由于完全重用了搜索中的节点信息,并利用了最好优先BF搜索策略.因而它获得了最好的性能.同时证明了该算法有最优的I?O访问效率.最后,使用了2个真实数据集和4个服从不同分布的合成数据集进行了集中实验.实验结果表明,提出的算法无论是变化参数k的大小、数据集的尺寸和Cache尺寸都是有效的,且具有很高的效率,尤其Topk-wMBBS具有最小的I?O访问次数. 展开更多
关键词 算法 Topk查询 动态Skyline 可逆Skyline 相互Skyline
下载PDF
度量空间中的Top-k反向Skyline查询算法 被引量:3
11
作者 张彬 蒋涛 +1 位作者 高云君 乐光学 《计算机研究与发展》 EI CSCD 北大核心 2014年第3期627-636,共10页
不同于传统的度量空间Skyline查询,提出了一种新颖的度量空间中的Skyline查询MkRS(metric top-kreverse skyline).MkRS从反向角度执行度量空间中的Skyline.给定查询对象q和单调参考函数f,MkRS返回k个包含m个数据对象的子集,以至于每个子... 不同于传统的度量空间Skyline查询,提出了一种新颖的度量空间中的Skyline查询MkRS(metric top-kreverse skyline).MkRS从反向角度执行度量空间中的Skyline.给定查询对象q和单调参考函数f,MkRS返回k个包含m个数据对象的子集,以至于每个子集G的度量Skyline包含q.评估这种查询,需要执行从输入数据集P中n个数据对象里选择m个对象的穷举搜索以及每个排列子集的度量Skyline.这些计算由于巨大的搜索空间而需要极高成本.提出了基于排序机理的算法STS(sort and threshold skyline),它可以提前终止计算,仅需要检查很少部分的子集.然后,利用信息重用技术给出了基于重用的STS算法rSTS(reuse STS),进一步减少了STS中80%以上的I?O访问.大量的实验表明提出的算法有效、快速. 展开更多
关键词 查询 算法 度量空间
下载PDF
不确定数据查询处理 被引量:2
12
作者 蒋涛 周傲英 +1 位作者 高云君 张彬 《新型工业化》 2013年第5期-,共19页
数据的不确定性在现实世界中的经济、军事、物流、金融、电信等领域普遍存在。不确定数据广泛应用于环境维护、市场分析、基于位置的服务LBS以及数量经济研究等应用。由于这些应用的重要性以及收集和累积的不确定数据数量的快速增长,... 数据的不确定性在现实世界中的经济、军事、物流、金融、电信等领域普遍存在。不确定数据广泛应用于环境维护、市场分析、基于位置的服务LBS以及数量经济研究等应用。由于这些应用的重要性以及收集和累积的不确定数据数量的快速增长,查询这些数据已经成为一个重要的任务,并日益受到广大数据库研究者的关注。本文介绍了不确定数据查询的基本原理,并对不确定数据的近邻查询、逆向近邻查询、排序查询、Top-k 查询以及连接查询进行了详细的讨论。同时对这些技术的优缺点进行了分析、对比。最后给出了未来的研究方向。 展开更多
关键词 不确定数据 近邻 逆向近邻 连接 查询处理
下载PDF
前言
13
作者 孟小峰 高云君 +1 位作者 关庆锋 李勇 《计算机研究与发展》 EI CSCD 北大核心 2022年第2期253-254,共2页
2019年,我国自然资源部发布《智慧城市时空大数据平台建设技术大纲》,强调依托空间数据智能处理,加速我国智慧城市建设进程.智慧城市建设旨在通过对城市大数据进行有效的采集、管理、分析以及挖掘,以强大的算法模型和计算能力为国家、... 2019年,我国自然资源部发布《智慧城市时空大数据平台建设技术大纲》,强调依托空间数据智能处理,加速我国智慧城市建设进程.智慧城市建设旨在通过对城市大数据进行有效的采集、管理、分析以及挖掘,以强大的算法模型和计算能力为国家、城市、区域治理中的各个应用场景提供智慧赋能,从而提高城市智能管理水平.空间数据智能作为城市计算的基础与核心,在智慧城市建设中扮演关键角色. 展开更多
关键词 智能处理 城市大数据 算法模型 数据智能 区域治理 自然资源部 空间数据 智慧城市
下载PDF
空间数据智能:概念、技术与挑战 被引量:14
14
作者 宋轩 高云君 +2 位作者 李勇 关庆锋 孟小峰 《计算机研究与发展》 EI CSCD 北大核心 2022年第2期255-263,共9页
随着空间数据体量的持续增长,空间数据所蕴含的价值巨大.传统的数据感知存储技术和处理分析方法已然不能充分挖掘海量空间数据的价值.因此,空间数据智能,一个专注于海量空间数据的研究与应用的多学科交叉的领域,正扮演着越来越重要的角... 随着空间数据体量的持续增长,空间数据所蕴含的价值巨大.传统的数据感知存储技术和处理分析方法已然不能充分挖掘海量空间数据的价值.因此,空间数据智能,一个专注于海量空间数据的研究与应用的多学科交叉的领域,正扮演着越来越重要的角色.介绍了空间数据智能的概念、空间数据智能领域所面临的技术挑战及空间数据智能的关键技术,同时介绍了空间数据智能在社会生活中的典型应用场景,最后对空间数据智能研究的发展做出了展望. 展开更多
关键词 空间数据智能 空间数据 时空数据库 空间感知 时空数据分析 数据安全
下载PDF
数据模型及其发展历程 被引量:37
15
作者 信俊昌 王国仁 +2 位作者 李国徽 高云君 张志强 《软件学报》 EI CSCD 北大核心 2019年第1期142-163,共22页
数据库是数据管理的技术,是计算机学科的重要分支.经过近半个世纪的发展,数据库技术形成了坚实的理论基础、成熟的商业产品和广泛的应用领域.数据模型描述了数据库中数据的存储方式和操作方式.从数据组织形式,可以将数据模型分为结构化... 数据库是数据管理的技术,是计算机学科的重要分支.经过近半个世纪的发展,数据库技术形成了坚实的理论基础、成熟的商业产品和广泛的应用领域.数据模型描述了数据库中数据的存储方式和操作方式.从数据组织形式,可以将数据模型分为结构化模型、半结构化模型、OLAP分析模型和大数据模型.20世纪60年代中后期到90年代初,结构化模型最早被提出,其主要包括层次模型、网状模型、关系模型和面向对象模型等.20世纪90年代末期,随着互联网应用和科学计算等复杂应用的快速发展,开始出现半结构化模型,包括XML模型、JSON模型和图模型等.21世纪,随着电子商务、商业智能等应用的不断发展,数据分析模型成为研究热点,主要包括关系型ROLAP和多维型MOLAP.2010年以来,随着大数据工业应用的快速发展,以NoSQL和NewSQL数据库系统为代表的大数据模型成为新的研究热点对上述数据模型进行了综述,并选取每个模型的典型数据库系统进行了性能的分析. 展开更多
关键词 数据模型 结构化模型 半结构化模型 OLAP分析模型 大数据模型
下载PDF
新经济时代下人力资源经济管理创新探析
16
作者 高云君 《中文科技期刊数据库(全文版)经济管理》 2023年第5期54-57,共4页
在进入到21世纪后,随着经济全球化、信息化、资源知识化的发展,经济、技术、变革的复杂性、不稳定性、广泛性特征也越来越明显。在新经济环境的影响下,人力资源逐渐成了企业发展中一项关键资源。因此,企业人力资源管理需要尽快适应新经... 在进入到21世纪后,随着经济全球化、信息化、资源知识化的发展,经济、技术、变革的复杂性、不稳定性、广泛性特征也越来越明显。在新经济环境的影响下,人力资源逐渐成了企业发展中一项关键资源。因此,企业人力资源管理需要尽快适应新经济时代的发展要求,推动社会的发展,建立起中国特色人力资源管理机制。基于此,本文就新经济时代下人力资源经济管理创新路径展开论述,以供相关人员参考与借鉴。 展开更多
关键词 新经济时代 人力资源 经济管理
下载PDF
基于Multi-Agent的分布式文本聚类模型 被引量:5
17
作者 乔少杰 韩楠 +4 位作者 金澈清 高云君 李天瑞 唐常杰 康健 《计算机学报》 EI CSCD 北大核心 2018年第8期1709-1721,共13页
Internet网络大数据与日俱增,当前亟需设计出能够处理大规模半结构化和无结构化文本数据的新型聚类方法.现有工作的不足体现在:应用的文本集较为单一,对半结构和无结构的Web文本进行聚类的准确性较低,当文档规模较大时聚类的时效性无法... Internet网络大数据与日俱增,当前亟需设计出能够处理大规模半结构化和无结构化文本数据的新型聚类方法.现有工作的不足体现在:应用的文本集较为单一,对半结构和无结构的Web文本进行聚类的准确性较低,当文档规模较大时聚类的时效性无法得到保证.针对上述不足,提出新的基于群体智能的文本聚类模型Switch(a Swarm intelligence based text clustering algorithm),支持包括藏文、汉文、英文等多语言的文本聚类.基本思想为:构建文本的向量空间模型,借助自然语言处理和数据预处理技术得到由特征向量构成的文本集合;对群体智能文本聚类算法的参数进行初始化,不同智能体可以在二维文本空间上任意移动,计算其所在网格区域文本与其他样本的相似度,利用概率转换函数求取智能体拿起和放下样本的概率,进而实现文本聚类.提出分布式动态文本流聚类的multi-agent架构,将这一架构应用于群体智能文本聚类算法中,分布式工作环境被设计成相互通信的软agents集合,设计了相似度计算,智能体状态感知,文本解析三类智能体.通过解决智能体状态同步、处理器负载均衡和处理器之间通信的代价问题,将计算任务分成不同子任务,在多处理器上分布执行.此外,阐述了基于multi-agent的分布式群体智能文本聚类方法的工作原理,给出一种分布式通信架构,各种智能体相互通信,相互协作完成文本聚类工作.基于multi-agent通过JADE(Java Agent Development Framework)中间件实现集群上的分布式文本聚类,优势在于:分布式计算和大内存处理较单机具有更好的处理能力,借助JADE中间件能够使智能体间相互通信及协作,实现高效的文本聚类.在大量真实的半结构化包含藏文、汉文和英文多语言的Web文本数据集上进行实验,以藏文为例,实验结果表明:相比于k-means和单节点上的群体智能聚类算法,提出的分布式架构下文本聚类算法准确性平均高出12.2%和3.8%,时间代价平均缩减了73.0%和50.6%.在n个节点集群下agents数量介于150~250之间时,文本聚类时间代价近似可以达到单节点的1/n. 展开更多
关键词 MULTI-AGENT 分布式架构 群体智能 文本聚类
下载PDF
无需感染时间信息的传播网络快速推断算法 被引量:5
18
作者 孙月明 张运加 +3 位作者 颜钱 陈璐 黄浩 高云君 《计算机科学与探索》 CSCD 北大核心 2019年第4期541-553,共13页
现有的大多数传播网络推断方法需要节点的感染时间信息,但是在许多现实传播过程中,准确的感染时间信息往往是难以获得的。以准确、高效且无需感染时间信息的传播网络推断方法为目标,研究了如何仅利用多次传播过程结束时观测到的各节点... 现有的大多数传播网络推断方法需要节点的感染时间信息,但是在许多现实传播过程中,准确的感染时间信息往往是难以获得的。以准确、高效且无需感染时间信息的传播网络推断方法为目标,研究了如何仅利用多次传播过程结束时观测到的各节点的感染状态来推断节点间的影响关系和感染传播概率。为此,该方法首先利用节点感染状态间的互信息来量化它们之间的相互关联,找出可能的节点间影响关系。然后,构建以感染传播概率为变量的节点感染状态观测数据的对数似然函数,并采用期望最大化的方法最大化该对数似然函数并求解感染传播概率。实验结果表明,相较现有方法,该方法有效提高了传播网络推断的准确性,并且大幅缩短了算法运行所需时间。 展开更多
关键词 传播网络推断 影响关系 感染传播概率 感染时间信息
下载PDF
查询结果可用性研究综述 被引量:2
19
作者 柳晴 高云君 《计算机研究与发展》 EI CSCD 北大核心 2017年第6期1198-1212,共15页
数据库可用性研究在数据库领域受到了广泛的关注.其目标在于帮助用户更加高效、方便地使用数据库,从而提高用户对数据库的满意度.主要关注查询结果可用性研究.当前的数据库查询仅仅向用户返回查询结果.如果查询结果不是用户想要的,现有... 数据库可用性研究在数据库领域受到了广泛的关注.其目标在于帮助用户更加高效、方便地使用数据库,从而提高用户对数据库的满意度.主要关注查询结果可用性研究.当前的数据库查询仅仅向用户返回查询结果.如果查询结果不是用户想要的,现有的数据库系统既不能向用户解释为什么会得到这样的结果,也无法给出有效的建议以帮助用户得到满意的查询结果.查询结果可用性研究正是针对当前数据库系统的这一不足而展开.在数据库可用性的视角之上,以查询结果为中心,对当前查询结果可用性工作的最新动态进行了综述.梳理了当前查询结果可用性相关研究中问题的类型及其特点,并从Causality&Responsibility问题、Why-not&Why问题、Why-few&Why-many问题这3个方面对该领域的研究工作现状进行了分类、介绍和总结.最后对该研究领域未来可能的研究方向进行了展望,为相关研究提供参考. 展开更多
关键词 数据库可用性 why-not问题 why问题 causality与responsibility why-few问题 why-many问题
下载PDF
分布式的增量式张量Tucker分解方法 被引量:4
20
作者 杨克宇 高云君 +2 位作者 陈璐 葛丛丛 沈怡峰 《计算机学报》 EI CAS CSCD 北大核心 2021年第8期1696-1713,共18页
随着社交网络、电商系统、移动终端设备的快速发展,海量且高维的数据正以前所未有的速度不断地增长和积累.高维数据可以自然地表示为张量.张量的Tucker分解方法是一种常用且经典的高维数据分析机器学习方法,被广泛地应用于推荐系统、图... 随着社交网络、电商系统、移动终端设备的快速发展,海量且高维的数据正以前所未有的速度不断地增长和积累.高维数据可以自然地表示为张量.张量的Tucker分解方法是一种常用且经典的高维数据分析机器学习方法,被广泛地应用于推荐系统、图像压缩、计算机视觉等多个领域.然而,传统的张量分解方法大多只能处理静态的数据,并不适用于动态增长的数据.当处理不断增长的数据时,传统方法大多只能低效地重新开始计算,以完成张量分解.针对增量式数据对传统张量分解方法带来的挑战,本文提出了一种分布式的增量式张量Tucker分解方法DITTD,首次解决了海量高维且动态增长数据上高效的分布式张量Tucker分解问题.该方法首先根据增量数据相对原始数据的位置关系对其进行分类处理.为了实现分布式节点的负载均衡,本文指出张量的最优划分是NP-难问题,并使用启发式方法以实现尽可能均匀的张量划分.为了避免张量Tucker分解的中间结果爆炸问题,本文提出了一种新颖的增量式张量Tucker分解计算方法.该方法减少了中间结果的计算和网络传输通信量,以提升分布式的增量式张量Tucker分解效率.最后,本文在真实与合成数据集上进行了大量的实验.实验结果验证了本文方法的运行效率比基准方法提升了至少1个数量级,并具有良好的可扩展性. 展开更多
关键词 张量 Tucker分解 分布式 增量式 SPARK
下载PDF
上一页 1 2 下一页 到第
使用帮助 返回顶部