期刊文献+
共找到14篇文章
< 1 >
每页显示 20 50 100
基于内存的分布式隐私流查询系统 被引量:1
1
作者 张鹏 刘庆云 +3 位作者 熊翠文 李保珲 林海轮 易立 《计算机研究与发展》 EI CSCD 北大核心 2014年第S2期48-56,共9页
随着大数据时代的到来,隐私问题备受关注,用户一方面希望获得新鲜和低延迟的查询结果,另一方面又希望对查询信息进行隐私保护,为此提出了一种基于内存的分布式隐私流查询系统.其中,查询可以通过Paillier密码系统进行加密.该系统在shared... 随着大数据时代的到来,隐私问题备受关注,用户一方面希望获得新鲜和低延迟的查询结果,另一方面又希望对查询信息进行隐私保护,为此提出了一种基于内存的分布式隐私流查询系统.其中,查询可以通过Paillier密码系统进行加密.该系统在shared-nothing架构下支持水平扩展,实现了在内存中对流数据进行分片的并行查询以及基于位图索引的压缩存储.实验证明了该系统的有效性. 展开更多
关键词 隐私流查询 内存计算 Paillier密码系统 位图索引 大数据
下载PDF
基于Storm的面向大数据实时流查询系统设计研究 被引量:6
2
作者 蒋晨晨 季一木 +1 位作者 孙雁飞 王汝传 《南京邮电大学学报(自然科学版)》 北大核心 2016年第3期100-105,111,共7页
随着大数据的发展,传统的流查询系统框架不能满足用户实时查询的需求。通过调研传统的集中式查询系统与流计算框架,提出了一种新的能够适应用户处理连续查询的实时查询框架。该框架具备延时小、可拓展的特点。最后实验证明,该框架能够... 随着大数据的发展,传统的流查询系统框架不能满足用户实时查询的需求。通过调研传统的集中式查询系统与流计算框架,提出了一种新的能够适应用户处理连续查询的实时查询框架。该框架具备延时小、可拓展的特点。最后实验证明,该框架能够满足大数据流处理要求。 展开更多
关键词 大数据 流查询系统 Storm平台 实时数据
下载PDF
分布式数据流关系查询技术研究 被引量:21
3
作者 王春凯 孟小峰 《计算机学报》 EI CSCD 北大核心 2016年第1期80-96,共17页
随着在线分析连续数据流的需求日益增多,用于实时处理海量、易变数据的数据流管理系统由此产生.大数据时代下,随着开放式处理平台的发展,为处理大规模且多样化的数据流,出现了若干分布式流处理系统,如S4、Storm、Spark Streaming等.然而... 随着在线分析连续数据流的需求日益增多,用于实时处理海量、易变数据的数据流管理系统由此产生.大数据时代下,随着开放式处理平台的发展,为处理大规模且多样化的数据流,出现了若干分布式流处理系统,如S4、Storm、Spark Streaming等.然而,为提升处理系统的易用性和处理能力,需要在其之上构建具有抽象查询语言的关系查询系统,以构筑完整的分布式数据流管理系统.如何设计并实现高效易用的关系查询系统是一个亟待解决的问题.文中首先概述了分布式数据流查询处理的典型应用、数据特征和实现目标.进而,提出了分布式数据流关系查询系统的基础架构,并基于此架构深入分析了用户自定义函数查询、查询优化、驱动方式、编译技术、算子管理、调度管理和并行管理等关键技术.然后,对比分析了SPL、StreamingSQL、Squall和DBToaster这4种具有代表性的查询系统实例.最后,指明了该技术在优化技术、执行策略、实时精准查询和复杂查询分析等方面所面临的挑战和今后的研究工作. 展开更多
关键词 大数据 数据 处理系统 流查询系统 关系查询技术
下载PDF
分布式流数据加载和查询技术优化 被引量:7
4
作者 易佳 薛晨 王树鹏 《计算机科学》 CSCD 北大核心 2017年第5期172-177,共6页
分布式流查询是一种基于数据流的实时查询计算方法,近年来得到了广泛的关注和快速发展。综述了分布式流处理框架在实时关系型查询上取得的研究成果;对涉及分布式数据加载、分布式流计算框架、分布式流查询的产品进行了分析和比较;提出... 分布式流查询是一种基于数据流的实时查询计算方法,近年来得到了广泛的关注和快速发展。综述了分布式流处理框架在实时关系型查询上取得的研究成果;对涉及分布式数据加载、分布式流计算框架、分布式流查询的产品进行了分析和比较;提出了基于Spark Streaming和Apache Kafka构建的分布式流查询模型,以并发加载多个文件源的形式,设计内存文件系统实现数据的快速加载,相较于基于Apache Flume的加载技术提速1倍以上。在Spark Streaming的基础上,实现了基于Spark SQL的分布式流查询接口,并提出了自行编码解析SQL语句的方法,实现了分布式查询。测试结果表明,在查询语句复杂的情况下,自行编码解析SQL的查询效率具有明显的优势。 展开更多
关键词 大数据 处理系统 分布式流查询 查询优化 Kafka快速加载
下载PDF
一种流行性与相似性结合查询推荐策略 被引量:3
5
作者 孙达明 张斌 +1 位作者 张书波 马安香 《小型微型计算机系统》 CSCD 北大核心 2016年第6期1121-1125,共5页
基于日志的搜索引擎查询推荐方法大多从搜索行为流行性考虑进行查询推荐,这类推荐方法忽略了个体用户背景不同带来的搜索需求的差异,对于一些在搜索引擎日志中有较多记录的用户来讲,难以满足他们更高质量的搜索需求.然而,此类用户的搜... 基于日志的搜索引擎查询推荐方法大多从搜索行为流行性考虑进行查询推荐,这类推荐方法忽略了个体用户背景不同带来的搜索需求的差异,对于一些在搜索引擎日志中有较多记录的用户来讲,难以满足他们更高质量的搜索需求.然而,此类用户的搜索记录又不足以支持系统提供个性化的推荐服务.所以,针对在搜索引擎日志中有较多记录的用户,本文提出一种折衷的解决方案,即流行性与相似性结合的查询推荐策略,提供一种近似于个性化的推荐服务.本文采用社团发现的方法发现搜索日志中的密集行为,从而构建典型用户行为模型代表用户搜索背景,并引入模块度度量典型用户行为的强度,最后结合流行性、群体用户对推荐词的支持程度、用户对用户群体的归属程度以及典型用户行为的强度来产生推荐词集合.本文最后,在真实数据集的实验结果证明了本策略能够在控制推荐失败风险的同时提高用户对推荐结果的满意度. 展开更多
关键词 计算机应用 搜索引擎 查询推荐 查询
下载PDF
基于区域聚类的查询流处理
6
作者 朱亮 刘椿年 《计算机工程》 CAS CSCD 北大核心 2008年第12期50-51,55,共3页
提出一种处理区域查询流的新方法。选择并保存一些处理后的查询,将其进行区域聚类,构成较大的区域并检索和保存其元组。对新的查询,尽量使用内存中的元组,以减少对数据库I/O操作次数,进而加快查询速度。该方法对低维和高维数据都有效,... 提出一种处理区域查询流的新方法。选择并保存一些处理后的查询,将其进行区域聚类,构成较大的区域并检索和保存其元组。对新的查询,尽量使用内存中的元组,以减少对数据库I/O操作次数,进而加快查询速度。该方法对低维和高维数据都有效,实验证明该方法与朴素方法相比,其性能更高。 展开更多
关键词 关系数据库 区域查询 区域聚类
下载PDF
面向流数据的数据管理系统的研究 被引量:6
7
作者 桂浩 冯玉才 李又奎 《计算机应用研究》 CSCD 北大核心 2005年第1期88-90,133,共4页
传统关系数据库系统通常用来存储没有时间概念的相对静止的数据,对于一些新的应用领域,信息是以数据序列的形式产生并且需要实时地、持续地进行处理,这就超出了传统系统的解决能力。数据流数据管理系统是面向流数据而设计的数据管理系统... 传统关系数据库系统通常用来存储没有时间概念的相对静止的数据,对于一些新的应用领域,信息是以数据序列的形式产生并且需要实时地、持续地进行处理,这就超出了传统系统的解决能力。数据流数据管理系统是面向流数据而设计的数据管理系统,它能有效地处理输入流数据并提供持续检索的功能。从整体上分析数据流管理系统的体系结构,重点讨论基于流数据的数据模型和流查询。 展开更多
关键词 数据管理系统 数据库 流查询
下载PDF
面向多样化搜索背景的查询推荐策略 被引量:4
8
作者 孙达明 张斌 +1 位作者 张书波 马安香 《计算机研究与发展》 EI CSCD 北大核心 2014年第S1期81-85,共5页
基于日志的搜索引擎查询推荐方法大多从流行性角度进行查询推荐,这种方式能够带来不错的推荐效果.然而,流行性行为代表群体用户共性的需求,所以这类推荐方法忽略了用户背景不同带来的搜索需求的差异,当小团体用户的搜索需求与流行性需... 基于日志的搜索引擎查询推荐方法大多从流行性角度进行查询推荐,这种方式能够带来不错的推荐效果.然而,流行性行为代表群体用户共性的需求,所以这类推荐方法忽略了用户背景不同带来的搜索需求的差异,当小团体用户的搜索需求与流行性需求不一致时,往往造成小团体搜索需求无法被满足,进而导致针对此类用户的推荐失败.而且,在搜索引擎领域,用户信息难以获取,提供个性化推荐服务也比较困难.为了减少推荐失败的风险,提高查询推荐质量,提出一种折衷的解决方案,面向多样化搜索背景的查询推荐策略.在查询流图的基础上构造密集行为块,通过密集行为块表示用户特征,从而构建典型用户行为模型,并以典型用户行为区分用户背景.另外,还提出了面向多样化搜索背景的查询推荐方法,当搜索词面临多种用户背景时,推荐系统提供多样化的推荐词集合,最后,在真实数据集的实验结果证明了本策略能够在较小程度降低准确度的同时降低推荐失败的风险. 展开更多
关键词 查询推荐 多样化 搜索引擎 搜索背景 查询
下载PDF
面向差异化搜索背景的查询推荐方法 被引量:2
9
作者 孙达明 张斌 +1 位作者 张书波 马安香 《计算机工程》 CAS CSCD 北大核心 2016年第11期202-206,共5页
搜索引擎中存在一些用户在查询日志中保存部分搜索记录,但又不足以为用户提供个性化的查询推荐。对于此类用户,对其提供具有针对性的推荐服务能够在一定程度上提高用户对推荐结果的满意度。为此,提出一种面向不同搜索背景的差异化查询... 搜索引擎中存在一些用户在查询日志中保存部分搜索记录,但又不足以为用户提供个性化的查询推荐。对于此类用户,对其提供具有针对性的推荐服务能够在一定程度上提高用户对推荐结果的满意度。为此,提出一种面向不同搜索背景的差异化查询推荐方法,依据用户搜索行为将用户划分为不同群体,针对不同群体提供不同的推荐服务,实现群体用户之间的差异化推荐服务。在真实数据集上的实验结果表明,该方法能在控制推荐失败风险的同时,提高用户对推荐结果的满意度。 展开更多
关键词 查询推荐 差异化 搜索背景 社团发现 查询
下载PDF
融合用户实时搜索状态的自适应查询推荐模型 被引量:4
10
作者 李竞飞 商振国 +1 位作者 张鹏 宋大为 《计算机科学与探索》 CSCD 北大核心 2016年第9期1290-1298,共9页
传统的查询推荐算法通过挖掘查询日志为用户推荐查询词。通常现存模型只考虑原始查询词与推荐词之间的关系(例如语义相似性或相关性等),没有考虑用户在搜索过程中的满意度情况。针对用户在搜索过程中表现出的不同满意度状态,提出了一个... 传统的查询推荐算法通过挖掘查询日志为用户推荐查询词。通常现存模型只考虑原始查询词与推荐词之间的关系(例如语义相似性或相关性等),没有考虑用户在搜索过程中的满意度情况。针对用户在搜索过程中表现出的不同满意度状态,提出了一个查询推荐基本假设,并通过开展在线用户问卷调查,验证了这一假设。基于相应的假设,提出了一种基于用户搜索满意度状态的自适应查询推荐模型,该模型可以为用户智能推荐不同种类的查询词。当用户对搜索结果满意时,模型将为用户提供更加新颖的推荐词;当用户对搜索结果不满意时,模型将为用户提供一些增强信息表示能力的查询词。大规模日志实验表明,提出的推荐模型显著优于传统的查询流图模型,证明了所提模型的有效性。 展开更多
关键词 查询推荐 查询 搜索状态 满意度
下载PDF
基于双索引的子图查询算法 被引量:2
11
作者 陆慧琳 黄博 《计算机工程》 CAS CSCD 北大核心 2015年第1期44-48,共5页
传统的子图查询算法大多只在图数据库上进行一次挖掘算法,即在图数据库上建立稳定的数据库索引后将不再对索引进行更新。随着查询兴趣的改变或数据库的频繁更新,原有的数据库索引将不再能提供有用的信息来减少查询过程中候选图的数量。... 传统的子图查询算法大多只在图数据库上进行一次挖掘算法,即在图数据库上建立稳定的数据库索引后将不再对索引进行更新。随着查询兴趣的改变或数据库的频繁更新,原有的数据库索引将不再能提供有用的信息来减少查询过程中候选图的数量。为此,提出一种双索引的子图查询算法,同时在数据库和查询流上挖掘频繁子图并建立索引。子图查询和查询流索引的建立同步进行,即使查询兴趣改变,查询流索引也能自适应地更新索引信息来优化查询效率。针对数据库的频繁更新,查询流索引已提供实时的有效信息,数据库索引无需重新建立。实验结果表明,双索引的结合能有效提高查询子图的处理效率。 展开更多
关键词 双索引 查询索引 子图查询 频繁子图 图数据库 子图同构
下载PDF
Data partitioning based on sampling for power load streams
12
作者 王永利 徐宏炳 +2 位作者 董逸生 钱江波 刘学军 《Journal of Southeast University(English Edition)》 EI CAS 2005年第3期293-298,共6页
A novel data streams partitioning method is proposed to resolve problems of range-aggregation continuous queries over parallel streams for power industry.The first step of this method is to parallel sample the data,wh... A novel data streams partitioning method is proposed to resolve problems of range-aggregation continuous queries over parallel streams for power industry.The first step of this method is to parallel sample the data,which is implemented as an extended reservoir-sampling algorithm.A skip factor based on the change ratio of data-values is introduced to describe the distribution characteristics of data-values adaptively.The second step of this method is to partition the fluxes of data streams averagely,which is implemented with two alternative equal-depth histogram generating algorithms that fit the different cases:one for incremental maintenance based on heuristics and the other for periodical updates to generate an approximate partition vector.The experimental results on actual data prove that the method is efficient,practical and suitable for time-varying data streams processing. 展开更多
关键词 data streams continuous queries parallel processing sampling data partitioning
下载PDF
Continuous query scheduler based on operators clustering
13
作者 M.Sami Soliman 谭冠政 《Journal of Central South University》 SCIE EI CAS 2011年第3期782-790,共9页
Data stream management system (DSMS) provides convenient solutions to the problem of processing continuous queries on data streams.Previous approaches for scheduling these queries and their operators assume that each ... Data stream management system (DSMS) provides convenient solutions to the problem of processing continuous queries on data streams.Previous approaches for scheduling these queries and their operators assume that each operator runs in separate thread or all operators combine in one query plan and run in a single thread.Both approaches suffer from severe drawbacks concerning the thread overhead and the stalls due to expensive operators.To overcome these drawbacks,a novel approach called clustered operators scheduling (COS) is proposed that adaptively clusters operators of the query plan into a number of groups based on their selectivity and computing cost using S-mean clustering.Experimental evaluation is provided to demonstrate the potential benefits of COS scheduling over the other scheduling strategies.COS can provide adaptive,flexible,reliable,scalable and robust design for continuous query processor. 展开更多
关键词 data stream management systems operators scheduling continuous query CLUSTERING
下载PDF
Probabilistic Top-k Query:Model and Application on Web Traffic Analysis 被引量:1
14
作者 Xiaolin Gui Jun Liu +2 位作者 Qiujian Lv Chao Dong Zhenming Lei 《China Communications》 SCIE CSCD 2016年第6期123-137,共15页
Top-k ranking of websites according to traffic volume is important for Internet Service Providers(ISPs) to understand network status and optimize network resources. However, the ranking result always has a big deviati... Top-k ranking of websites according to traffic volume is important for Internet Service Providers(ISPs) to understand network status and optimize network resources. However, the ranking result always has a big deviation with actual rank for the existence of unknown web traffic, which cannot be identified accurately under current techniques. In this paper, we introduce a novel method to approximate the actual rank. This method associates unknown web traffic with websites according to statistical probabilities. Then, we construct a probabilistic top-k query model to rank websites. We conduct several experiments by using real HTTP traffic traces collected from a commercial ISP covering an entire city in northern China. Experimental results show that the proposed techniques can reduce the deviation existing between the ground truth and the ranking results vastly. In addition, we find that the websites providing video service have higher ratio of unknown IP as well as higher ratio of unknown traffic than the websites providing text web page service. Specifically, we find that the top-3 video websites have more than 90% of unknown web traffic. All these findings are helpful for ISPs understanding network status and deploying Content Distributed Network(CDN). 展开更多
关键词 top-k query traffic model temporal bipartite graph uncertain data unknown traffic
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部