期刊文献+
共找到293篇文章
< 1 2 15 >
每页显示 20 50 100
面向科技文献多维语义组织的混合倒排索引构建方法
1
作者 张敏 李唯 范青 《现代情报》 北大核心 2024年第2期107-114,129,共9页
[目的/意义]为满足科研人员对科技文献内部细粒度语义信息进行高效查询的迫切需求,前期研究提出了面向科技文献的多维语义索引体系,然而基于HashMap的常见倒排索引会导致查询效率低下。本文旨在通过面向不同维度语义特征建立混合倒排索... [目的/意义]为满足科研人员对科技文献内部细粒度语义信息进行高效查询的迫切需求,前期研究提出了面向科技文献的多维语义索引体系,然而基于HashMap的常见倒排索引会导致查询效率低下。本文旨在通过面向不同维度语义特征建立混合倒排索引,以改进语义查询性能。[方法/过程]本文以Treap、B+树等多种数据结构探索适合不同语义维度的倒排索引构建方法,并将其组合形成多种适用于科技文献多维语义组织的混合倒排索引构建方法,并通过对比实验,在排序查询和布尔查询条件下分析验证不同类型倒排索引构建方法的查询性能。[结果/结论]实验结果表明,组合形成的8种混合倒排索引构建方法中,表2所示的C3(HHHB)被证明在排序查询条件下具有最高的效率,而C4(TTTB)则在布尔查询条件下被证明最为高效。本文的方法能有效解决单一索引结构导致的查询效率问题。 展开更多
关键词 科技文献 语义组织 混合倒排索引 HashMap Treap B+树
下载PDF
基于倒排索引的正则路径查询算法
2
作者 夏秀峰 孙翔天 +3 位作者 孙尧 邓国鹏 朱康 邱涛 《计算机工程与设计》 北大核心 2024年第8期2343-2349,共7页
对于图数据上的正则路径查询(regular path query, RPQ)问题,其使用正则表达式定义图中两个节点之间的约束。针对现有的RPQ在图上遍历匹配方法效率低下这一问题,提出一种基于倒排索引的RPQ算法,在图上构建标签的倒排索引,匹配过程中快... 对于图数据上的正则路径查询(regular path query, RPQ)问题,其使用正则表达式定义图中两个节点之间的约束。针对现有的RPQ在图上遍历匹配方法效率低下这一问题,提出一种基于倒排索引的RPQ算法,在图上构建标签的倒排索引,匹配过程中快速检索标签的相应倒排列表。设计的IRPQ算法将查询转化为面向倒排列表的查询计划树,经过优化以减少冗余列表合并操作。在真实数据集上进行了实验,其结果表明,IRPQ及其优化算法相比现有方法显著提高了查询性能。 展开更多
关键词 属性图模型 正则路径查询 倒排索引 查询计划树 树结构递归 启发式算法 查询树优化
下载PDF
基于CRF的分区倒排索引压缩算法
3
作者 王子琛 瞿有利 《计算机与现代化》 2024年第2期36-42,55,共8页
倒排索引是大型搜索引擎的核心数据结构,本质是倒排列表中整数序列的集合。倒排索引压缩可以有效减少倒排索引所占空间,提高对关键词的检索效率。本文提出的基于条件随机场(CRF)的分区倒排索引压缩算法主要关注域值分区的分区方式。该... 倒排索引是大型搜索引擎的核心数据结构,本质是倒排列表中整数序列的集合。倒排索引压缩可以有效减少倒排索引所占空间,提高对关键词的检索效率。本文提出的基于条件随机场(CRF)的分区倒排索引压缩算法主要关注域值分区的分区方式。该算法对序列进行预分区,并且使用条件随机场对预分区进行标注并重组,有效减少了压缩时间。根据分区类型,该算法使用相应的编码方式,进一步减少了压缩后的空间占用。与其他倒排索引压缩算法进行对比实验分析,结果表明本文算法在压缩率上超过目前一些域值分区的算法,并且在解压时间上与其他域值分区算法相当。该算法在时间和空间上取得了较好的平衡。 展开更多
关键词 倒排索引 数据压缩 域值分区 条件随机场 索引
下载PDF
基于倒排索引的可搜索加密数据共享方案 被引量:2
4
作者 刘炜 白晓丹 +2 位作者 佘维 宋轩 田钊 《计算机工程与应用》 CSCD 北大核心 2023年第10期270-279,共10页
针对当前医疗数据共享难、数据被攻击、密文搜索效率低的问题,提出了一种基于倒排索引的可搜索加密数据共享方案。采用基于私有链和联盟链的双链结构存储数据并实现数据共享;设计了一种新型倒排索引结构,防止敏感数据被攻击;提出了一种... 针对当前医疗数据共享难、数据被攻击、密文搜索效率低的问题,提出了一种基于倒排索引的可搜索加密数据共享方案。采用基于私有链和联盟链的双链结构存储数据并实现数据共享;设计了一种新型倒排索引结构,防止敏感数据被攻击;提出了一种基于新型倒排索引结构的密文搜索算法,利用可搜索加密技术将陷门信息提交至倒排索引结构中实现密文搜索。实验表明,所提出的方案可以有效保证数据安全,提高搜索效率。 展开更多
关键词 区块链 医疗数据共享 倒排索引 可搜索加密
下载PDF
分布式环境下基于倒排索引的可搜索加密研究
5
作者 曹伟 佟国香 +1 位作者 伍建平 梁哲华 《建模与仿真》 2023年第3期2597-2607,共11页
目的:大数据、云计算技术和分布式技术给人们带来便捷,但是将个人数据加密并上传到云端服务器存储带来了个人隐私泄漏的问题。可搜索加密技术实现了安全高效地检索密文。方法:本文基于Spark计算框架,提出了分布式可搜索加密方案。使用... 目的:大数据、云计算技术和分布式技术给人们带来便捷,但是将个人数据加密并上传到云端服务器存储带来了个人隐私泄漏的问题。可搜索加密技术实现了安全高效地检索密文。方法:本文基于Spark计算框架,提出了分布式可搜索加密方案。使用高效的伪随机标签和文档标签通过Spark集群的RDD操作分布式生成倒排索引结构,利用Spark集群的性能优势进行检索,并结合提出的验证算法,进一步提高了分布式可搜索加密方案在半诚实且好奇的威胁模型下的安全性。结果:我们在不同节点数量下考察集群大小对存储性能和对计算效率影响,实验表明集群环境可以有效缓解单机存储的压力,并提升加解密、索引构造和验证的效率。结论:验证了分布式环境下基于倒排索引的可搜索加密的优越性。 展开更多
关键词 可搜索加密 倒排索引 分布式环境 分布式技术 云端服务器 数据加密 隐私泄漏 存储性能
下载PDF
基于缓存的倒排索引机制研究 被引量:8
6
作者 刘小珠 孙莎 +1 位作者 曾承 彭智勇 《计算机研究与发展》 EI CSCD 北大核心 2007年第z3期153-158,共6页
倒排索引创建效率和查询效率是全文检索技术的两个重要方面.针对传统倒排索引创建方法效率低下的问题,提出了基于缓存满再写临时文件和双缓冲区相结合的索引创建机制,充分利用内存和CPU资源以加快倒排索引的创建速度;提出了查询缓存机制... 倒排索引创建效率和查询效率是全文检索技术的两个重要方面.针对传统倒排索引创建方法效率低下的问题,提出了基于缓存满再写临时文件和双缓冲区相结合的索引创建机制,充分利用内存和CPU资源以加快倒排索引的创建速度;提出了查询缓存机制,以提高倒排索引的查询效率.分析及实验结果表明,提出的索引创建机制能有效地提高索引创建速度,查询缓存机制能有效地加快查询速度,提高了全文检索系统的时间和空间效率. 展开更多
关键词 倒排索引 倒排索引创建 查询缓存
下载PDF
基于综合倒排索引的个性化搜索研究 被引量:1
7
作者 黄羿 马新强 李丹宁 《贵州科学》 2009年第3期47-50,57,共5页
随着Internet网络的迅猛发展,个性化信息服务越来越成为信息检索领域的研究热点。本文分析了国内外个性化信息服务研究现状,提出了基于综合倒排索引的搜索思想,从关键词、主题词和评语3个角度出发建立综合倒排索引进行全文搜索;达到用... 随着Internet网络的迅猛发展,个性化信息服务越来越成为信息检索领域的研究热点。本文分析了国内外个性化信息服务研究现状,提出了基于综合倒排索引的搜索思想,从关键词、主题词和评语3个角度出发建立综合倒排索引进行全文搜索;达到用户个性化搜索的目的。 展开更多
关键词 信息检索 个性化搜索 倒排索引 综合倒排索引
下载PDF
一种基于倒排索引树的增量更新关联挖掘算法 被引量:3
8
作者 徐春 李广原 +1 位作者 王玄 田换 《计算机工程与科学》 CSCD 北大核心 2016年第5期1039-1045,共7页
增量更新关联规则挖掘主要解决事务数据库中交易记录不断更新和最小支持度发生变化时关联规则的维护问题。针对目前诸多增量更新关联规则挖掘算法存在效率低、计算成本高、规则难以维护等问题,提出一种基于倒排索引树的增量更新关联挖... 增量更新关联规则挖掘主要解决事务数据库中交易记录不断更新和最小支持度发生变化时关联规则的维护问题。针对目前诸多增量更新关联规则挖掘算法存在效率低、计算成本高、规则难以维护等问题,提出一种基于倒排索引树的增量更新关联挖掘算法。该算法有效地将倒排索引技术与树型结构相结合,使得交易数据库中的数据不断更新和最小支持度随应用环境不同而不断改变时,以实现无需扫描原始交易数据库和不产生候选项集的情况下生成频繁项集。实验结果表明,该算法只需占用较小的存储空间、且检索项集的效率较高,能高效地解决增量更新关联规则难以维护的问题。 展开更多
关键词 增量更新挖掘 倒排索引 倒排索引 频繁项集 关联规则
下载PDF
使用倒排索引优化面向组合的语义服务发现 被引量:24
9
作者 邝砾 邓水光 +2 位作者 李莹 吴健 吴朝晖 《软件学报》 EI CSCD 北大核心 2007年第8期1911-1921,共11页
提出为服务库中所有注册服务的输出建立倒排索引,以快速、准确、高效地发现目标服务.即为每个输出维护一个服务列表,用于记录在该服务库中所有能够产生该输出的服务.基于倒排索引机制,提出面向组合的服务发现算法.该方法利用倒排索引的... 提出为服务库中所有注册服务的输出建立倒排索引,以快速、准确、高效地发现目标服务.即为每个输出维护一个服务列表,用于记录在该服务库中所有能够产生该输出的服务.基于倒排索引机制,提出面向组合的服务发现算法.该方法利用倒排索引的优势,极大地减少了搜索空间,并通过挖掘服务组合提高服务发现的查全率.仿真实验表明,该方法能够在大规模服务库中快速、全面地响应用户请求. 展开更多
关键词 WEB服务 服务发现 服务组合 倒排索引 语义相似度
下载PDF
一种基于倒排索引的音频检索方法 被引量:8
10
作者 张雪源 贺前华 +1 位作者 李艳雄 叶婉玲 《电子与信息学报》 EI CSCD 北大核心 2012年第11期2561-2567,共7页
传统的基于实例的音频检索算法采用顺序索引,检索时需遍历数据库并导致难以忍受的等待时间。针对传统的顺序的索引方法,该文提出基于倒排索引的音频检索算法。该方法首先利用多种音频特征构成的超向量,通过多层音频分割方法将连续音频... 传统的基于实例的音频检索算法采用顺序索引,检索时需遍历数据库并导致难以忍受的等待时间。针对传统的顺序的索引方法,该文提出基于倒排索引的音频检索算法。该方法首先利用多种音频特征构成的超向量,通过多层音频分割方法将连续音频流分割为特征数值波动幅度小的短时音频段;然后利用事先训练好的音频字典,将短时音频段序列转换为可以表征音频内容的音频字序列,并建立倒排索引;检索时,将用户提交的查询转换为音频字后利用倒排索引无须遍历数据库即可直接定位候选段落,并根据候选段落与查询的内容相似度大小对候选段落进行排序,将排好序的列表作为检索结果。仿真实验以匹配项排名、同类检索结果比例、定位准确性和检索用时4个方面作为评价指标,实验结果显示,该算法能够在平均1.101 s时间内实现92.58%的检索准确率。 展开更多
关键词 音频信号处理 音频检索 内容相似度 倒排索引
下载PDF
基于指令级并行的倒排索引压缩算法 被引量:7
11
作者 闫宏飞 张旭东 +2 位作者 单栋栋 毛先领 赵鑫 《计算机研究与发展》 EI CSCD 北大核心 2015年第5期995-1004,共10页
文本信息数量的快速增长给传统的信息检索技术带来了新的挑战.搜索引擎通常使用倒排索引来高效地处理查询.为了减少存储开销和加快访问速度,倒排索引通常被压缩存储.因此,如何选择一个高性能的压缩算法对高效查询处理是非常有必要的.在... 文本信息数量的快速增长给传统的信息检索技术带来了新的挑战.搜索引擎通常使用倒排索引来高效地处理查询.为了减少存储开销和加快访问速度,倒排索引通常被压缩存储.因此,如何选择一个高性能的压缩算法对高效查询处理是非常有必要的.在已有倒排链压缩算法PackedBinary和PForDelta的基础上,利用CPU的超标量特性和SIMD向量指令集,将其压缩和解压缩中的关键步骤并行化,提出了2种指令级并行压缩算法SIMD-PB和SIMD-PFD.基于GOV2和ClueWeb09B两个公开数据集的实验表明,SIMD-PB和SIMD-PFD算法在压缩率不变的情况下,压缩和解压缩速度比现有的压缩算法均有非常明显的提升.其中解压缩速度比起目前最好的倒排链压缩算法,最高能提升17%.此外,实验表明算法在较长的倒排链、较大的压缩块单位上有更好的解压缩性能. 展开更多
关键词 单指令多数据流 倒排索引 压缩 整数编码 信息检索
下载PDF
基于64位体系结构的倒排索引压缩算法 被引量:5
12
作者 张旭东 孙志明 +2 位作者 刘亚宁 单栋栋 闫宏飞 《计算机工程》 CAS CSCD 2014年第2期71-76,共6页
在64位体系结构的CPU中,字长从32位扩展到64位,处理器每次可以处理的数据也增加到64位。这对搜索引擎使用的核心数据结构——倒排索引的压缩与解压缩带来一定的影响。针对当前32位整数字对齐压缩算法Simple不适用于64位系统的问题,对其... 在64位体系结构的CPU中,字长从32位扩展到64位,处理器每次可以处理的数据也增加到64位。这对搜索引擎使用的核心数据结构——倒排索引的压缩与解压缩带来一定的影响。针对当前32位整数字对齐压缩算法Simple不适用于64位系统的问题,对其进行改进,并提出3种基于64位的字对齐压缩算法,即SimpleX64-16、SimpleX64-32和SimpleX64-64。3种算法都采用多种压缩模式,并对每个模式进行压缩空间的优化。在64位机器上GOV2和ClueWeb09B数据集的倒排索引实验结果表明,与传统的基于32位字对齐的压缩算法相比,3种基于64位字对齐的算法在解压速度方面最多提高14.5%,在压缩率方面最多提高2.5%。 展开更多
关键词 倒排索引 索引压缩 64位体系结构 索引 信息检索
下载PDF
中文搜索引擎分块倒排索引存储模式 被引量:10
13
作者 马健 张太红 陈燕红 《计算机应用》 CSCD 北大核心 2013年第7期2031-2036,共6页
针对开源搜索引擎ASPSeek中的倒排索引的内部结构和访问模式,抽象出了倒排索引的形式化定义。为解决ASPSeek倒排索引更新困难和直接采用操作系统文件缓冲访问机制带来的效率问题,以125万张中文农业网页为样本,结合其特点,提出了一种块... 针对开源搜索引擎ASPSeek中的倒排索引的内部结构和访问模式,抽象出了倒排索引的形式化定义。为解决ASPSeek倒排索引更新困难和直接采用操作系统文件缓冲访问机制带来的效率问题,以125万张中文农业网页为样本,结合其特点,提出了一种块大小可变的分块倒排索引存储模式和基于CLOCK替代策略的专用缓冲管理机制。实验结果表明在禁用和启用缓冲的情况下,分块访问模式检索效率都优于ASPSeek。在启用缓冲并使用16万中文词条或5万高频中文词条作为测试集合的条件下,分块存储模式在访问倒排索引100万次后的检索时间趋于常量,即使以全部的827309个词条作为测试集合的条件下,分块存储模式在访问倒排索引200万次后的检索时间趋于收敛。 展开更多
关键词 倒排索引 索引 全文检索 分块结构 检索效率
下载PDF
一种高效的倒排索引存储结构 被引量:22
14
作者 邓攀 刘功申 《计算机工程与应用》 CSCD 北大核心 2008年第31期149-152,共4页
倒排索引是信息检索系统的核心部分,其存储结构对检索的效率和效果起着至关重要的作用,根据汉语词汇的频率分布情况和当前的软硬件环境,提出一种高效的倒排索引结构,在一定程度上能够节省磁盘空间,提高检索效率,并且支持增量更新和删除。
关键词 倒排索引 词典 容量 追加块
下载PDF
基于倒排索引位运算的深度优先频繁项集挖掘 被引量:7
15
作者 傅向华 陈冬剑 王志强 《小型微型计算机系统》 CSCD 北大核心 2012年第8期1747-1751,共5页
频繁项集挖掘是关联规则挖掘中的关键任务,非常耗费时间.为提高频繁项集的产生效率,提出一种基于倒排索引位运算的深度优先频繁项集挖掘算法(DF-FIMBII).该算法以二进制数组存储项目到事务的倒排索引,通过位运算计算两个项目的支持计数... 频繁项集挖掘是关联规则挖掘中的关键任务,非常耗费时间.为提高频繁项集的产生效率,提出一种基于倒排索引位运算的深度优先频繁项集挖掘算法(DF-FIMBII).该算法以二进制数组存储项目到事务的倒排索引,通过位运算计算两个项目的支持计数,并采用深度优先搜索策略递归地挖掘不同的k-频繁项集.在chess、mushroom、pumb_star、T40I10D100K等数据集上,对DF-FIMBII、Apriori、ECLAT、BitTableFI、Index-BitTableFI等算法进行了实验比较.实验结果表明,在数据规模不是非常巨大和支持度较小的情况下,无论数据集的稠密程度如何,DF-FIMBII均具有较好的时间优越性. 展开更多
关键词 频繁项集 二进制数组 倒排索引 深度优先搜索
下载PDF
一种基于可扩展散列表的倒排索引更新策略 被引量:6
16
作者 吴恒山 刘兴宇 左琼 《计算机工程》 CAS CSCD 北大核心 2004年第8期83-84,F003,共3页
该文提出一种新的基于可扩展散列表的倒排索引更新策略,使倒排索引具有良好的可扩展性。它既支持文档的插入、删除操作,又具有较高的查询效率和空间利用率。并在它的基础上,实现了倒排索引的增量更新和实时更新。
关键词 全文检索 倒排索引 增量更新 可扩展散列表
下载PDF
一种支持高效检索的即时更新倒排索引方法 被引量:10
17
作者 贾崇 陆玉昌 鲁明羽 《计算机工程与应用》 CSCD 北大核心 2003年第29期198-201,共4页
随着万维网的快速发展,产生了一种全新概念的高效文档索引技术,文章实现了一种支持高效检索及即时更新的倒排索引,它是WebME(WebMiningEnvironment)原型系统的一部分,这部分用来对特定的查询进行高效的检索,并支持即时增量索引,即对新... 随着万维网的快速发展,产生了一种全新概念的高效文档索引技术,文章实现了一种支持高效检索及即时更新的倒排索引,它是WebME(WebMiningEnvironment)原型系统的一部分,这部分用来对特定的查询进行高效的检索,并支持即时增量索引,即对新加入的文档可以立即加入索引,且不用重新对原内容进行重索引,并且在更新索引时不会影响查询的进行。 展开更多
关键词 倒排索引 索引 即时更新
下载PDF
倒排索引优化的波形激光雷达数据存储和访问 被引量:4
18
作者 卢昊 庞勇 李增元 《计算机工程与应用》 CSCD 北大核心 2015年第16期243-247,共5页
LAS1.3格式是由美国摄影测量与遥感协会(ASPRS)制定的一种用于存储激光点云及其他相关信息的激光雷达交换数据格式,该版本支持激光雷达波形数据的存储,以适应全波形激光雷达的发展和应用。但由于其继承了LAS格式以点存储为中心的设计思... LAS1.3格式是由美国摄影测量与遥感协会(ASPRS)制定的一种用于存储激光点云及其他相关信息的激光雷达交换数据格式,该版本支持激光雷达波形数据的存储,以适应全波形激光雷达的发展和应用。但由于其继承了LAS格式以点存储为中心的设计思路,波形数据仅作为附加部分挂接在点云数据上,故只提供了一种简单的映射方法实现波形数据访问,而无法直接体现出波形数据作为原始信息与回波点云的逻辑关系,因此在研究和实际应用中不便于波形数据的直接访问。设计实现了一种基于倒排索引的文件格式,建立了从波形数据到属于该束激光脉冲的点云的倒排映射关系,消除了LAS1.3文件中波形数据访问的无序性,也大大降低了波形数据处理过程中程序访问的复杂性。实验表明,新的索引文件组具有标准LAS1.3格式规范不具备的访问特性,可以增加波形数据的访问速度。 展开更多
关键词 倒排索引 激光雷达 LAS1.3 全波形 点云 存储优化
下载PDF
基于Lucene的中文倒排索引技术的研究 被引量:50
19
作者 郑榕增 林世平 《计算机技术与发展》 2010年第3期80-83,共4页
索引是所有搜索引擎的核心概念,为了进行快速查找,就需要把数据处理成一种高效的、可交叉引用的组织格式。倒排索引是一种高效的索引组织模式,其组织模式和存储结构对检索系统的性能起着至关重要的作用,文中探讨了基于Lucene的倒排索引... 索引是所有搜索引擎的核心概念,为了进行快速查找,就需要把数据处理成一种高效的、可交叉引用的组织格式。倒排索引是一种高效的索引组织模式,其组织模式和存储结构对检索系统的性能起着至关重要的作用,文中探讨了基于Lucene的倒排索引模式,分析了Lucene索引文件的结构、索引过程以及相关排序算法,讨论了Lucene的压缩算法,并且通过设计一个中文模块实现了基于正向减字最大匹配分词方式的中文索引。实验表明新的分词算法比Lucene自带的分词算法性能有了很大的提高。 展开更多
关键词 全文检索 倒排索引 索引压缩Lucene
下载PDF
农业搜索引擎倒排索引缓冲机制研究 被引量:2
20
作者 薛煜阳 张太红 +4 位作者 张晓明 冯向萍 陈燕红 白涛 马健 《新疆农业大学学报》 CAS 北大核心 2011年第2期161-164,共4页
为了解决ASPSeek倒排索引直接采用操作系统文件缓冲访问机制带来的效率问题,本研究以125万张中文农业网页为样本,采用块大小可变的倒排索引存储结构,设计了基于LRU、MRU、LFU、MFU、Clock、Random、FPA替代策略的专用缓冲管理机制。对这... 为了解决ASPSeek倒排索引直接采用操作系统文件缓冲访问机制带来的效率问题,本研究以125万张中文农业网页为样本,采用块大小可变的倒排索引存储结构,设计了基于LRU、MRU、LFU、MFU、Clock、Random、FPA替代策略的专用缓冲管理机制。对这7种替代策略的缓冲命中率及查询访问时间对比测试表明,当所有词条以相同的概率进行检索时,Clock算法为较好的缓冲替代策略,当词条以特定差别概率进行检索时,本研究提出的FPA算法为较好的缓冲替代策略。 展开更多
关键词 农业搜索引 倒排索引 缓冲替换策略
下载PDF
上一页 1 2 15 下一页 到第
使用帮助 返回顶部