期刊文献+
共找到6篇文章
< 1 >
每页显示 20 50 100
一种基于共享前缀的两级索引结构 被引量:1
1
作者 喻波 赵国鸿 陈曙晖 《计算机工程与科学》 CSCD 北大核心 2010年第12期113-116,121,共5页
大多数倒排索引结构并未提出词汇表的组织形式,传统的基于Hash算法组织的词汇表存在大量碰撞的索引词。本文提出一种基于共享前缀的两级索引结构,通过对汉字、英文、数字进行统一编码,把具有相同首字的索引词映射到一级索引的相同位置;... 大多数倒排索引结构并未提出词汇表的组织形式,传统的基于Hash算法组织的词汇表存在大量碰撞的索引词。本文提出一种基于共享前缀的两级索引结构,通过对汉字、英文、数字进行统一编码,把具有相同首字的索引词映射到一级索引的相同位置;二级索引使用共享前缀树的结构组织索引词,既能通过二分查找快速定位索引文件存储块的位置,又能通过共享前缀的方式减少对相同字的存储,有效地减少了索引文件占用的存储空间。实验结果表明,该结构索引文件与源文档大小的压缩比达到0.59,与顺序索引和Hash索引相比,具有较高的时空效率。 展开更多
关键词 倒排结构 两级索引 共享前缀 平衡二叉树
下载PDF
基于复合结构的高效索引在线更新策略 被引量:1
2
作者 赵亮 《计算机工程》 CAS CSCD 北大核心 2008年第2期75-77,88,共4页
倒排索引结构已被广泛地应用在信息检索系统中,倒排索引离线的生成和更新方法已不适合在线更新。文中研究了在线索引更新方法,分析了合并更新、插入更新、复合更新等方法,提出一种结合"插入更新"和"合并更新"优点,... 倒排索引结构已被广泛地应用在信息检索系统中,倒排索引离线的生成和更新方法已不适合在线更新。文中研究了在线索引更新方法,分析了合并更新、插入更新、复合更新等方法,提出一种结合"插入更新"和"合并更新"优点,并采用多级结构的改进复合更新策略。使用磁盘操作复杂度来衡量更新策略的性能,对几种常用的更新策略和复合更新策略在大量记录下的性能进行理论和实验分析。结果显示,改进复合更新策略具有较好的效率。 展开更多
关键词 倒排索引 更新策略 倒排索引结构
下载PDF
基于结构的文本信息检索技术的设计与实现 被引量:2
3
作者 阚忠良 《黑龙江大学自然科学学报》 CAS 北大核心 2005年第3期393-396,400,共5页
设计了文本信息检索的一些数据结构,包括结构化倒排索引、结构索引和词典等,并在此结构的基础上设计实现了基于内容和结构的查询算法。这些算法以计算机机群并行环境为基础,并行数据查询提高了查询的速度。
关键词 元数据模式 结构倒排索引 并行文本处理 基于结构查询
下载PDF
一种改进的分布式搜索引擎模型 被引量:1
4
作者 钱立兵 季振洲 吴昊 《哈尔滨工业大学学报》 EI CAS CSCD 北大核心 2014年第7期8-13,共6页
为了解决传统分布式搜索引擎存在的搜索性能问题,从索引结构、查询算法方面改进了传统模型.提出了一种非集中的高并行化搜索模型,该模型按照文档主题对索引分类,对较长的倒排记录表采用位图结构,利用多线程技术对索引节点实现并行搜索算... 为了解决传统分布式搜索引擎存在的搜索性能问题,从索引结构、查询算法方面改进了传统模型.提出了一种非集中的高并行化搜索模型,该模型按照文档主题对索引分类,对较长的倒排记录表采用位图结构,利用多线程技术对索引节点实现并行搜索算法(multi max score heap,MMSH).实验结果表明:改进模型中的索引分类方法与倒排表结构的位图策略,能够增强Merge层查询的针对性,降低Merge层节点的CPU和内存开销;在倒排表不能完全存入内存情况下,MMSH算法能够实现高度并行化查询,其查询效率高于经典的term-at-a-time算法,缩短了平均查找时间,提高了系统吞吐量.索引分类、位图结构以及并行查询算法能够避免查询的盲目性,改善了分布式搜索引擎的性能. 展开更多
关键词 分布式引擎 索引分类 倒排结构 并行搜索
下载PDF
大数据环境下Lucene性能优化方法研究 被引量:2
5
作者 马旸 蔡冰 《南京理工大学学报》 EI CAS CSCD 北大核心 2015年第3期260-265,共6页
为提高大数据环境下的数据查询分析效率,该文结合内存计算技术和批量更新技术提出一种优化倒排索引方法——内存磁盘索引(RFDirectory)。基于Lucene实现内存和磁盘相结合的倒排表管理技术。将新增数据写入缓存中,并周期性地写入磁盘索... 为提高大数据环境下的数据查询分析效率,该文结合内存计算技术和批量更新技术提出一种优化倒排索引方法——内存磁盘索引(RFDirectory)。基于Lucene实现内存和磁盘相结合的倒排表管理技术。将新增数据写入缓存中,并周期性地写入磁盘索引结构中,从而提升倒排索引的写入性能。通过整合磁盘和内存的多分块倒排结构,为用户提供高效的数据查询分析结果。实验结果表明:在大数据环境下,RFDirectory方法的索引构建时间缩短为磁盘索引(FSDirectory)、内存索引(RAMDirectory)方法索引构建时间的50%,返回1个关键字的检索结果耗时缩短了近15%。 展开更多
关键词 大数据 LUCENE 内存计算 批量更新 倒排索引 倒排 缓存 内存索引 磁盘索引 多分块倒排结构
下载PDF
一种用于计算机情报检索系统的主题词处理方法
6
作者 王云 《昆明理工大学学报(自然科学版)》 CAS 1990年第1期64-69,共6页
本文提出一种建立在改进的倒排文件结构基础上的主题词处理方法,用于微型计算机情报检索系统中,它是以若干相关数据库及其互访指针形成的体系结构为核心,并辅以一系列词串预处理、查找、插入、删除法来实现主题词处理的,该方法能有效地... 本文提出一种建立在改进的倒排文件结构基础上的主题词处理方法,用于微型计算机情报检索系统中,它是以若干相关数据库及其互访指针形成的体系结构为核心,并辅以一系列词串预处理、查找、插入、删除法来实现主题词处理的,该方法能有效地节省存贮空间,动态生成主题词典,并有较快的主题检索速度,且提供用户的主题词操作界面友好方便,合符习惯。 展开更多
关键词 计算机情报检索 主题词处理 倒排文件结构
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部