期刊文献+
共找到473篇文章
< 1 2 24 >
每页显示 20 50 100
基于CRF的分区倒排索引压缩算法
1
作者 王子琛 瞿有利 《计算机与现代化》 2024年第2期36-42,55,共8页
倒排索引是大型搜索引擎的核心数据结构,本质是倒排列表中整数序列的集合。倒排索引压缩可以有效减少倒排索引所占空间,提高对关键词的检索效率。本文提出的基于条件随机场(CRF)的分区倒排索引压缩算法主要关注域值分区的分区方式。该... 倒排索引是大型搜索引擎的核心数据结构,本质是倒排列表中整数序列的集合。倒排索引压缩可以有效减少倒排索引所占空间,提高对关键词的检索效率。本文提出的基于条件随机场(CRF)的分区倒排索引压缩算法主要关注域值分区的分区方式。该算法对序列进行预分区,并且使用条件随机场对预分区进行标注并重组,有效减少了压缩时间。根据分区类型,该算法使用相应的编码方式,进一步减少了压缩后的空间占用。与其他倒排索引压缩算法进行对比实验分析,结果表明本文算法在压缩率上超过目前一些域值分区的算法,并且在解压时间上与其他域值分区算法相当。该算法在时间和空间上取得了较好的平衡。 展开更多
关键词 倒排索引 数据压缩 域值分区 条件随机场 索引
下载PDF
基于Lucene的中文倒排索引技术的研究 被引量:50
2
作者 郑榕增 林世平 《计算机技术与发展》 2010年第3期80-83,共4页
索引是所有搜索引擎的核心概念,为了进行快速查找,就需要把数据处理成一种高效的、可交叉引用的组织格式。倒排索引是一种高效的索引组织模式,其组织模式和存储结构对检索系统的性能起着至关重要的作用,文中探讨了基于Lucene的倒排索引... 索引是所有搜索引擎的核心概念,为了进行快速查找,就需要把数据处理成一种高效的、可交叉引用的组织格式。倒排索引是一种高效的索引组织模式,其组织模式和存储结构对检索系统的性能起着至关重要的作用,文中探讨了基于Lucene的倒排索引模式,分析了Lucene索引文件的结构、索引过程以及相关排序算法,讨论了Lucene的压缩算法,并且通过设计一个中文模块实现了基于正向减字最大匹配分词方式的中文索引。实验表明新的分词算法比Lucene自带的分词算法性能有了很大的提高。 展开更多
关键词 全文检索 倒排索引 索引压缩lucene
下载PDF
针对Lucene搜索引擎的算法研究
3
作者 朱艳芳 赵蕾 王琪 《软件》 2023年第5期161-164,共4页
在计算机使用设备的硬件技术发展过程当中,功能日渐增强,存储数据种类数量不断增加,其数据能够快速准确的展现出图形,以便于用户使用结合Lucene搜索引擎算法突出使用设备数据显示,因此可以提出面向使用设备的Lucene算法借鉴,用于数据搜... 在计算机使用设备的硬件技术发展过程当中,功能日渐增强,存储数据种类数量不断增加,其数据能够快速准确的展现出图形,以便于用户使用结合Lucene搜索引擎算法突出使用设备数据显示,因此可以提出面向使用设备的Lucene算法借鉴,用于数据搜索引擎应用。 展开更多
关键词 lucene算法 索引 使用设备
下载PDF
基于Lucene的全文搜索引擎的设计与实现 被引量:12
4
作者 何伟 薛素静 +1 位作者 孔梦荣 杨正党 《情报杂志》 CSSCI 北大核心 2006年第9期88-90,共3页
Lucene是一个用Java写的全文搜索引擎工具包,支持多用户访问,访问索引速度快,可以跨平台使用。分析了Lucene的索引原理,根据Lucene的系统结构详细分析了Lucene分析器、索引包、文档等结构,实现了一个基于Lucene的中文诗词全文搜索应用... Lucene是一个用Java写的全文搜索引擎工具包,支持多用户访问,访问索引速度快,可以跨平台使用。分析了Lucene的索引原理,根据Lucene的系统结构详细分析了Lucene分析器、索引包、文档等结构,实现了一个基于Lucene的中文诗词全文搜索应用实例。 展开更多
关键词 查询分析器 索引 索引 lucene
下载PDF
基于Lucene全文检索引擎的应用研究与实现 被引量:70
5
作者 管建和 甘剑峰 《计算机工程与设计》 CSCD 北大核心 2007年第2期489-491,共3页
Lucene全文检索技术是信息检索领域广泛使用的基本技术。它是一个优秀的开源全文本搜索技术框架。按照Lucene的框架规范,扩展Lucene的功能,可以将Lucene很好地嵌入到自己的搜索引擎中。首先介绍了一个高性能的全文检索引擎——Lucene开... Lucene全文检索技术是信息检索领域广泛使用的基本技术。它是一个优秀的开源全文本搜索技术框架。按照Lucene的框架规范,扩展Lucene的功能,可以将Lucene很好地嵌入到自己的搜索引擎中。首先介绍了一个高性能的全文检索引擎——Lucene开源系统,详细分析了Lucene的系统结构,程序运行逻辑,以及在Lucene上的扩展;然后将其引入具体应用,给出了一个基于Lucene全文检索技术的校园网Web搜索引擎的设计与实现。 展开更多
关键词 全文检索技术 lucene 索引 索引 切分词
下载PDF
基于Lucene的索引系统的设计与实现 被引量:11
6
作者 黄少林 王华 +1 位作者 张玉红 蒋一峰 《现代情报》 2009年第7期169-171,共3页
索引系统是搜索引擎的数据大本营,在搜索引擎发展早期,能够索引的网页数量代表了整个行业的技术发展水平。Lucene全文检索技术是信息检索领域广泛使用的基本技术,它是一个优秀的开源全文本搜索技术框架,本文详细分析了索引系统相关技术... 索引系统是搜索引擎的数据大本营,在搜索引擎发展早期,能够索引的网页数量代表了整个行业的技术发展水平。Lucene全文检索技术是信息检索领域广泛使用的基本技术,它是一个优秀的开源全文本搜索技术框架,本文详细分析了索引系统相关技术和Lucene的索引系统结构。 展开更多
关键词 索引 索引 lucene 倒排索引
下载PDF
基于Lucene的搜索引擎设计与实现 被引量:26
7
作者 赵珂 逯鹏 李永强 《计算机工程》 CAS CSCD 北大核心 2011年第16期39-41,共3页
针对目前教育网庞大的FTP资源检索困难的问题,提出一种基于EdtFTPJ和Lucene的FTP搜索引擎的设计和实现方案。该方案整体上采用基于Struts1.2框架的模型-视图-控制器设计模式,数据采集模块利用基于正则表达式的有限状态自动机抓取数据,... 针对目前教育网庞大的FTP资源检索困难的问题,提出一种基于EdtFTPJ和Lucene的FTP搜索引擎的设计和实现方案。该方案整体上采用基于Struts1.2框架的模型-视图-控制器设计模式,数据采集模块利用基于正则表达式的有限状态自动机抓取数据,索引模块应用倒排索引方法,系统的分词算法使用基于字典的正向最大匹配中文分词法。实验结果表明,该方案具有较高的资源检索率,同时能够保证检索结果的准确性。 展开更多
关键词 FTP搜索引 lucene框架 模型-视图-控制器 有限状态自动机 倒排索引
下载PDF
基于Lucene的数字作品搜索引擎的研究与设计 被引量:10
8
作者 吴洁明 韩云辉 冀单单 《计算机工程与科学》 CSCD 北大核心 2013年第5期166-172,共7页
在Lucene的全文检索工具包的基础上,分析现有的主流中文分词算法和Lucene相关度排序算法,提出了改进的分词算法和改进的相关度排序算法。还采用倒排索引、检索技术、分布式存储和并行计算等技术,分析并设计了一个对海量数字作品信息的... 在Lucene的全文检索工具包的基础上,分析现有的主流中文分词算法和Lucene相关度排序算法,提出了改进的分词算法和改进的相关度排序算法。还采用倒排索引、检索技术、分布式存储和并行计算等技术,分析并设计了一个对海量数字作品信息的搜索引擎,为用户提供对海量数字作品信息的快速、准确的搜索服务。实验分析比较了分词速度和分词效果,还比较了关键词搜索结果的响应时间、命中数量、准确率和召回率。实验结果表明,本系统在很大程度上提高了搜索速度,保证了搜索结果的准确性。 展开更多
关键词 lucene 分词算法 索引 相关度排序算法 分布式
下载PDF
一种基于Lucene的影片搜索引擎的研究和应用 被引量:3
9
作者 匡振国 倪宏 +1 位作者 嵇智辉 刘磊 《计算机工程与应用》 CSCD 北大核心 2008年第29期8-10,30,共4页
Lucene是一个优秀的开源搜索引擎框架,已经广泛应用于信息搜索领域。分析点播门户中现有的搜索引擎存在的不足,设计一种基于双字哈希算法支持中文的分词器,并利用该分词器和Lucene工具包,设计并实现了一个视频点播影片快速搜索引擎,它... Lucene是一个优秀的开源搜索引擎框架,已经广泛应用于信息搜索领域。分析点播门户中现有的搜索引擎存在的不足,设计一种基于双字哈希算法支持中文的分词器,并利用该分词器和Lucene工具包,设计并实现了一个视频点播影片快速搜索引擎,它不仅支持中文检索,还具有搜索速度快、易于扩展等优点。仿真实验证明提出的基于Lucene的影片搜索引擎具有良好的性能。 展开更多
关键词 lucene 索引 双字哈希 中文分词 倒排索引
下载PDF
基于Lucene的全文检索引擎研究与应用 被引量:19
10
作者 林碧英 赵锐 陈良臣 《计算机技术与发展》 2007年第5期184-186,190,共4页
快速有效地索引企业累积的大量的信息资源,是提供高质量检索服务的基础。Lucene是一个用Java写的全文索引引擎工具包,访问索引时间快,支持多用户访问,可以跨平台使用。文中研究了Lucene系统结构和数据流,分析了Lucene的索引文件格式,实... 快速有效地索引企业累积的大量的信息资源,是提供高质量检索服务的基础。Lucene是一个用Java写的全文索引引擎工具包,访问索引时间快,支持多用户访问,可以跨平台使用。文中研究了Lucene系统结构和数据流,分析了Lucene的索引文件格式,实现了一个基于Lucene文档检索的应用实例。 展开更多
关键词 全文检索 索引 应用研究/lucene
下载PDF
基于Lucene的搜索引擎的研究与应用 被引量:12
11
作者 张俊 李鲁群 周熔 《计算机技术与发展》 2013年第6期230-232,共3页
互联网搜索的精确性一直是衡量搜索引擎性能的重要标志。针对普通搜索引擎的固有缺陷,文中提出了一种应用于新闻检索的搜索引擎。该引擎是利用开源的网络爬虫工具将互联网信息抓取到本地,并利用Lucene开放的API,对特定的信息进行索引和... 互联网搜索的精确性一直是衡量搜索引擎性能的重要标志。针对普通搜索引擎的固有缺陷,文中提出了一种应用于新闻检索的搜索引擎。该引擎是利用开源的网络爬虫工具将互联网信息抓取到本地,并利用Lucene开放的API,对特定的信息进行索引和搜索。Lucene是基于Java开发的源代码开放的全文检索工具包,具有高性能、可扩展等特性,是实现搜索引擎的核心组件。通过对Lucene的API进行分析,并在此基础上,构建了索引和搜索的模块,并对网上新闻内容进行实时地搜索。通过与普通搜索引擎对比,该新闻搜索引擎提高了搜索的精确性。 展开更多
关键词 lucene 网络爬虫 索引 搜索 新闻搜索引
下载PDF
基于Lucene/Heritrix的垂直搜索引擎的研究与应用 被引量:21
12
作者 白坤 耿国华 《计算机应用与软件》 CSCD 2009年第1期212-215,247,共5页
Lucene是一个用Java写的全文索引引擎工具包,访问索引时间快,支持多用户访问,可以跨平台使用。Heritrix是一个由Java开发的、开源的Web网络爬虫,用户可以使用它从网络上抓取想要的资源。探讨了Lucene和Heritrix在构建垂直搜索引擎中的... Lucene是一个用Java写的全文索引引擎工具包,访问索引时间快,支持多用户访问,可以跨平台使用。Heritrix是一个由Java开发的、开源的Web网络爬虫,用户可以使用它从网络上抓取想要的资源。探讨了Lucene和Heritrix在构建垂直搜索引擎中的应用。 展开更多
关键词 lucene HERITRIX 垂直搜索引
下载PDF
基于Lucene的分布式并行索引 被引量:7
13
作者 唐华姣 何友全 +1 位作者 徐小乐 徐澄 《计算机技术与发展》 2011年第2期123-126,共4页
索引技术是搜索引擎的核心技术之一,索引技术的好坏直接影响到搜索引擎的查准率以及对用户的响应速度。Lucene是一个优秀的全文检索引擎架构,采用高度优化的倒排索引结构并支持增量索引。但在实际应用Lucene时存在一个值得关注的问题:... 索引技术是搜索引擎的核心技术之一,索引技术的好坏直接影响到搜索引擎的查准率以及对用户的响应速度。Lucene是一个优秀的全文检索引擎架构,采用高度优化的倒排索引结构并支持增量索引。但在实际应用Lucene时存在一个值得关注的问题:随着被索引文件的增多,索引时间成线性增长,导致建索引的过程会影响搜索体验;在搜索引擎应用中,当索引文件量达到一定等级时,搜索引擎就遇到性能瓶颈。在深入分析和研究Lucene索引机制的基础上,采用以内存为缓冲区建索引文件的分布式并行索引技术形成了一个可扩展的搜索引擎解决方案,极大地缓解了建索引给搜索带来的瓶颈问题。 展开更多
关键词 索引技术 lucene 索引 分布式并行索引
下载PDF
基于Lucene的校园网智能搜索引擎的设计与实现 被引量:4
14
作者 董李鹏 高东怀 +2 位作者 张迎 靳豪杰 孟颖翔 《现代电子技术》 2013年第6期83-86,共4页
为了设计与开发校园网智能搜索引擎,研究和分析搜索引擎的工作原理、Lucene的运行机制以及智能搜索引擎功能需求。结合本校的校园网建设,分别从爬虫系统、索引系统、引擎管理平台、检索系统4个子系统出发实现了一套基于Lucene的校园网... 为了设计与开发校园网智能搜索引擎,研究和分析搜索引擎的工作原理、Lucene的运行机制以及智能搜索引擎功能需求。结合本校的校园网建设,分别从爬虫系统、索引系统、引擎管理平台、检索系统4个子系统出发实现了一套基于Lucene的校园网智能搜索引擎,搜索引擎在搜索功能、信息监管、系统安全、智能交互方面都有所提升。搜索引擎可为校内用户提供决策性的搜索帮助,且搜索结果的期望值较高。 展开更多
关键词 网络爬虫 lucene 校园网 智能搜索引 索引系统
下载PDF
基于Lucene的全文检索引擎的研究与应用 被引量:4
15
作者 李靖 文登敏 张润伟 《淮阴工学院学报》 CAS 2008年第1期56-59,63,共5页
Lucene是一个用Java语言写的优秀的全文索引引擎工具包。分析了Lucene的系统结构及检索原理,并且用一个实例来说明如何实现全文检索,为应用开发提供了一种增加全文搜索的方法。最后提出了采用接口的方式来统一处理html、pdf、word和Exce... Lucene是一个用Java语言写的优秀的全文索引引擎工具包。分析了Lucene的系统结构及检索原理,并且用一个实例来说明如何实现全文检索,为应用开发提供了一种增加全文搜索的方法。最后提出了采用接口的方式来统一处理html、pdf、word和Excel等多种常用文档的思路。 展开更多
关键词 全文检索 lucene 索引 索引
下载PDF
基于Lucene的企业信息门户搜索引擎设计 被引量:6
16
作者 周祥 王丽芳 +1 位作者 蒋泽军 张羽 《微处理机》 2009年第4期62-64,68,共4页
分析了通用搜索引擎不适于企业信息门户检索的原因,简要介绍了Lucene全文检索工具包和门户技术。在Lucene工具包的基础上,提出了企业信息门户搜索引擎的设计方案,并进行实现。最后对该搜索引擎的实际应用进行了性能分析。
关键词 企业信息门户 lucene工具包 索引
下载PDF
基于Lucene的智能地图搜索引擎的设计与实现 被引量:2
17
作者 温颖 陈云志 曹斌 《科技通报》 北大核心 2012年第11期170-174,共5页
针对ArcGIS在进行地图多图层搜索时速度慢的问题,利用Lucene全文检索的高效性,提出了一种结合Lucene和数据库技术的地图搜索方式,同时为提高空间最临近点查找效率,设计了基于网格模型的查找算法,在此基础上形成智能地图搜索引擎,并在交... 针对ArcGIS在进行地图多图层搜索时速度慢的问题,利用Lucene全文检索的高效性,提出了一种结合Lucene和数据库技术的地图搜索方式,同时为提高空间最临近点查找效率,设计了基于网格模型的查找算法,在此基础上形成智能地图搜索引擎,并在交通地图服务项目的智能搜索功能中得到实现,证明了该搜索引擎的可行性和优越性。 展开更多
关键词 lucene 网格模型 电子地图 索引
下载PDF
基于Lucene和GML/SVG的地图搜索引擎模型研究与实现 被引量:1
18
作者 胡争光 池天河 毕建涛 《计算机应用研究》 CSCD 北大核心 2008年第4期1275-1277,1280,共4页
针对当今地图搜索服务存在的问题,充分考虑Lucene全文检索的高效性以及XML在数据交换、传输、集成和互操作方面的优势,提出了一种结合Lucene、GML、SVG的地图搜索服务模型,解释了其原理以及实现过程,最后在MapGoo地图服务项目中得到实现... 针对当今地图搜索服务存在的问题,充分考虑Lucene全文检索的高效性以及XML在数据交换、传输、集成和互操作方面的优势,提出了一种结合Lucene、GML、SVG的地图搜索服务模型,解释了其原理以及实现过程,最后在MapGoo地图服务项目中得到实现,证明了该模型的可行性和优越性。 展开更多
关键词 地图搜索引 lucene 地理标记语言 可缩放矢量图像 地图服务 MapGoo
下载PDF
Lucene索引段合并优化策略 被引量:3
19
作者 熊安萍 李传根 曹春江 《重庆邮电大学学报(自然科学版)》 CSCD 北大核心 2020年第1期105-112,共8页
随着大数据应用发展,如何从海量数据中进行高效信息搜索成为研究热点。Lucene全文搜索引擎通过索引段合并来提高索引效率,但Lucene索引段合并过程大多需要从磁盘加载各索引段,将占用大量系统资源,降低系统吞吐量。针对该问题,提出基于Lu... 随着大数据应用发展,如何从海量数据中进行高效信息搜索成为研究热点。Lucene全文搜索引擎通过索引段合并来提高索引效率,但Lucene索引段合并过程大多需要从磁盘加载各索引段,将占用大量系统资源,降低系统吞吐量。针对该问题,提出基于Lucene索引段合并优化策略,该策略通过负载系数来选择不同的索引段合并操作。为提高数据的检索速度,进一步建立索引段相似度评价模型来选择出最优合并索引段集合进行合并。通过与现有Tiere,LogByte,LogDoc等合并策略进行实验对比,提出的优化策略能有效减少索引段合并次数,提升系统吞吐量及索引效率。 展开更多
关键词 lucene 索引段合并 负载系数 索引段相似度 最优合并索引
下载PDF
基于Lucene的站内搜索引擎研究 被引量:7
20
作者 马志强 刘利民 +1 位作者 苏依拉 马瑞明 《内蒙古工业大学学报(自然科学版)》 2009年第1期52-57,共6页
网站提供的站内查询系统存在着系统不能自动采集网络信息,以及模糊查询结果准确率低等缺点.因此,应用搜索引擎的工作原理,设计了一种基于Lucene的站内搜索引擎系统,实现了站内信息的增量采集、自动分词和建立倒排索引功能.该系统的建立... 网站提供的站内查询系统存在着系统不能自动采集网络信息,以及模糊查询结果准确率低等缺点.因此,应用搜索引擎的工作原理,设计了一种基于Lucene的站内搜索引擎系统,实现了站内信息的增量采集、自动分词和建立倒排索引功能.该系统的建立,提高了用户站内搜索的准确率和查全率,使站内信息资源能得到充分利用. 展开更多
关键词 索引 lucene 中文分词
下载PDF
上一页 1 2 24 下一页 到第
使用帮助 返回顶部