期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
基于Lucene的搜索引擎设计与实现 被引量:26
1
作者 赵珂 逯鹏 李永强 《计算机工程》 CAS CSCD 北大核心 2011年第16期39-41,共3页
针对目前教育网庞大的FTP资源检索困难的问题,提出一种基于EdtFTPJ和Lucene的FTP搜索引擎的设计和实现方案。该方案整体上采用基于Struts1.2框架的模型-视图-控制器设计模式,数据采集模块利用基于正则表达式的有限状态自动机抓取数据,... 针对目前教育网庞大的FTP资源检索困难的问题,提出一种基于EdtFTPJ和Lucene的FTP搜索引擎的设计和实现方案。该方案整体上采用基于Struts1.2框架的模型-视图-控制器设计模式,数据采集模块利用基于正则表达式的有限状态自动机抓取数据,索引模块应用倒排索引方法,系统的分词算法使用基于字典的正向最大匹配中文分词法。实验结果表明,该方案具有较高的资源检索率,同时能够保证检索结果的准确性。 展开更多
关键词 FTP搜索引擎 lucene框架 模型-视图-控制器 有限状态自动机 倒排索引
下载PDF
基于Lucene的中文分析器分词性能比较研究 被引量:24
2
作者 义天鹏 陈启安 《计算机工程》 CAS CSCD 2012年第22期279-282,共4页
针对Lucene自带的中文分析器分词性能不理想并且难以选择第三方分析器的问题,研究多种基于Lucene的中文分析器,对语句分词、分词速度、建立索引的空间与时间、检索结果以及检索速度等方面进行比较。分析结果表明,在Lucene框架下,基于词... 针对Lucene自带的中文分析器分词性能不理想并且难以选择第三方分析器的问题,研究多种基于Lucene的中文分析器,对语句分词、分词速度、建立索引的空间与时间、检索结果以及检索速度等方面进行比较。分析结果表明,在Lucene框架下,基于词典分词的Paoding分析器总体性能最优,Lucene自带的一元分析器分词速度最快,imdict与ICTCLAS4J分析器在算法效率上存在一定改进空间。 展开更多
关键词 lucene框架 搜索引擎 中文分词 分析器 分词速度 索引 检索
下载PDF
基于Lucene的新闻垂直搜索引擎设计与实现 被引量:2
3
作者 许翰林 王瑞 +3 位作者 王佳丽 吴宸阳 李浩 陈阳 《电脑编程技巧与维护》 2018年第2期50-52,共3页
为了提高搜索引擎对新闻检索的准确度,在研究垂直搜索引擎的设计思想和相关技术的基础上,利用Lucene搜索框架设计了新闻垂直搜索引擎。对网络爬虫进行了抓取规则的订制,使其只会抓取新闻相关的网页。采用卡方统计量进行文本特征提取,利... 为了提高搜索引擎对新闻检索的准确度,在研究垂直搜索引擎的设计思想和相关技术的基础上,利用Lucene搜索框架设计了新闻垂直搜索引擎。对网络爬虫进行了抓取规则的订制,使其只会抓取新闻相关的网页。采用卡方统计量进行文本特征提取,利用TF*IDF算法进行特征权值计算,利用支持向量机分类算法对新闻数据进行分类。实验结果表明,该新闻垂直搜索引擎可以精准地按类别搜索出新闻信息。 展开更多
关键词 垂直搜索引擎 卡方统计量 网络爬虫 文本分类 lucene框架
下载PDF
多级索引驱动的地名信息检索方法 被引量:12
4
作者 李爱勤 《测绘科学》 CSCD 北大核心 2017年第4期103-107,136,共6页
针对地理空间数据交换和共享平台的地名数据日益增多及不同部门的数据差异所造成的地名检索效率低下问题,该文分析了平台中地名的表达特征,设计了面向地名信息的多级索引库组织方式,提出了地名特征词典的构建方法,设计并开发原型系统,... 针对地理空间数据交换和共享平台的地名数据日益增多及不同部门的数据差异所造成的地名检索效率低下问题,该文分析了平台中地名的表达特征,设计了面向地名信息的多级索引库组织方式,提出了地名特征词典的构建方法,设计并开发原型系统,实现了基于Lucene和地名特征词的检索框架。实验表明:多级索引通过基础索引、特征索引、分类索引三者联动的方式降低了地名检索的复杂度,具有较高的检索效率和准确度,应用于浙江省地理空间数据交换和共享平台取得了良好的效果。 展开更多
关键词 地名信息检索 地名特征词 多级索引 lucene框架
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部