-
题名基于Lucene的搜索引擎设计与实现
被引量:26
- 1
-
-
作者
赵珂
逯鹏
李永强
-
机构
郑州大学电气工程学院
-
出处
《计算机工程》
CAS
CSCD
北大核心
2011年第16期39-41,共3页
-
基金
国家自然科学基金资助项目(60841004
60971110)
郑州大学创新性实验基金资助项目(2009cxsy100)
-
文摘
针对目前教育网庞大的FTP资源检索困难的问题,提出一种基于EdtFTPJ和Lucene的FTP搜索引擎的设计和实现方案。该方案整体上采用基于Struts1.2框架的模型-视图-控制器设计模式,数据采集模块利用基于正则表达式的有限状态自动机抓取数据,索引模块应用倒排索引方法,系统的分词算法使用基于字典的正向最大匹配中文分词法。实验结果表明,该方案具有较高的资源检索率,同时能够保证检索结果的准确性。
-
关键词
FTP搜索引擎
lucene框架
模型-视图-控制器
有限状态自动机
倒排索引
-
Keywords
File Transfer Protocol(FTP) search engine
lucene framework
Model View Controller(MVC)
finite state automata
inverted index
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于Lucene的中文分析器分词性能比较研究
被引量:24
- 2
-
-
作者
义天鹏
陈启安
-
机构
厦门大学计算机科学系
-
出处
《计算机工程》
CAS
CSCD
2012年第22期279-282,共4页
-
基金
航空科学基金资助项目(20085568013)
-
文摘
针对Lucene自带的中文分析器分词性能不理想并且难以选择第三方分析器的问题,研究多种基于Lucene的中文分析器,对语句分词、分词速度、建立索引的空间与时间、检索结果以及检索速度等方面进行比较。分析结果表明,在Lucene框架下,基于词典分词的Paoding分析器总体性能最优,Lucene自带的一元分析器分词速度最快,imdict与ICTCLAS4J分析器在算法效率上存在一定改进空间。
-
关键词
lucene框架
搜索引擎
中文分词
分析器
分词速度
索引
检索
-
Keywords
Lueene framework
search engine
Chinese segmentation
analyzer
segmentation speed
index
retrieval
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Lucene的新闻垂直搜索引擎设计与实现
被引量:2
- 3
-
-
作者
许翰林
王瑞
王佳丽
吴宸阳
李浩
陈阳
-
机构
南京信息工程大学电子与信息工程学院
-
出处
《电脑编程技巧与维护》
2018年第2期50-52,共3页
-
文摘
为了提高搜索引擎对新闻检索的准确度,在研究垂直搜索引擎的设计思想和相关技术的基础上,利用Lucene搜索框架设计了新闻垂直搜索引擎。对网络爬虫进行了抓取规则的订制,使其只会抓取新闻相关的网页。采用卡方统计量进行文本特征提取,利用TF*IDF算法进行特征权值计算,利用支持向量机分类算法对新闻数据进行分类。实验结果表明,该新闻垂直搜索引擎可以精准地按类别搜索出新闻信息。
-
关键词
垂直搜索引擎
卡方统计量
网络爬虫
文本分类
lucene框架
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名多级索引驱动的地名信息检索方法
被引量:12
- 4
-
-
作者
李爱勤
-
机构
浙江省测绘科学技术研究院
-
出处
《测绘科学》
CSCD
北大核心
2017年第4期103-107,136,共6页
-
基金
国家重点研发计划资助项目(2016YFC0803106)
浙江省重大科技创新平台建设专项(2008C17004)
-
文摘
针对地理空间数据交换和共享平台的地名数据日益增多及不同部门的数据差异所造成的地名检索效率低下问题,该文分析了平台中地名的表达特征,设计了面向地名信息的多级索引库组织方式,提出了地名特征词典的构建方法,设计并开发原型系统,实现了基于Lucene和地名特征词的检索框架。实验表明:多级索引通过基础索引、特征索引、分类索引三者联动的方式降低了地名检索的复杂度,具有较高的检索效率和准确度,应用于浙江省地理空间数据交换和共享平台取得了良好的效果。
-
关键词
地名信息检索
地名特征词
多级索引
lucene框架
-
Keywords
place name information retrieval
feature words
multilevel index
lucene frame
-
分类号
P208
[天文地球—地图制图学与地理信息工程]
-