期刊导航
期刊开放获取
河南省图书馆
退出
期刊文献
+
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
任意字段
题名或关键词
题名
关键词
文摘
作者
第一作者
机构
刊名
分类号
参考文献
作者简介
基金资助
栏目信息
检索
高级检索
期刊导航
共找到
45
篇文章
<
1
2
3
>
每页显示
20
50
100
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
显示方式:
文摘
详细
列表
相关度排序
被引量排序
时效性排序
Nutch-0.9中JE中文分词的实现
被引量:
5
1
作者
蔡小艳
寇应展
+1 位作者
沈巍
郑伟
《科学技术与工程》
2008年第17期4881-4884,4890,共5页
Nutch是一个开放源代码的Web搜索引擎,基于开源搜索框架Lucene,扩展性较好。Nutch是针对英文开发的,对中文只进行单字切分。通过分析Nutch的语言分析器结构,结合基于词库的正向最大匹配分词算法的JE分词,实现了Nutch的中文分词。
关键词
nutch
lucene
je
分词
中文分词
下载PDF
职称材料
基于Lucene的地名数据库快速检索系统
被引量:
20
2
作者
张文元
周世宇
谈国新
《计算机应用研究》
CSCD
北大核心
2017年第6期1756-1761,共6页
针对传统关系型数据库海量地名数据检索效率低下的问题,提出了一种盘古分词和Lucene全文检索相结合的地名数据库快速检索方法。首先,设计了一种地名数据表结构,比较了几种常用开源分词器的中文分词性能,并选用性能优异的盘古中文分词器...
针对传统关系型数据库海量地名数据检索效率低下的问题,提出了一种盘古分词和Lucene全文检索相结合的地名数据库快速检索方法。首先,设计了一种地名数据表结构,比较了几种常用开源分词器的中文分词性能,并选用性能优异的盘古中文分词器,通过扩展其词典来实现中文地名的有效分词。其次,利用内存索引和多线程并行处理技术提高Lucene创建倒排索引效率,并依据地名类别和显示优先级属性优化了检索结果相关度排序策略。最后,开发了一套具有快速搜索和地图定位展示的Web地名检索系统,使用500万条真实地名数据测试了其检索性能,查询平均耗时不到1s,比MySQL数据库模糊检索效率提高了15倍,匹配结果也更加准确,能够提供高效灵活的海量地名公共检索服务。
展开更多
关键词
lucene
地名
全文检索
数据库
中文分词
相关度排序
下载PDF
职称材料
基于Lucene的站内搜索设计与实现
被引量:
12
3
作者
朱学昊
王儒敬
+1 位作者
余锋林
唐昱
《计算机应用与软件》
CSCD
北大核心
2008年第10期6-8,共3页
简述了站内全文检索的必要性,介绍了一种基于Lucene的全文检索系统模型,相对于Google的站内检索和传统的数据库检索都有较为明显的优势。该模型引入更好的中文分词技术,可自定义最终结果的排序。能够保证检索的前100条记录最符合检索者...
简述了站内全文检索的必要性,介绍了一种基于Lucene的全文检索系统模型,相对于Google的站内检索和传统的数据库检索都有较为明显的优势。该模型引入更好的中文分词技术,可自定义最终结果的排序。能够保证检索的前100条记录最符合检索者的需要。
展开更多
关键词
全文检索
lucene
中文分词
信息抽取
下载PDF
职称材料
Hadoop云平台下Nutch中文分词的研究与实现
被引量:
5
4
作者
朱潜
吴辰铌
+1 位作者
朱志良
刘洪娟
《小型微型计算机系统》
CSCD
北大核心
2013年第12期2772-2776,共5页
Nutch是开源搜索引擎,Hadoop是Apache开发的类似于Google GFS和MapReduce的开源云平台.利用Nutch和Hadoop可以设计高效、可靠、可扩展的搜索引擎,然而Nutch的分词模块对中文进行单字切分,不符合在汉语中以词语切分的习惯,为了解决这个问...
Nutch是开源搜索引擎,Hadoop是Apache开发的类似于Google GFS和MapReduce的开源云平台.利用Nutch和Hadoop可以设计高效、可靠、可扩展的搜索引擎,然而Nutch的分词模块对中文进行单字切分,不符合在汉语中以词语切分的习惯,为了解决这个问题,采用词典分词的中文分词器IK Analyzer对Nutch的分词模块进行改进,首先描述在Nutch上实现IK Analyzer的方法,然后在Hadoop云环境下对该分词模块进行测试.测试结果表明,IK Analyzer的中文分词效果很符合汉语的习惯,对Nutch的理论和应用研究具有一定的意义.
展开更多
关键词
nutch
HADOOP
中文分词
云计算
下载PDF
职称材料
基于Lucene的中文字典分词模块的设计与实现
被引量:
27
5
作者
向晖
郭一平
王亮
《现代图书情报技术》
CSSCI
北大核心
2006年第8期46-50,共5页
在分析Lucene语言分析器结构的基础上,采用基于中文字典的正向最大匹配分词算法,设计实现能够在基于Lucene的搜索引擎中处理中文信息的中文分词模块。
关键词
搜索引擎
lucene
中文分词
正向最大匹配算法
下载PDF
职称材料
Nutch中网页排序效果的改进方法
被引量:
6
6
作者
潘涛
梁正友
《计算机工程》
CAS
CSCD
北大核心
2010年第13期42-44,共3页
Nutch是一个Java实现的开源搜索引擎。针对目前Nutch对中文进行单字切分且没有实现PageRank计算的缺点,改进PageRank算法,设计并实现基于MapReduce的PageRank计算方法,对Nutch中文分词进行改进,加入JE中文分词器。实验结果表明,改进后的...
Nutch是一个Java实现的开源搜索引擎。针对目前Nutch对中文进行单字切分且没有实现PageRank计算的缺点,改进PageRank算法,设计并实现基于MapReduce的PageRank计算方法,对Nutch中文分词进行改进,加入JE中文分词器。实验结果表明,改进后的Nutch具有更高的查询结果准确率和中文网页排序效果。
展开更多
关键词
nutch
搜索引擎
MAPREDUCE模型
PAGERANK算法
je
中文分词器
下载PDF
职称材料
针对中文检索的Lucene改进策略
被引量:
10
7
作者
索红光
孙鑫
《计算机应用与软件》
CSCD
2009年第6期175-177,共3页
为了提高基于Lucene中文检索系统的检索精度和效率,通过分析Lucene的结构,在系统中加入了中文分词模块和索引文档预处理模块。给出了具体的实验方法和实验过程,对改进原理和实验数据进行了分析,表明了加入中文分词模块和在索引预处理模...
为了提高基于Lucene中文检索系统的检索精度和效率,通过分析Lucene的结构,在系统中加入了中文分词模块和索引文档预处理模块。给出了具体的实验方法和实验过程,对改进原理和实验数据进行了分析,表明了加入中文分词模块和在索引预处理模块中采用提取特定数量的特征词来替代文档的方法能够有效提高Lucene检索系统的效率和精度,增强Lucene检索系统中文的性能。
展开更多
关键词
lucene
索引
中文分词
文档预处理
下载PDF
职称材料
一种基于Lucene的影片搜索引擎的研究和应用
被引量:
3
8
作者
匡振国
倪宏
+1 位作者
嵇智辉
刘磊
《计算机工程与应用》
CSCD
北大核心
2008年第29期8-10,30,共4页
Lucene是一个优秀的开源搜索引擎框架,已经广泛应用于信息搜索领域。分析点播门户中现有的搜索引擎存在的不足,设计一种基于双字哈希算法支持中文的分词器,并利用该分词器和Lucene工具包,设计并实现了一个视频点播影片快速搜索引擎,它...
Lucene是一个优秀的开源搜索引擎框架,已经广泛应用于信息搜索领域。分析点播门户中现有的搜索引擎存在的不足,设计一种基于双字哈希算法支持中文的分词器,并利用该分词器和Lucene工具包,设计并实现了一个视频点播影片快速搜索引擎,它不仅支持中文检索,还具有搜索速度快、易于扩展等优点。仿真实验证明提出的基于Lucene的影片搜索引擎具有良好的性能。
展开更多
关键词
lucene
搜索引擎
双字哈希
中文分词
倒排索引
下载PDF
职称材料
汉语词法分析系统ICTCLAS在Nutch-0.9中的应用与实现
被引量:
6
9
作者
蔡小艳
寇应展
+1 位作者
沈巍
郑伟
《军械工程学院学报》
2008年第5期63-66,70,共5页
分析了Nutch的语言分析器结构,针对Nutch对中文进行单字切分的不足,结合基于多层隐马模型的汉语词法分析系统ICTCLAS,以JavaCC脚本设计了可扩展的词法分析器,实现了Nutch对中文的词语切分。实验表明,利用JavaCC和ICTCLAS分词系统...
分析了Nutch的语言分析器结构,针对Nutch对中文进行单字切分的不足,结合基于多层隐马模型的汉语词法分析系统ICTCLAS,以JavaCC脚本设计了可扩展的词法分析器,实现了Nutch对中文的词语切分。实验表明,利用JavaCC和ICTCLAS分词系统实现的中文分词完善了Nutch的中文搜索功能。
展开更多
关键词
nutch
lucene
ICTCLAS
中文分词
汉语词法分析系统
下载PDF
职称材料
基于Lucene的站内搜索引擎研究
被引量:
7
10
作者
马志强
刘利民
+1 位作者
苏依拉
马瑞明
《内蒙古工业大学学报(自然科学版)》
2009年第1期52-57,共6页
网站提供的站内查询系统存在着系统不能自动采集网络信息,以及模糊查询结果准确率低等缺点.因此,应用搜索引擎的工作原理,设计了一种基于Lucene的站内搜索引擎系统,实现了站内信息的增量采集、自动分词和建立倒排索引功能.该系统的建立...
网站提供的站内查询系统存在着系统不能自动采集网络信息,以及模糊查询结果准确率低等缺点.因此,应用搜索引擎的工作原理,设计了一种基于Lucene的站内搜索引擎系统,实现了站内信息的增量采集、自动分词和建立倒排索引功能.该系统的建立,提高了用户站内搜索的准确率和查全率,使站内信息资源能得到充分利用.
展开更多
关键词
搜索引擎
lucene
中文分词
下载PDF
职称材料
Lucene.net中文分词算法分析
被引量:
3
11
作者
周拴龙
《郑州大学学报(理学版)》
CAS
北大核心
2011年第3期73-77,共5页
Lucene.net实现中文分词依靠的是Analyzer类,但通过分析其内置的Keyword Analyzer,Standard Analyzer,Sto-pAnalyzer,Simple Analyzer,Whitespace Analyzer5个分词类发现,它们几乎都是按单字的标准进行切分的,为更好处理中文信息,必须...
Lucene.net实现中文分词依靠的是Analyzer类,但通过分析其内置的Keyword Analyzer,Standard Analyzer,Sto-pAnalyzer,Simple Analyzer,Whitespace Analyzer5个分词类发现,它们几乎都是按单字的标准进行切分的,为更好处理中文信息,必须引用外部独立开发的中文分词包.在对Chinese Analyzer,CJK Analyzer和IK Analyzer这3种典型的中文分词包分别测试后,发现采用字典分词以及正反双向搜索方法的IK Analyzer分词器的分词效果更胜一筹.
展开更多
关键词
lucene
中文分词
Analyzer类
下载PDF
职称材料
Nutch中文分词插件的编写与实现
被引量:
1
12
作者
蔡小艳
沈巍
+1 位作者
胡婷婷
曹永刚
《信息技术》
2010年第2期97-100,103,共5页
开源搜索引擎Nutch是针对英文环境开发的,针对Nutch对中文进行单字切分的不足,在剖析Nutch分词器的基础上,基于Nutch的插件机制,结合中科院的中文分词系统ICTCLAS,成功地实现了Nutch对中文的词语切分,完善了基于Nutch的中文搜索引擎的...
开源搜索引擎Nutch是针对英文环境开发的,针对Nutch对中文进行单字切分的不足,在剖析Nutch分词器的基础上,基于Nutch的插件机制,结合中科院的中文分词系统ICTCLAS,成功地实现了Nutch对中文的词语切分,完善了基于Nutch的中文搜索引擎的开发。
展开更多
关键词
nutch
ICLCLAS
插件机制
中文分词
下载PDF
职称材料
基于Lucene的自定义中文分词器的设计与实现
被引量:
1
13
作者
王桐
王韵婷
《电脑知识与技术(过刊)》
2014年第1X期430-433,共4页
该文设计了一个基于复杂形式最大匹配算法(MMSeg_Complex)的自定义中文分词器,该分词器采用四种歧义消除规则,并实现了用户自定义词库、自定义同义词和停用词的功能,可方便地集成到Lucene中,从而有效地提高了Lucene的中文处理能力。通...
该文设计了一个基于复杂形式最大匹配算法(MMSeg_Complex)的自定义中文分词器,该分词器采用四种歧义消除规则,并实现了用户自定义词库、自定义同义词和停用词的功能,可方便地集成到Lucene中,从而有效地提高了Lucene的中文处理能力。通过实验测试表明,该分词器的分词性能跟Lucene自带的中文分词器相比有了极大的提高,并最终构建出了一个高效的中文全文检索系统。
展开更多
关键词
中文分词
复杂最大匹配
lucene
分词器
下载PDF
职称材料
Nutch中文分词的设计与实现
被引量:
1
14
作者
张敏
杜华
《河北北方学院学报(自然科学版)》
2010年第4期53-56,62,共5页
面对与日俱增的中文信息检索需求,Nutch作为一个开源的搜索引擎系统平台受到众多开发者的青睐.但由于Nutch是基于英文的系统,不具备中文分词能力,因此,研究中文分词方法在Nutch中的应用对实现中文搜索引擎具有非常现实的意义.在对中文...
面对与日俱增的中文信息检索需求,Nutch作为一个开源的搜索引擎系统平台受到众多开发者的青睐.但由于Nutch是基于英文的系统,不具备中文分词能力,因此,研究中文分词方法在Nutch中的应用对实现中文搜索引擎具有非常现实的意义.在对中文分词技术进行研究的基础上,设计并实现了具有中文分词功能和新词识别功能的分词器,在Nutch中实现了中文分词功能.实验测试结果表明,算法的分词效果能够达到预期的中文分词的要求.
展开更多
关键词
搜索引擎
中文分词
分词器
nutch
下载PDF
职称材料
利用Nutch设计实现生物医学信息垂直搜索引擎
15
作者
王小磊
李立
赵东升
《北京生物医学工程》
2010年第6期638-640,644,共4页
在网络的海量信息搜索过程中,医学情报研究和信息服务机构,经常需要构建面向专题的垂直搜索系统以满足特定人群的需求。本文利用Nutch和Lucene等开源软件设计了一个面向生物医学信息的垂直搜索引擎系统,并对网页信息抓取、格式处理、内...
在网络的海量信息搜索过程中,医学情报研究和信息服务机构,经常需要构建面向专题的垂直搜索系统以满足特定人群的需求。本文利用Nutch和Lucene等开源软件设计了一个面向生物医学信息的垂直搜索引擎系统,并对网页信息抓取、格式处理、内容索引和检索等关键技术进行了说明。在此搜索引擎中,通过加入中文分词和增量抓取等模块,提高了中文关键字的识别率,缩短了信息的更新周期。目前该系统已经上线测试,能够获得较为精确和及时的搜索结果。
展开更多
关键词
nutch
网络信息抓取
lucene
中文分词
增量抓取
下载PDF
职称材料
基于Lucene全文检索引擎技术的研究
16
作者
徐春凤
王艳春
叶青
《长春理工大学学报(自然科学版)》
2011年第4期149-152,共4页
全文检索作为现代信息检索技术的一个重要分支,不仅是处理非结构化数据的重要工具,也是搜索引擎的主流技术之一。本文首先从全文搜索引擎模型入手,对其基本工作原理和流程进行深入研究,并结合这些知识研究开源检索引擎包Lucene的架构原...
全文检索作为现代信息检索技术的一个重要分支,不仅是处理非结构化数据的重要工具,也是搜索引擎的主流技术之一。本文首先从全文搜索引擎模型入手,对其基本工作原理和流程进行深入研究,并结合这些知识研究开源检索引擎包Lucene的架构原理及其开发应用方法。然后介绍中文分词和基本算法及Lucene的相关技术。
展开更多
关键词
全文检索
lucene
中文分词
下载PDF
职称材料
基于Lucene的智能答疑系统的研究与实现
被引量:
7
17
作者
权聪敏
赵钊
文福安
《郑州大学学报(理学版)》
CAS
2007年第2期46-49,共4页
在对Lucene现有的中文分词器进行深入分析的基础上,提出了适合中英文处理的分词器.把研究内容应用在网络答疑系统中,建立问题库,利用Lucene对已有的问答进行全文检索,实现了智能答疑的功能.最后设计了一个对搜索出来的问答进行排序的方...
在对Lucene现有的中文分词器进行深入分析的基础上,提出了适合中英文处理的分词器.把研究内容应用在网络答疑系统中,建立问题库,利用Lucene对已有的问答进行全文检索,实现了智能答疑的功能.最后设计了一个对搜索出来的问答进行排序的方法,以便提高系统的使用价值和性能,更好地实现智能答疑.
展开更多
关键词
lucene
全文检索
中文分词
智能答疑
下载PDF
职称材料
基于Nutch的医疗搜索引擎的研究与开发
被引量:
3
18
作者
袁恩阁
吴向前
杨文忠
《新疆大学学报(自然科学版)》
CAS
2014年第2期217-221,共5页
针对当前大众借助网络获取医疗信息的需求日益增强,以及通用搜索引擎获取专业领域信息时准确性差、效率低下的缺点,本文设计了基于nutch组件的医疗垂直搜索引擎.该系统实现了中文分词功能,通过文本训练得出了专业词库,运用空间向量模型...
针对当前大众借助网络获取医疗信息的需求日益增强,以及通用搜索引擎获取专业领域信息时准确性差、效率低下的缺点,本文设计了基于nutch组件的医疗垂直搜索引擎.该系统实现了中文分词功能,通过文本训练得出了专业词库,运用空间向量模型算法对网页进行医疗主题相关度的计算,实现了网页过滤功能,并在排序算法中加入了主题相关因素.测试结果表明:该系统相对于通用搜索引擎,在获取医疗行业信息方面具有更高查准率,减少了不相关信息的干扰,使医疗信息的查找与定位更精确,能够为大众提供更具针对性的服务.
展开更多
关键词
垂直搜索引擎
医疗信息
中文分词
文本分类
下载PDF
职称材料
基于Lucene的中文分词全文搜索引擎设计与实现
19
作者
李炳练
《电脑知识与技术》
2015年第5期236-237,共2页
基于Lucene的全文检索开源项目基础上,采用Paoding Analyzer中文分词器,设计了一个基于中文环境的高效分词与全文搜索引擎系统,实现多种类型文件内容的文本全文检索功能。
关键词
全文搜索
中文分词
搜索引擎
lucene
下载PDF
职称材料
一种基于Lucene的中文分词的设计与测试
被引量:
6
20
作者
王志嘉
薛质
《信息技术》
2010年第12期50-54,共5页
设计实现了一个基于Lucene的中文分词模块,提出了一种更为有效的中文词处理方法,提高全文检索系统的中文处理能力。整个模块基于当前使用较为广泛的全文检索引擎工具包Lucene,结合正向最大匹配算法以及经过优化的中文分词词典,以实现更...
设计实现了一个基于Lucene的中文分词模块,提出了一种更为有效的中文词处理方法,提高全文检索系统的中文处理能力。整个模块基于当前使用较为广泛的全文检索引擎工具包Lucene,结合正向最大匹配算法以及经过优化的中文分词词典,以实现更高效率和准确度的中文分词功能。在系统评测方面,通过实验仿真比较了该模块与StandardAnalyzer和CJKAnalyzer在功能和效率上的差异。对于如何构建一个高效的中文检索系统,提出了一种实现方案。
展开更多
关键词
中文分词
搜索引擎
lucene
正向最大匹配算法
下载PDF
职称材料
题名
Nutch-0.9中JE中文分词的实现
被引量:
5
1
作者
蔡小艳
寇应展
沈巍
郑伟
机构
军械工程学院计算机工程系
北京航空航天大学电子信息工程学院
出处
《科学技术与工程》
2008年第17期4881-4884,4890,共5页
文摘
Nutch是一个开放源代码的Web搜索引擎,基于开源搜索框架Lucene,扩展性较好。Nutch是针对英文开发的,对中文只进行单字切分。通过分析Nutch的语言分析器结构,结合基于词库的正向最大匹配分词算法的JE分词,实现了Nutch的中文分词。
关键词
nutch
lucene
je
分词
中文分词
Keywords
nutch lucene je segmentation chinese segmentation
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Lucene的地名数据库快速检索系统
被引量:
20
2
作者
张文元
周世宇
谈国新
机构
华中师范大学国家文化产业研究中心
出处
《计算机应用研究》
CSCD
北大核心
2017年第6期1756-1761,共6页
基金
国家科技支撑计划资助项目(2012BAH83F00)
文摘
针对传统关系型数据库海量地名数据检索效率低下的问题,提出了一种盘古分词和Lucene全文检索相结合的地名数据库快速检索方法。首先,设计了一种地名数据表结构,比较了几种常用开源分词器的中文分词性能,并选用性能优异的盘古中文分词器,通过扩展其词典来实现中文地名的有效分词。其次,利用内存索引和多线程并行处理技术提高Lucene创建倒排索引效率,并依据地名类别和显示优先级属性优化了检索结果相关度排序策略。最后,开发了一套具有快速搜索和地图定位展示的Web地名检索系统,使用500万条真实地名数据测试了其检索性能,查询平均耗时不到1s,比MySQL数据库模糊检索效率提高了15倍,匹配结果也更加准确,能够提供高效灵活的海量地名公共检索服务。
关键词
lucene
地名
全文检索
数据库
中文分词
相关度排序
Keywords
lucene
place name
full-text search
database
chinese
word
segmentation
relevancy ranking
分类号
TP311.13 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于Lucene的站内搜索设计与实现
被引量:
12
3
作者
朱学昊
王儒敬
余锋林
唐昱
机构
中国科学院合肥智能机械研究所
中国科学技术大学
出处
《计算机应用与软件》
CSCD
北大核心
2008年第10期6-8,共3页
基金
国家863高科技发展研究计划资助项目(2003AA118070)
文摘
简述了站内全文检索的必要性,介绍了一种基于Lucene的全文检索系统模型,相对于Google的站内检索和传统的数据库检索都有较为明显的优势。该模型引入更好的中文分词技术,可自定义最终结果的排序。能够保证检索的前100条记录最符合检索者的需要。
关键词
全文检索
lucene
中文分词
信息抽取
Keywords
Full text search engine
lucene
chinese
word
segmentation
Information retrieval
分类号
TP316 [自动化与计算机技术—计算机软件与理论]
U285.6 [交通运输工程—交通信息工程及控制]
下载PDF
职称材料
题名
Hadoop云平台下Nutch中文分词的研究与实现
被引量:
5
4
作者
朱潜
吴辰铌
朱志良
刘洪娟
机构
东北大学软件学院
东北大学信息科学与工程学院
出处
《小型微型计算机系统》
CSCD
北大核心
2013年第12期2772-2776,共5页
基金
辽宁省自然科学基金项目(201202076)资助
文摘
Nutch是开源搜索引擎,Hadoop是Apache开发的类似于Google GFS和MapReduce的开源云平台.利用Nutch和Hadoop可以设计高效、可靠、可扩展的搜索引擎,然而Nutch的分词模块对中文进行单字切分,不符合在汉语中以词语切分的习惯,为了解决这个问题,采用词典分词的中文分词器IK Analyzer对Nutch的分词模块进行改进,首先描述在Nutch上实现IK Analyzer的方法,然后在Hadoop云环境下对该分词模块进行测试.测试结果表明,IK Analyzer的中文分词效果很符合汉语的习惯,对Nutch的理论和应用研究具有一定的意义.
关键词
nutch
HADOOP
中文分词
云计算
Keywords
nutch
Hadoop
chinese
word
segmentation
cloud computing
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于Lucene的中文字典分词模块的设计与实现
被引量:
27
5
作者
向晖
郭一平
王亮
机构
华中科技大学控制科学与工程系
华中科技大学图书馆
出处
《现代图书情报技术》
CSSCI
北大核心
2006年第8期46-50,共5页
文摘
在分析Lucene语言分析器结构的基础上,采用基于中文字典的正向最大匹配分词算法,设计实现能够在基于Lucene的搜索引擎中处理中文信息的中文分词模块。
关键词
搜索引擎
lucene
中文分词
正向最大匹配算法
Keywords
Search engine
lucene
chinese
words
segmentation
Forwards maximum match algorithm
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
Nutch中网页排序效果的改进方法
被引量:
6
6
作者
潘涛
梁正友
机构
广西大学计算机与电子信息学院
出处
《计算机工程》
CAS
CSCD
北大核心
2010年第13期42-44,共3页
基金
广西自然科学基金资助项目(桂科自0832059)
文摘
Nutch是一个Java实现的开源搜索引擎。针对目前Nutch对中文进行单字切分且没有实现PageRank计算的缺点,改进PageRank算法,设计并实现基于MapReduce的PageRank计算方法,对Nutch中文分词进行改进,加入JE中文分词器。实验结果表明,改进后的Nutch具有更高的查询结果准确率和中文网页排序效果。
关键词
nutch
搜索引擎
MAPREDUCE模型
PAGERANK算法
je
中文分词器
Keywords
nutch
search engine
MapReduce model
PageRank algorithm
je
chinese
word
segmentation
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
针对中文检索的Lucene改进策略
被引量:
10
7
作者
索红光
孙鑫
机构
中国石油大学计算机与通信工程学院
出处
《计算机应用与软件》
CSCD
2009年第6期175-177,共3页
文摘
为了提高基于Lucene中文检索系统的检索精度和效率,通过分析Lucene的结构,在系统中加入了中文分词模块和索引文档预处理模块。给出了具体的实验方法和实验过程,对改进原理和实验数据进行了分析,表明了加入中文分词模块和在索引预处理模块中采用提取特定数量的特征词来替代文档的方法能够有效提高Lucene检索系统的效率和精度,增强Lucene检索系统中文的性能。
关键词
lucene
索引
中文分词
文档预处理
Keywords
lucene
Index
chinese
word
segmentation
Documents pretreatment
分类号
TP316 [自动化与计算机技术—计算机软件与理论]
G354.4 [文化科学—情报学]
下载PDF
职称材料
题名
一种基于Lucene的影片搜索引擎的研究和应用
被引量:
3
8
作者
匡振国
倪宏
嵇智辉
刘磊
机构
中国科学院研究生院
中国科学院声学研究所国家网络新媒体工程技术研究中心
出处
《计算机工程与应用》
CSCD
北大核心
2008年第29期8-10,30,共4页
基金
国家科技支撑计划项目(No.2008BAH28B04)
中科院声学研究所创新前瞻项目(No.GS12CXJ01)
文摘
Lucene是一个优秀的开源搜索引擎框架,已经广泛应用于信息搜索领域。分析点播门户中现有的搜索引擎存在的不足,设计一种基于双字哈希算法支持中文的分词器,并利用该分词器和Lucene工具包,设计并实现了一个视频点播影片快速搜索引擎,它不仅支持中文检索,还具有搜索速度快、易于扩展等优点。仿真实验证明提出的基于Lucene的影片搜索引擎具有良好的性能。
关键词
lucene
搜索引擎
双字哈希
中文分词
倒排索引
Keywords
lucene
search engine
double character hash index
chinese
word
segmentation
inverted index
分类号
TP309 [自动化与计算机技术—计算机系统结构]
下载PDF
职称材料
题名
汉语词法分析系统ICTCLAS在Nutch-0.9中的应用与实现
被引量:
6
9
作者
蔡小艳
寇应展
沈巍
郑伟
机构
军械工程学院计算机工程系
北京航空航天大学电子信息工程学院
出处
《军械工程学院学报》
2008年第5期63-66,70,共5页
文摘
分析了Nutch的语言分析器结构,针对Nutch对中文进行单字切分的不足,结合基于多层隐马模型的汉语词法分析系统ICTCLAS,以JavaCC脚本设计了可扩展的词法分析器,实现了Nutch对中文的词语切分。实验表明,利用JavaCC和ICTCLAS分词系统实现的中文分词完善了Nutch的中文搜索功能。
关键词
nutch
lucene
ICTCLAS
中文分词
汉语词法分析系统
Keywords
nutch
lucene
ICTCLAS
chinese
segmentation
分类号
TP393.09 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Lucene的站内搜索引擎研究
被引量:
7
10
作者
马志强
刘利民
苏依拉
马瑞明
机构
内蒙古工业大学信息工程学院
内蒙古电力工程技术研究院
出处
《内蒙古工业大学学报(自然科学版)》
2009年第1期52-57,共6页
基金
国家自然科学基金资助项目(60673015)
内蒙古工业大学科学研究项目(X200806)
文摘
网站提供的站内查询系统存在着系统不能自动采集网络信息,以及模糊查询结果准确率低等缺点.因此,应用搜索引擎的工作原理,设计了一种基于Lucene的站内搜索引擎系统,实现了站内信息的增量采集、自动分词和建立倒排索引功能.该系统的建立,提高了用户站内搜索的准确率和查全率,使站内信息资源能得到充分利用.
关键词
搜索引擎
lucene
中文分词
Keywords
search engine
lucene
chinese
word
segmentation
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
Lucene.net中文分词算法分析
被引量:
3
11
作者
周拴龙
机构
郑州大学信息管理系
出处
《郑州大学学报(理学版)》
CAS
北大核心
2011年第3期73-77,共5页
文摘
Lucene.net实现中文分词依靠的是Analyzer类,但通过分析其内置的Keyword Analyzer,Standard Analyzer,Sto-pAnalyzer,Simple Analyzer,Whitespace Analyzer5个分词类发现,它们几乎都是按单字的标准进行切分的,为更好处理中文信息,必须引用外部独立开发的中文分词包.在对Chinese Analyzer,CJK Analyzer和IK Analyzer这3种典型的中文分词包分别测试后,发现采用字典分词以及正反双向搜索方法的IK Analyzer分词器的分词效果更胜一筹.
关键词
lucene
中文分词
Analyzer类
Keywords
lucene
chinese
word segment
Class Analyzer
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
Nutch中文分词插件的编写与实现
被引量:
1
12
作者
蔡小艳
沈巍
胡婷婷
曹永刚
机构
武汉军械士官学校光电仪器与指挥控制系
江苏省邮电规划设计院有限责任公司
出处
《信息技术》
2010年第2期97-100,103,共5页
文摘
开源搜索引擎Nutch是针对英文环境开发的,针对Nutch对中文进行单字切分的不足,在剖析Nutch分词器的基础上,基于Nutch的插件机制,结合中科院的中文分词系统ICTCLAS,成功地实现了Nutch对中文的词语切分,完善了基于Nutch的中文搜索引擎的开发。
关键词
nutch
ICLCLAS
插件机制
中文分词
Keywords
nutch
ICTCLAS
plug-in mechanism
chinese
segmentation
分类号
TP391.3 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Lucene的自定义中文分词器的设计与实现
被引量:
1
13
作者
王桐
王韵婷
机构
哈尔滨工程大学信息与通信工程学院
出处
《电脑知识与技术(过刊)》
2014年第1X期430-433,共4页
文摘
该文设计了一个基于复杂形式最大匹配算法(MMSeg_Complex)的自定义中文分词器,该分词器采用四种歧义消除规则,并实现了用户自定义词库、自定义同义词和停用词的功能,可方便地集成到Lucene中,从而有效地提高了Lucene的中文处理能力。通过实验测试表明,该分词器的分词性能跟Lucene自带的中文分词器相比有了极大的提高,并最终构建出了一个高效的中文全文检索系统。
关键词
中文分词
复杂最大匹配
lucene
分词器
Keywords
chinese
word
segmentation
Complex_Maximum Matching
lucene
full-text retrieval
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
Nutch中文分词的设计与实现
被引量:
1
14
作者
张敏
杜华
机构
河北北方学院信息科学与工程学院
出处
《河北北方学院学报(自然科学版)》
2010年第4期53-56,62,共5页
基金
河北省张家口市2009年科技攻关计划项目(0921047B)
文摘
面对与日俱增的中文信息检索需求,Nutch作为一个开源的搜索引擎系统平台受到众多开发者的青睐.但由于Nutch是基于英文的系统,不具备中文分词能力,因此,研究中文分词方法在Nutch中的应用对实现中文搜索引擎具有非常现实的意义.在对中文分词技术进行研究的基础上,设计并实现了具有中文分词功能和新词识别功能的分词器,在Nutch中实现了中文分词功能.实验测试结果表明,算法的分词效果能够达到预期的中文分词的要求.
关键词
搜索引擎
中文分词
分词器
nutch
Keywords
search engine
chinese
word
segmentation
word-dividing machine
nutch
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
利用Nutch设计实现生物医学信息垂直搜索引擎
15
作者
王小磊
李立
赵东升
机构
军事医学科学院卫生勤务与医学情报研究所
出处
《北京生物医学工程》
2010年第6期638-640,644,共4页
文摘
在网络的海量信息搜索过程中,医学情报研究和信息服务机构,经常需要构建面向专题的垂直搜索系统以满足特定人群的需求。本文利用Nutch和Lucene等开源软件设计了一个面向生物医学信息的垂直搜索引擎系统,并对网页信息抓取、格式处理、内容索引和检索等关键技术进行了说明。在此搜索引擎中,通过加入中文分词和增量抓取等模块,提高了中文关键字的识别率,缩短了信息的更新周期。目前该系统已经上线测试,能够获得较为精确和及时的搜索结果。
关键词
nutch
网络信息抓取
lucene
中文分词
增量抓取
Keywords
nutch
soflware
crawl
lucene
software
chinese
word
segmentation
re-crawl
分类号
R318.04 [医药卫生—生物医学工程]
下载PDF
职称材料
题名
基于Lucene全文检索引擎技术的研究
16
作者
徐春凤
王艳春
叶青
机构
长春理工大学计算机科学技术学院
出处
《长春理工大学学报(自然科学版)》
2011年第4期149-152,共4页
文摘
全文检索作为现代信息检索技术的一个重要分支,不仅是处理非结构化数据的重要工具,也是搜索引擎的主流技术之一。本文首先从全文搜索引擎模型入手,对其基本工作原理和流程进行深入研究,并结合这些知识研究开源检索引擎包Lucene的架构原理及其开发应用方法。然后介绍中文分词和基本算法及Lucene的相关技术。
关键词
全文检索
lucene
中文分词
Keywords
full-text retrieval
lucene
chinese
segmentation
分类号
TP393.02 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Lucene的智能答疑系统的研究与实现
被引量:
7
17
作者
权聪敏
赵钊
文福安
机构
北京邮电大学网络教育学院
出处
《郑州大学学报(理学版)》
CAS
2007年第2期46-49,共4页
基金
国家"十五"科技攻关项目
编号2005BA115A01
文摘
在对Lucene现有的中文分词器进行深入分析的基础上,提出了适合中英文处理的分词器.把研究内容应用在网络答疑系统中,建立问题库,利用Lucene对已有的问答进行全文检索,实现了智能答疑的功能.最后设计了一个对搜索出来的问答进行排序的方法,以便提高系统的使用价值和性能,更好地实现智能答疑.
关键词
lucene
全文检索
中文分词
智能答疑
Keywords
lucene
full text search
chinese
word
segmentation
intelligent answer-question
分类号
TP391.1 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
基于Nutch的医疗搜索引擎的研究与开发
被引量:
3
18
作者
袁恩阁
吴向前
杨文忠
机构
新疆大学电气工程学院
出处
《新疆大学学报(自然科学版)》
CAS
2014年第2期217-221,共5页
基金
地区科学基金(61262087)
文摘
针对当前大众借助网络获取医疗信息的需求日益增强,以及通用搜索引擎获取专业领域信息时准确性差、效率低下的缺点,本文设计了基于nutch组件的医疗垂直搜索引擎.该系统实现了中文分词功能,通过文本训练得出了专业词库,运用空间向量模型算法对网页进行医疗主题相关度的计算,实现了网页过滤功能,并在排序算法中加入了主题相关因素.测试结果表明:该系统相对于通用搜索引擎,在获取医疗行业信息方面具有更高查准率,减少了不相关信息的干扰,使医疗信息的查找与定位更精确,能够为大众提供更具针对性的服务.
关键词
垂直搜索引擎
医疗信息
中文分词
文本分类
Keywords
nutch
vertical search engine
nutch
medical information
chinese
word
segmentation
text catego-rization
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
基于Lucene的中文分词全文搜索引擎设计与实现
19
作者
李炳练
机构
珠海城市职业技术学院
出处
《电脑知识与技术》
2015年第5期236-237,共2页
文摘
基于Lucene的全文检索开源项目基础上,采用Paoding Analyzer中文分词器,设计了一个基于中文环境的高效分词与全文搜索引擎系统,实现多种类型文件内容的文本全文检索功能。
关键词
全文搜索
中文分词
搜索引擎
lucene
Keywords
full text search
chinese
segmentation
search engine
lucene
分类号
TP311 [自动化与计算机技术—计算机软件与理论]
下载PDF
职称材料
题名
一种基于Lucene的中文分词的设计与测试
被引量:
6
20
作者
王志嘉
薛质
机构
上海交通大学信息安全工程学院
出处
《信息技术》
2010年第12期50-54,共5页
文摘
设计实现了一个基于Lucene的中文分词模块,提出了一种更为有效的中文词处理方法,提高全文检索系统的中文处理能力。整个模块基于当前使用较为广泛的全文检索引擎工具包Lucene,结合正向最大匹配算法以及经过优化的中文分词词典,以实现更高效率和准确度的中文分词功能。在系统评测方面,通过实验仿真比较了该模块与StandardAnalyzer和CJKAnalyzer在功能和效率上的差异。对于如何构建一个高效的中文检索系统,提出了一种实现方案。
关键词
中文分词
搜索引擎
lucene
正向最大匹配算法
Keywords
chinese
word
segmentation
search engine
lucene
forwards maximum match algorithm
分类号
TP391 [自动化与计算机技术—计算机应用技术]
下载PDF
职称材料
题名
作者
出处
发文年
被引量
操作
1
Nutch-0.9中JE中文分词的实现
蔡小艳
寇应展
沈巍
郑伟
《科学技术与工程》
2008
5
下载PDF
职称材料
2
基于Lucene的地名数据库快速检索系统
张文元
周世宇
谈国新
《计算机应用研究》
CSCD
北大核心
2017
20
下载PDF
职称材料
3
基于Lucene的站内搜索设计与实现
朱学昊
王儒敬
余锋林
唐昱
《计算机应用与软件》
CSCD
北大核心
2008
12
下载PDF
职称材料
4
Hadoop云平台下Nutch中文分词的研究与实现
朱潜
吴辰铌
朱志良
刘洪娟
《小型微型计算机系统》
CSCD
北大核心
2013
5
下载PDF
职称材料
5
基于Lucene的中文字典分词模块的设计与实现
向晖
郭一平
王亮
《现代图书情报技术》
CSSCI
北大核心
2006
27
下载PDF
职称材料
6
Nutch中网页排序效果的改进方法
潘涛
梁正友
《计算机工程》
CAS
CSCD
北大核心
2010
6
下载PDF
职称材料
7
针对中文检索的Lucene改进策略
索红光
孙鑫
《计算机应用与软件》
CSCD
2009
10
下载PDF
职称材料
8
一种基于Lucene的影片搜索引擎的研究和应用
匡振国
倪宏
嵇智辉
刘磊
《计算机工程与应用》
CSCD
北大核心
2008
3
下载PDF
职称材料
9
汉语词法分析系统ICTCLAS在Nutch-0.9中的应用与实现
蔡小艳
寇应展
沈巍
郑伟
《军械工程学院学报》
2008
6
下载PDF
职称材料
10
基于Lucene的站内搜索引擎研究
马志强
刘利民
苏依拉
马瑞明
《内蒙古工业大学学报(自然科学版)》
2009
7
下载PDF
职称材料
11
Lucene.net中文分词算法分析
周拴龙
《郑州大学学报(理学版)》
CAS
北大核心
2011
3
下载PDF
职称材料
12
Nutch中文分词插件的编写与实现
蔡小艳
沈巍
胡婷婷
曹永刚
《信息技术》
2010
1
下载PDF
职称材料
13
基于Lucene的自定义中文分词器的设计与实现
王桐
王韵婷
《电脑知识与技术(过刊)》
2014
1
下载PDF
职称材料
14
Nutch中文分词的设计与实现
张敏
杜华
《河北北方学院学报(自然科学版)》
2010
1
下载PDF
职称材料
15
利用Nutch设计实现生物医学信息垂直搜索引擎
王小磊
李立
赵东升
《北京生物医学工程》
2010
0
下载PDF
职称材料
16
基于Lucene全文检索引擎技术的研究
徐春凤
王艳春
叶青
《长春理工大学学报(自然科学版)》
2011
0
下载PDF
职称材料
17
基于Lucene的智能答疑系统的研究与实现
权聪敏
赵钊
文福安
《郑州大学学报(理学版)》
CAS
2007
7
下载PDF
职称材料
18
基于Nutch的医疗搜索引擎的研究与开发
袁恩阁
吴向前
杨文忠
《新疆大学学报(自然科学版)》
CAS
2014
3
下载PDF
职称材料
19
基于Lucene的中文分词全文搜索引擎设计与实现
李炳练
《电脑知识与技术》
2015
0
下载PDF
职称材料
20
一种基于Lucene的中文分词的设计与测试
王志嘉
薛质
《信息技术》
2010
6
下载PDF
职称材料
已选择
0
条
导出题录
引用分析
参考文献
引证文献
统计分析
检索结果
已选文献
上一页
1
2
3
下一页
到第
页
确定
用户登录
登录
IP登录
使用帮助
返回顶部