期刊文献+
共找到45篇文章
< 1 2 3 >
每页显示 20 50 100
Nutch-0.9中JE中文分词的实现 被引量:5
1
作者 蔡小艳 寇应展 +1 位作者 沈巍 郑伟 《科学技术与工程》 2008年第17期4881-4884,4890,共5页
Nutch是一个开放源代码的Web搜索引擎,基于开源搜索框架Lucene,扩展性较好。Nutch是针对英文开发的,对中文只进行单字切分。通过分析Nutch的语言分析器结构,结合基于词库的正向最大匹配分词算法的JE分词,实现了Nutch的中文分词。
关键词 nutch lucene je分词 中文分词
下载PDF
基于Lucene的地名数据库快速检索系统 被引量:20
2
作者 张文元 周世宇 谈国新 《计算机应用研究》 CSCD 北大核心 2017年第6期1756-1761,共6页
针对传统关系型数据库海量地名数据检索效率低下的问题,提出了一种盘古分词和Lucene全文检索相结合的地名数据库快速检索方法。首先,设计了一种地名数据表结构,比较了几种常用开源分词器的中文分词性能,并选用性能优异的盘古中文分词器... 针对传统关系型数据库海量地名数据检索效率低下的问题,提出了一种盘古分词和Lucene全文检索相结合的地名数据库快速检索方法。首先,设计了一种地名数据表结构,比较了几种常用开源分词器的中文分词性能,并选用性能优异的盘古中文分词器,通过扩展其词典来实现中文地名的有效分词。其次,利用内存索引和多线程并行处理技术提高Lucene创建倒排索引效率,并依据地名类别和显示优先级属性优化了检索结果相关度排序策略。最后,开发了一套具有快速搜索和地图定位展示的Web地名检索系统,使用500万条真实地名数据测试了其检索性能,查询平均耗时不到1s,比MySQL数据库模糊检索效率提高了15倍,匹配结果也更加准确,能够提供高效灵活的海量地名公共检索服务。 展开更多
关键词 lucene 地名 全文检索 数据库 中文分词 相关度排序
下载PDF
基于Lucene的站内搜索设计与实现 被引量:12
3
作者 朱学昊 王儒敬 +1 位作者 余锋林 唐昱 《计算机应用与软件》 CSCD 北大核心 2008年第10期6-8,共3页
简述了站内全文检索的必要性,介绍了一种基于Lucene的全文检索系统模型,相对于Google的站内检索和传统的数据库检索都有较为明显的优势。该模型引入更好的中文分词技术,可自定义最终结果的排序。能够保证检索的前100条记录最符合检索者... 简述了站内全文检索的必要性,介绍了一种基于Lucene的全文检索系统模型,相对于Google的站内检索和传统的数据库检索都有较为明显的优势。该模型引入更好的中文分词技术,可自定义最终结果的排序。能够保证检索的前100条记录最符合检索者的需要。 展开更多
关键词 全文检索 lucene 中文分词 信息抽取
下载PDF
Hadoop云平台下Nutch中文分词的研究与实现 被引量:5
4
作者 朱潜 吴辰铌 +1 位作者 朱志良 刘洪娟 《小型微型计算机系统》 CSCD 北大核心 2013年第12期2772-2776,共5页
Nutch是开源搜索引擎,Hadoop是Apache开发的类似于Google GFS和MapReduce的开源云平台.利用Nutch和Hadoop可以设计高效、可靠、可扩展的搜索引擎,然而Nutch的分词模块对中文进行单字切分,不符合在汉语中以词语切分的习惯,为了解决这个问... Nutch是开源搜索引擎,Hadoop是Apache开发的类似于Google GFS和MapReduce的开源云平台.利用Nutch和Hadoop可以设计高效、可靠、可扩展的搜索引擎,然而Nutch的分词模块对中文进行单字切分,不符合在汉语中以词语切分的习惯,为了解决这个问题,采用词典分词的中文分词器IK Analyzer对Nutch的分词模块进行改进,首先描述在Nutch上实现IK Analyzer的方法,然后在Hadoop云环境下对该分词模块进行测试.测试结果表明,IK Analyzer的中文分词效果很符合汉语的习惯,对Nutch的理论和应用研究具有一定的意义. 展开更多
关键词 nutch HADOOP 中文分词 云计算
下载PDF
基于Lucene的中文字典分词模块的设计与实现 被引量:27
5
作者 向晖 郭一平 王亮 《现代图书情报技术》 CSSCI 北大核心 2006年第8期46-50,共5页
在分析Lucene语言分析器结构的基础上,采用基于中文字典的正向最大匹配分词算法,设计实现能够在基于Lucene的搜索引擎中处理中文信息的中文分词模块。
关键词 搜索引擎 lucene 中文分词 正向最大匹配算法
下载PDF
Nutch中网页排序效果的改进方法 被引量:6
6
作者 潘涛 梁正友 《计算机工程》 CAS CSCD 北大核心 2010年第13期42-44,共3页
Nutch是一个Java实现的开源搜索引擎。针对目前Nutch对中文进行单字切分且没有实现PageRank计算的缺点,改进PageRank算法,设计并实现基于MapReduce的PageRank计算方法,对Nutch中文分词进行改进,加入JE中文分词器。实验结果表明,改进后的... Nutch是一个Java实现的开源搜索引擎。针对目前Nutch对中文进行单字切分且没有实现PageRank计算的缺点,改进PageRank算法,设计并实现基于MapReduce的PageRank计算方法,对Nutch中文分词进行改进,加入JE中文分词器。实验结果表明,改进后的Nutch具有更高的查询结果准确率和中文网页排序效果。 展开更多
关键词 nutch搜索引擎 MAPREDUCE模型 PAGERANK算法 je中文分词器
下载PDF
针对中文检索的Lucene改进策略 被引量:10
7
作者 索红光 孙鑫 《计算机应用与软件》 CSCD 2009年第6期175-177,共3页
为了提高基于Lucene中文检索系统的检索精度和效率,通过分析Lucene的结构,在系统中加入了中文分词模块和索引文档预处理模块。给出了具体的实验方法和实验过程,对改进原理和实验数据进行了分析,表明了加入中文分词模块和在索引预处理模... 为了提高基于Lucene中文检索系统的检索精度和效率,通过分析Lucene的结构,在系统中加入了中文分词模块和索引文档预处理模块。给出了具体的实验方法和实验过程,对改进原理和实验数据进行了分析,表明了加入中文分词模块和在索引预处理模块中采用提取特定数量的特征词来替代文档的方法能够有效提高Lucene检索系统的效率和精度,增强Lucene检索系统中文的性能。 展开更多
关键词 lucene 索引 中文分词 文档预处理
下载PDF
一种基于Lucene的影片搜索引擎的研究和应用 被引量:3
8
作者 匡振国 倪宏 +1 位作者 嵇智辉 刘磊 《计算机工程与应用》 CSCD 北大核心 2008年第29期8-10,30,共4页
Lucene是一个优秀的开源搜索引擎框架,已经广泛应用于信息搜索领域。分析点播门户中现有的搜索引擎存在的不足,设计一种基于双字哈希算法支持中文的分词器,并利用该分词器和Lucene工具包,设计并实现了一个视频点播影片快速搜索引擎,它... Lucene是一个优秀的开源搜索引擎框架,已经广泛应用于信息搜索领域。分析点播门户中现有的搜索引擎存在的不足,设计一种基于双字哈希算法支持中文的分词器,并利用该分词器和Lucene工具包,设计并实现了一个视频点播影片快速搜索引擎,它不仅支持中文检索,还具有搜索速度快、易于扩展等优点。仿真实验证明提出的基于Lucene的影片搜索引擎具有良好的性能。 展开更多
关键词 lucene 搜索引擎 双字哈希 中文分词 倒排索引
下载PDF
汉语词法分析系统ICTCLAS在Nutch-0.9中的应用与实现 被引量:6
9
作者 蔡小艳 寇应展 +1 位作者 沈巍 郑伟 《军械工程学院学报》 2008年第5期63-66,70,共5页
分析了Nutch的语言分析器结构,针对Nutch对中文进行单字切分的不足,结合基于多层隐马模型的汉语词法分析系统ICTCLAS,以JavaCC脚本设计了可扩展的词法分析器,实现了Nutch对中文的词语切分。实验表明,利用JavaCC和ICTCLAS分词系统... 分析了Nutch的语言分析器结构,针对Nutch对中文进行单字切分的不足,结合基于多层隐马模型的汉语词法分析系统ICTCLAS,以JavaCC脚本设计了可扩展的词法分析器,实现了Nutch对中文的词语切分。实验表明,利用JavaCC和ICTCLAS分词系统实现的中文分词完善了Nutch的中文搜索功能。 展开更多
关键词 nutch lucene ICTCLAS 中文分词 汉语词法分析系统
下载PDF
基于Lucene的站内搜索引擎研究 被引量:7
10
作者 马志强 刘利民 +1 位作者 苏依拉 马瑞明 《内蒙古工业大学学报(自然科学版)》 2009年第1期52-57,共6页
网站提供的站内查询系统存在着系统不能自动采集网络信息,以及模糊查询结果准确率低等缺点.因此,应用搜索引擎的工作原理,设计了一种基于Lucene的站内搜索引擎系统,实现了站内信息的增量采集、自动分词和建立倒排索引功能.该系统的建立... 网站提供的站内查询系统存在着系统不能自动采集网络信息,以及模糊查询结果准确率低等缺点.因此,应用搜索引擎的工作原理,设计了一种基于Lucene的站内搜索引擎系统,实现了站内信息的增量采集、自动分词和建立倒排索引功能.该系统的建立,提高了用户站内搜索的准确率和查全率,使站内信息资源能得到充分利用. 展开更多
关键词 搜索引擎 lucene 中文分词
下载PDF
Lucene.net中文分词算法分析 被引量:3
11
作者 周拴龙 《郑州大学学报(理学版)》 CAS 北大核心 2011年第3期73-77,共5页
Lucene.net实现中文分词依靠的是Analyzer类,但通过分析其内置的Keyword Analyzer,Standard Analyzer,Sto-pAnalyzer,Simple Analyzer,Whitespace Analyzer5个分词类发现,它们几乎都是按单字的标准进行切分的,为更好处理中文信息,必须... Lucene.net实现中文分词依靠的是Analyzer类,但通过分析其内置的Keyword Analyzer,Standard Analyzer,Sto-pAnalyzer,Simple Analyzer,Whitespace Analyzer5个分词类发现,它们几乎都是按单字的标准进行切分的,为更好处理中文信息,必须引用外部独立开发的中文分词包.在对Chinese Analyzer,CJK Analyzer和IK Analyzer这3种典型的中文分词包分别测试后,发现采用字典分词以及正反双向搜索方法的IK Analyzer分词器的分词效果更胜一筹. 展开更多
关键词 lucene 中文分词 Analyzer类
下载PDF
Nutch中文分词插件的编写与实现 被引量:1
12
作者 蔡小艳 沈巍 +1 位作者 胡婷婷 曹永刚 《信息技术》 2010年第2期97-100,103,共5页
开源搜索引擎Nutch是针对英文环境开发的,针对Nutch对中文进行单字切分的不足,在剖析Nutch分词器的基础上,基于Nutch的插件机制,结合中科院的中文分词系统ICTCLAS,成功地实现了Nutch对中文的词语切分,完善了基于Nutch的中文搜索引擎的... 开源搜索引擎Nutch是针对英文环境开发的,针对Nutch对中文进行单字切分的不足,在剖析Nutch分词器的基础上,基于Nutch的插件机制,结合中科院的中文分词系统ICTCLAS,成功地实现了Nutch对中文的词语切分,完善了基于Nutch的中文搜索引擎的开发。 展开更多
关键词 nutch ICLCLAS 插件机制 中文分词
下载PDF
基于Lucene的自定义中文分词器的设计与实现 被引量:1
13
作者 王桐 王韵婷 《电脑知识与技术(过刊)》 2014年第1X期430-433,共4页
该文设计了一个基于复杂形式最大匹配算法(MMSeg_Complex)的自定义中文分词器,该分词器采用四种歧义消除规则,并实现了用户自定义词库、自定义同义词和停用词的功能,可方便地集成到Lucene中,从而有效地提高了Lucene的中文处理能力。通... 该文设计了一个基于复杂形式最大匹配算法(MMSeg_Complex)的自定义中文分词器,该分词器采用四种歧义消除规则,并实现了用户自定义词库、自定义同义词和停用词的功能,可方便地集成到Lucene中,从而有效地提高了Lucene的中文处理能力。通过实验测试表明,该分词器的分词性能跟Lucene自带的中文分词器相比有了极大的提高,并最终构建出了一个高效的中文全文检索系统。 展开更多
关键词 中文分词 复杂最大匹配 lucene 分词器
下载PDF
Nutch中文分词的设计与实现 被引量:1
14
作者 张敏 杜华 《河北北方学院学报(自然科学版)》 2010年第4期53-56,62,共5页
面对与日俱增的中文信息检索需求,Nutch作为一个开源的搜索引擎系统平台受到众多开发者的青睐.但由于Nutch是基于英文的系统,不具备中文分词能力,因此,研究中文分词方法在Nutch中的应用对实现中文搜索引擎具有非常现实的意义.在对中文... 面对与日俱增的中文信息检索需求,Nutch作为一个开源的搜索引擎系统平台受到众多开发者的青睐.但由于Nutch是基于英文的系统,不具备中文分词能力,因此,研究中文分词方法在Nutch中的应用对实现中文搜索引擎具有非常现实的意义.在对中文分词技术进行研究的基础上,设计并实现了具有中文分词功能和新词识别功能的分词器,在Nutch中实现了中文分词功能.实验测试结果表明,算法的分词效果能够达到预期的中文分词的要求. 展开更多
关键词 搜索引擎 中文分词 分词器 nutch
下载PDF
利用Nutch设计实现生物医学信息垂直搜索引擎
15
作者 王小磊 李立 赵东升 《北京生物医学工程》 2010年第6期638-640,644,共4页
在网络的海量信息搜索过程中,医学情报研究和信息服务机构,经常需要构建面向专题的垂直搜索系统以满足特定人群的需求。本文利用Nutch和Lucene等开源软件设计了一个面向生物医学信息的垂直搜索引擎系统,并对网页信息抓取、格式处理、内... 在网络的海量信息搜索过程中,医学情报研究和信息服务机构,经常需要构建面向专题的垂直搜索系统以满足特定人群的需求。本文利用Nutch和Lucene等开源软件设计了一个面向生物医学信息的垂直搜索引擎系统,并对网页信息抓取、格式处理、内容索引和检索等关键技术进行了说明。在此搜索引擎中,通过加入中文分词和增量抓取等模块,提高了中文关键字的识别率,缩短了信息的更新周期。目前该系统已经上线测试,能够获得较为精确和及时的搜索结果。 展开更多
关键词 nutch 网络信息抓取 lucene 中文分词 增量抓取
下载PDF
基于Lucene全文检索引擎技术的研究
16
作者 徐春凤 王艳春 叶青 《长春理工大学学报(自然科学版)》 2011年第4期149-152,共4页
全文检索作为现代信息检索技术的一个重要分支,不仅是处理非结构化数据的重要工具,也是搜索引擎的主流技术之一。本文首先从全文搜索引擎模型入手,对其基本工作原理和流程进行深入研究,并结合这些知识研究开源检索引擎包Lucene的架构原... 全文检索作为现代信息检索技术的一个重要分支,不仅是处理非结构化数据的重要工具,也是搜索引擎的主流技术之一。本文首先从全文搜索引擎模型入手,对其基本工作原理和流程进行深入研究,并结合这些知识研究开源检索引擎包Lucene的架构原理及其开发应用方法。然后介绍中文分词和基本算法及Lucene的相关技术。 展开更多
关键词 全文检索 lucene 中文分词
下载PDF
基于Lucene的智能答疑系统的研究与实现 被引量:7
17
作者 权聪敏 赵钊 文福安 《郑州大学学报(理学版)》 CAS 2007年第2期46-49,共4页
在对Lucene现有的中文分词器进行深入分析的基础上,提出了适合中英文处理的分词器.把研究内容应用在网络答疑系统中,建立问题库,利用Lucene对已有的问答进行全文检索,实现了智能答疑的功能.最后设计了一个对搜索出来的问答进行排序的方... 在对Lucene现有的中文分词器进行深入分析的基础上,提出了适合中英文处理的分词器.把研究内容应用在网络答疑系统中,建立问题库,利用Lucene对已有的问答进行全文检索,实现了智能答疑的功能.最后设计了一个对搜索出来的问答进行排序的方法,以便提高系统的使用价值和性能,更好地实现智能答疑. 展开更多
关键词 lucene 全文检索 中文分词 智能答疑
下载PDF
基于Nutch的医疗搜索引擎的研究与开发 被引量:3
18
作者 袁恩阁 吴向前 杨文忠 《新疆大学学报(自然科学版)》 CAS 2014年第2期217-221,共5页
针对当前大众借助网络获取医疗信息的需求日益增强,以及通用搜索引擎获取专业领域信息时准确性差、效率低下的缺点,本文设计了基于nutch组件的医疗垂直搜索引擎.该系统实现了中文分词功能,通过文本训练得出了专业词库,运用空间向量模型... 针对当前大众借助网络获取医疗信息的需求日益增强,以及通用搜索引擎获取专业领域信息时准确性差、效率低下的缺点,本文设计了基于nutch组件的医疗垂直搜索引擎.该系统实现了中文分词功能,通过文本训练得出了专业词库,运用空间向量模型算法对网页进行医疗主题相关度的计算,实现了网页过滤功能,并在排序算法中加入了主题相关因素.测试结果表明:该系统相对于通用搜索引擎,在获取医疗行业信息方面具有更高查准率,减少了不相关信息的干扰,使医疗信息的查找与定位更精确,能够为大众提供更具针对性的服务. 展开更多
关键词 垂直搜索引擎 医疗信息 中文分词 文本分类
下载PDF
基于Lucene的中文分词全文搜索引擎设计与实现
19
作者 李炳练 《电脑知识与技术》 2015年第5期236-237,共2页
基于Lucene的全文检索开源项目基础上,采用Paoding Analyzer中文分词器,设计了一个基于中文环境的高效分词与全文搜索引擎系统,实现多种类型文件内容的文本全文检索功能。
关键词 全文搜索 中文分词 搜索引擎 lucene
下载PDF
一种基于Lucene的中文分词的设计与测试 被引量:6
20
作者 王志嘉 薛质 《信息技术》 2010年第12期50-54,共5页
设计实现了一个基于Lucene的中文分词模块,提出了一种更为有效的中文词处理方法,提高全文检索系统的中文处理能力。整个模块基于当前使用较为广泛的全文检索引擎工具包Lucene,结合正向最大匹配算法以及经过优化的中文分词词典,以实现更... 设计实现了一个基于Lucene的中文分词模块,提出了一种更为有效的中文词处理方法,提高全文检索系统的中文处理能力。整个模块基于当前使用较为广泛的全文检索引擎工具包Lucene,结合正向最大匹配算法以及经过优化的中文分词词典,以实现更高效率和准确度的中文分词功能。在系统评测方面,通过实验仿真比较了该模块与StandardAnalyzer和CJKAnalyzer在功能和效率上的差异。对于如何构建一个高效的中文检索系统,提出了一种实现方案。 展开更多
关键词 中文分词 搜索引擎 lucene 正向最大匹配算法
下载PDF
上一页 1 2 3 下一页 到第
使用帮助 返回顶部