-
题名基于Lucene的站内搜索设计与实现
被引量:12
- 1
-
-
作者
朱学昊
王儒敬
余锋林
唐昱
-
机构
中国科学院合肥智能机械研究所
中国科学技术大学
-
出处
《计算机应用与软件》
CSCD
北大核心
2008年第10期6-8,共3页
-
基金
国家863高科技发展研究计划资助项目(2003AA118070)
-
文摘
简述了站内全文检索的必要性,介绍了一种基于Lucene的全文检索系统模型,相对于Google的站内检索和传统的数据库检索都有较为明显的优势。该模型引入更好的中文分词技术,可自定义最终结果的排序。能够保证检索的前100条记录最符合检索者的需要。
-
关键词
全文检索
lucene
中文分词
信息抽取
-
Keywords
full text search engine lucene chinese word segmentation information retrieval
-
分类号
TP316
[自动化与计算机技术—计算机软件与理论]
U285.6
[交通运输工程—交通信息工程及控制]
-
-
题名基于Lucene的全文检索系统研究与实现
被引量:1
- 2
-
-
作者
钟锋
-
机构
浙江外国语学院科学技术学院
-
出处
《浙江外国语学院学报》
2013年第4期77-81,共5页
-
基金
浙江省教育厅科研计划项目(Y201018459)
-
文摘
基于开源框架Lucene搭建了一个针对文本的全文检索系统,并对其进行扩展,支持多种类文本的全文检索.针对Lucene自带中文分词器的不足,提出了一种改进的基于字典的中文分词方法并将其应用到检索系统中去.该系统具有较高的文本检索准确率和召回率,具有一定的应用和推广价值.
-
关键词
全文检索
搜索引擎
中文分词
-
Keywords
full-text retrieval
search engine
chinese word segmentation
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名全文检索搜索引擎中文信息处理技术研究
被引量:5
- 3
-
-
作者
唐培丽
胡明
解飞
刘钢
-
机构
长春工业大学计算机科学与工程学院
武警吉林省总队通信处
-
出处
《情报科学》
CSSCI
北大核心
2006年第6期895-899,909,共6页
-
文摘
本文深入分析了全文检索中文搜索引擎的关键技术,提出了一种适用于全文检索搜索引擎的中文分词方案,既提高了分词的准确性,又能识别文中的未登录词。针对向量空间信息检索模型,本文设计了一个综合考虑中文词在Web文本中的位置、长度以及频率等重要因素的词条权重计算函数,并且用量化的方法表示出其重要性,能够较准确地反映出词条在Web文档中的重要程度。最后对分词算法进行了测试,测试表明该方法能够提高分词准确度满足实用的要求。
-
关键词
全文检索
搜索引擎
中文分词
信息检索
-
Keywords
full - text retrieval
search engine
chinese word segmentation
information retrieval
-
分类号
G354
[文化科学—情报学]
-
-
题名汉语分词对中文搜索引擎检索性能的影响
被引量:6
- 4
-
-
作者
金澎
刘毅
王树梅
-
机构
乐山师范学院计算机科学系
南京理工大学计算机科学与技术系
-
出处
《情报学报》
CSSCI
北大核心
2006年第1期21-24,共4页
-
基金
四川省教育厅青年基金资助项目(项目编号:2003B035).
-
文摘
针对中文网页的特点。研究了汉语分词对中文搜索引擎检索性能的影响。首先介绍中文分词在搜索引擎中的作用,然后介绍常用的分词算法。作者利用啊页特征,提出一个简单的“带启发性规则的双向匹配分词策略”。最后,在10G的语料库中,就各种分词算法对查全率和查准率的影响进行了实验比较,结果表明分词性能和检索性能没有正比关系。
-
关键词
汉语分词
信息检索
中文搜索引擎
-
Keywords
chinese word segmentation, information retrieval, chinese search engine.
-
分类号
G354.4
[文化科学—情报学]
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于全文搜索的中文搜索引擎设计技术
被引量:10
- 5
-
-
作者
陈燕娜
邵志清
-
机构
华东理工大学信息学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2002年第17期196-198,共3页
-
基金
上海市青年科技启明星计划(编号:99QD14038)
-
文摘
随着Internet应用的逐步普及,WWW已成为一个巨大的分布式信息空间,为用户提供了一个极具价值的信息源。但由于中文信息处理的复杂性和特殊性,中文搜索引擎的功能仍不够完善。该文提出了一个基于全文搜索的中文搜索引擎的实现方案,并对信息处理中的关键技术进行了探讨。
-
关键词
全文搜索
中文搜索引擎设计
技术
WWW
中文分词技术
文档相关性
Internet
-
Keywords
WWW,search engine,full-text retrieval,chinese word segmentation,documental relativity
-
分类号
TP393.4
[自动化与计算机技术—计算机应用技术]
G354.4
[文化科学—情报学]
-
-
题名主题搜索引擎的研究
被引量:2
- 6
-
-
作者
李瑞芳
杨娜
-
机构
沈阳化工学院计算机科学与技术学院
-
出处
《微型机与应用》
2009年第19期1-3,6,共4页
-
文摘
介绍了将开源的全文检索工具包Lucene嵌入到自己的搜索引擎中来满足开发主题搜索引擎的需求。并基于Lucene中文分词的不足设计了一个比较完善的中文分词器,然后将其引入具体应用中,并且与传统搜索引擎在性能上进行了比较。
-
关键词
lucene
全文检索技术
主题搜索引擎
索引
中文分词
-
Keywords
lucene
full-text retrieval technology
thematic search engine
index
chinese word segmentation
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于搜索引擎技术的医院精准决策应用研究与实现
- 7
-
-
作者
赵立川
-
机构
川北医学院附属医院信息科
-
出处
《电子设计工程》
2016年第8期120-122,126,共4页
-
文摘
随着医院决策系统的进步和发展,大部分医院形成了以指标、报告、OLAP等可视化分析功能为基础的数据展现平台。文中设计和实现了一种用于医院精准决策的搜索引擎技术,该搜索引擎针对结构化数据建立索引,通过中文分词匹配用户输入的语义关键字,将相似度高的数据进行聚合,并以可视化搜索页面的形式提供给用户,应用于医院的精准决策。
-
关键词
搜索引擎
全文检索
中文分词
精准决策
-
Keywords
search engine
full-text retrieval
chinese word segmentation
accurate decision
-
分类号
R319
[医药卫生—基础医学]
-
-
题名基于搜索引擎的中文分词评估方法
被引量:5
- 8
-
-
作者
王华栋
饶培伦
-
机构
清华大学工业工程系
-
出处
《情报科学》
CSSCI
北大核心
2007年第1期108-112,共5页
-
文摘
中文分词的结果是影响搜索引擎中文检索结果质量的重要因素,能否准确有效的分词对提高搜索结果的相关性和用户满意度都至关重要。本文回顾和整理了中文分词评估所依靠的理论依据,同时建立了一套完整的基于搜索引擎中文分词评估方法。这套评估方法涵盖了评估样本的提取、评估人员选取、评估标准的制定、以及评估流程的设置等各个方面。实例分析的结果表明此方法是行之有效的。在此基础上,作者进一步对实验评估的结果进行了深入讨论,并提出了提高评估效果的几条建议,包括如何考虑评估人员背景、取舍评估项目等。
-
关键词
中文分词
搜索引擎
信息检索
评估方法
-
Keywords
chinese word segmentation
web search engine
information retrieval
evaluation methodology
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Nutch的医疗搜索引擎的研究与开发
被引量:3
- 9
-
-
作者
袁恩阁
吴向前
杨文忠
-
机构
新疆大学电气工程学院
-
出处
《新疆大学学报(自然科学版)》
CAS
2014年第2期217-221,共5页
-
基金
地区科学基金(61262087)
-
文摘
针对当前大众借助网络获取医疗信息的需求日益增强,以及通用搜索引擎获取专业领域信息时准确性差、效率低下的缺点,本文设计了基于nutch组件的医疗垂直搜索引擎.该系统实现了中文分词功能,通过文本训练得出了专业词库,运用空间向量模型算法对网页进行医疗主题相关度的计算,实现了网页过滤功能,并在排序算法中加入了主题相关因素.测试结果表明:该系统相对于通用搜索引擎,在获取医疗行业信息方面具有更高查准率,减少了不相关信息的干扰,使医疗信息的查找与定位更精确,能够为大众提供更具针对性的服务.
-
关键词
垂直搜索引擎
医疗信息
中文分词
文本分类
-
Keywords
Nutch
vertical search engine
Nutch
medical information
chinese word segmentation
text catego-rization
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名企业文档服务器中英文搜索引擎的设计与实现
被引量:1
- 10
-
-
作者
陈海波
张新家
-
机构
西北工业大学自动化学院控制与网络研究所
-
出处
《微处理机》
2009年第2期122-125,128,共5页
-
文摘
介绍了一个基于文档服务器的全文搜索引擎的设计及其实现,提出了一种用于企业文档服务器搜索引擎的基本框架,并对该搜索引擎主要功能模块的实现作了详细介绍,给出了相应的试验结果。系统采用文件实时动态监控和中文分词识别技术,使系统具有实时性和文档搜索有效性及准确性等优点。
-
关键词
搜索引擎
全文检索
中文分词
-
Keywords
search engine
full - text retrieval
chinese word segmentation
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名中文分词技术在搜索引擎中的应用研究
被引量:2
- 11
-
-
作者
申兵一
巩青歌
-
机构
武警工程学院通信工程系
-
出处
《计算机与网络》
2010年第1期60-63,共4页
-
文摘
中文分词作为机器翻译、文本分类、主题词提取以及信息检索的基础环节,近年来得到了广泛的关注。搜索引擎技术的广泛应用和中文信息处理的发展,使得全文检索和中文分词技术的研究逐渐深入,涌现出了众多优秀的中文分词算法。本文结合中文分词算法的研究现状,分析了分词技术与搜索引擎的信息检索相结合需要解决的关键技术问题,并讨论了中文分词技术在搜索引擎中的应用。
-
关键词
搜索引擎
中文分词
信息检索
未登录词识别
歧义消解
-
Keywords
search engine
chinese word segmentation
information retrieval
Out-of-Vocabulary word Recognition
Disambiguation
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-