期刊文献+
共找到2篇文章
< 1 >
每页显示 20 50 100
中文分词技术在搜索引擎中的应用研究 被引量:2
1
作者 申兵一 巩青歌 《计算机与网络》 2010年第1期60-63,共4页
中文分词作为机器翻译、文本分类、主题词提取以及信息检索的基础环节,近年来得到了广泛的关注。搜索引擎技术的广泛应用和中文信息处理的发展,使得全文检索和中文分词技术的研究逐渐深入,涌现出了众多优秀的中文分词算法。本文结合中... 中文分词作为机器翻译、文本分类、主题词提取以及信息检索的基础环节,近年来得到了广泛的关注。搜索引擎技术的广泛应用和中文信息处理的发展,使得全文检索和中文分词技术的研究逐渐深入,涌现出了众多优秀的中文分词算法。本文结合中文分词算法的研究现状,分析了分词技术与搜索引擎的信息检索相结合需要解决的关键技术问题,并讨论了中文分词技术在搜索引擎中的应用。 展开更多
关键词 搜索引擎 中文分词 信息检索 未登录词识别 歧义消解
下载PDF
基于Lucene的PDF文档文本解析的实现 被引量:3
2
作者 申兵一 巩青歌 《信息与电脑(理论版)》 2009年第11期66-66,共1页
互联网和信息技术的迅速发展,使得如何高效、快速地从海量信息中获取所需信息成为一个非常重要的问题。基于Lucene的搜索引擎的广泛应用,为我们实现高效查找提供了一种可能。本文研究了Lucene的系统结构及检索原理,提出了对PDF文档进行... 互联网和信息技术的迅速发展,使得如何高效、快速地从海量信息中获取所需信息成为一个非常重要的问题。基于Lucene的搜索引擎的广泛应用,为我们实现高效查找提供了一种可能。本文研究了Lucene的系统结构及检索原理,提出了对PDF文档进行文本解析的方法,实现了对PDF文档文本数据的提取。 展开更多
关键词 搜索引擎 非结构化文档 LUCENE 索引 文本解析
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部