-
题名中文分词技术在搜索引擎中的应用研究
被引量:2
- 1
-
-
作者
申兵一
巩青歌
-
机构
武警工程学院通信工程系
-
出处
《计算机与网络》
2010年第1期60-63,共4页
-
文摘
中文分词作为机器翻译、文本分类、主题词提取以及信息检索的基础环节,近年来得到了广泛的关注。搜索引擎技术的广泛应用和中文信息处理的发展,使得全文检索和中文分词技术的研究逐渐深入,涌现出了众多优秀的中文分词算法。本文结合中文分词算法的研究现状,分析了分词技术与搜索引擎的信息检索相结合需要解决的关键技术问题,并讨论了中文分词技术在搜索引擎中的应用。
-
关键词
搜索引擎
中文分词
信息检索
未登录词识别
歧义消解
-
Keywords
Search Engine
Chinese Word Segmentation
Information Retrieval
Out-of-Vocabulary Word Recognition
Disambiguation
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Lucene的PDF文档文本解析的实现
被引量:3
- 2
-
-
作者
申兵一
巩青歌
-
机构
武警工程学院通信工程系
-
出处
《信息与电脑(理论版)》
2009年第11期66-66,共1页
-
文摘
互联网和信息技术的迅速发展,使得如何高效、快速地从海量信息中获取所需信息成为一个非常重要的问题。基于Lucene的搜索引擎的广泛应用,为我们实现高效查找提供了一种可能。本文研究了Lucene的系统结构及检索原理,提出了对PDF文档进行文本解析的方法,实现了对PDF文档文本数据的提取。
-
关键词
搜索引擎
非结构化文档
LUCENE
索引
文本解析
-
Keywords
search engine
unstructured documents
Lucene
index
text analysis
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-