期刊文献+
共找到4篇文章
< 1 >
每页显示 20 50 100
一种中文分词词典新机制——双字哈希机制 被引量:108
1
作者 李庆虎 陈玉健 孙家广 《中文信息学报》 CSCD 北大核心 2003年第4期13-18,共6页
汉语自动分词是汉语信息处理的前提 ,词典是汉语自动分词的基础 ,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制 ,并在此基础上根据汉语中双字词语较多... 汉语自动分词是汉语信息处理的前提 ,词典是汉语自动分词的基础 ,分词词典机制的优劣直接影响到中文分词的速度和效率。本文首先分析了分词词典机制在中文分词中的重要性及已有的三种典型词典机制 ,并在此基础上根据汉语中双字词语较多的特点提出了一种新的分词词典机制———双字哈希机制 ,在不提升已有典型词典机制空间复杂度与维护复杂度的情况下 ,提高了中文分词的速度和效率。 展开更多
关键词 汉语自动分词 汉语信息处理 分词词典机制 双字哈希机制 分词速度 分词效率
下载PDF
一种基于Lucene的影片搜索引擎的研究和应用 被引量:3
2
作者 匡振国 倪宏 +1 位作者 嵇智辉 刘磊 《计算机工程与应用》 CSCD 北大核心 2008年第29期8-10,30,共4页
Lucene是一个优秀的开源搜索引擎框架,已经广泛应用于信息搜索领域。分析点播门户中现有的搜索引擎存在的不足,设计一种基于双字哈希算法支持中文的分词器,并利用该分词器和Lucene工具包,设计并实现了一个视频点播影片快速搜索引擎,它... Lucene是一个优秀的开源搜索引擎框架,已经广泛应用于信息搜索领域。分析点播门户中现有的搜索引擎存在的不足,设计一种基于双字哈希算法支持中文的分词器,并利用该分词器和Lucene工具包,设计并实现了一个视频点播影片快速搜索引擎,它不仅支持中文检索,还具有搜索速度快、易于扩展等优点。仿真实验证明提出的基于Lucene的影片搜索引擎具有良好的性能。 展开更多
关键词 LUCENE 搜索引擎 双字哈希 中文分词 倒排索引
下载PDF
基于Lucene.Net的知识检索系统的设计与实现 被引量:3
3
作者 陈烨彬 黄琳 《现代计算机》 2008年第11期124-125,128,共3页
在Lucene.Net的基础上,设计并实现了一种知识检索系统——基于奥运知识库的检索系统,该系统对Lucene.Net的中文分词功能进行了改进,即采用双字哈希机制的中文分词器,提高了对中文分词的支持度,并增加了新增生词的功能,能提高检索的准确度。
关键词 检索系统 LUCENE.NET 中文分词 双字哈希
下载PDF
一种快速中文分词词典机制 被引量:16
4
作者 吴晶晶 荆继武 +1 位作者 聂晓峰 王平建 《中国科学院研究生院学报》 CAS CSCD 北大核心 2009年第5期703-711,共9页
通过研究目前中文分词领域各类分词机制,注意到中文快速分词机制的关键在于对单双字词的识别,在这一思想下,提出了一种快速中文分词机制:双字词-长词哈希机制,通过提高单双字词的查询效率来实现对中文分词机制的改进.实验证明,该机制提... 通过研究目前中文分词领域各类分词机制,注意到中文快速分词机制的关键在于对单双字词的识别,在这一思想下,提出了一种快速中文分词机制:双字词-长词哈希机制,通过提高单双字词的查询效率来实现对中文分词机制的改进.实验证明,该机制提高了中文文本分词的效率. 展开更多
关键词 文本实时处理 中文分词 词典法分词 双字词-长词哈希机制
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部