期刊文献+
共找到109篇文章
< 1 2 6 >
每页显示 20 50 100
Design and Implementation of a New Chinese Word Segmentation Dictionary for the Personalized Mobile Search
1
作者 Zhongmin Wang Jingna Qi Yan He 《Communications and Network》 2013年第1期81-85,共5页
Chinese word segmentation is the basis of natural language processing. The dictionary mechanism significantly influences the efficiency of word segmentation and the understanding of the user’s intention which is impl... Chinese word segmentation is the basis of natural language processing. The dictionary mechanism significantly influences the efficiency of word segmentation and the understanding of the user’s intention which is implied in the user’s query. As the traditional dictionary mechanisms can't meet the present situation of personalized mobile search, this paper presents a new dictionary mechanism which contains the word classification information. This paper, furthermore, puts forward an approach for improving the traditional word bank structure, and proposes an improved FMM segmentation algorithm. The results show that the new dictionary mechanism has made a significant increase on the query efficiency and met the user’s individual requirements better. 展开更多
关键词 chinese word segmentation DICTIONARY Mechanism Natural LANGUAGE Processing PERSONALIZED search word Classification information
下载PDF
基于Lucene的MYSearch全文搜索引擎
2
作者 刘亚姝 黄岳 《微型机与应用》 2010年第18期86-88,共3页
基于Lucene开源框架设计实现了MYSearch全文搜索引擎。给出了MYSearch实现的基本原理和设计流程,以及实验结果,并针对Lucene在中文分词方面的不足展开了讨论,给出了改进方法。
关键词 全文搜索引擎 Lucence 分词 索引
下载PDF
汉语自动分词研究及其在信息检索中的应用 被引量:18
3
作者 曹倩 丁艳 +1 位作者 王超 潘金贵 《计算机应用研究》 CSCD 北大核心 2004年第5期71-74,91,共5页
汉语自动分词问题是中文信息检索的基础问题,也是阻碍其向前发展的“瓶颈”问题。介绍了分词技术的发展状况,分析了分词技术在信息检索过程中的应用,并讨论了信息检索和分词技术结合的方式和需要以及解决的关键技术问题。
关键词 汉语分词 分词模型 歧义分析 中文信息检索
下载PDF
基于日志挖掘的搜索引擎用户行为分析 被引量:31
4
作者 岑荣伟 刘奕群 +2 位作者 张敏 茹立云 马少平 《中文信息学报》 CSCD 北大核心 2010年第3期49-54,共6页
随着网络搜索用户的大规模增加,网络用户行为分析已成为网络信息检索系统进行架构分析、性能优化和系统维护的重要基石,是网络信息检索和知识挖掘的重要研究领域之一。为更好理解网络用户的搜索行为,该文基于7.56亿条真实网络用户行为日... 随着网络搜索用户的大规模增加,网络用户行为分析已成为网络信息检索系统进行架构分析、性能优化和系统维护的重要基石,是网络信息检索和知识挖掘的重要研究领域之一。为更好理解网络用户的搜索行为,该文基于7.56亿条真实网络用户行为日志,对用户行为进行分析和研究。我们主要考察了用户搜索行为中的查询长度、查询修改率、相关搜索点击率、首次/最后一次点击位置分布以及查询内点击数分布等信息。该文还基于不同类型的查询集合,考察用户在不同查询需求下的行为差异性。相关分析结果对搜索引擎算法优化和系统改进等都具有一定的参考意义。 展开更多
关键词 计算机应用 中文信息处理 用户行为分析 搜索引擎 网络信息检索
下载PDF
基于大规模日志分析的搜索引擎用户行为分析 被引量:117
5
作者 余慧佳 刘奕群 +2 位作者 张敏 茹立云 马少平 《中文信息学报》 CSCD 北大核心 2007年第1期109-114,共6页
用户行为分析是网络信息检索技术得以前进的重要基石,也是能够在商用搜索引擎中发挥重要作用的各种算法的基本出发点之一。为了更好的理解中文搜索用户的检索行为,本文对搜狗搜索引擎在一个月内的近5 000万条查询日志进行了分析。我们... 用户行为分析是网络信息检索技术得以前进的重要基石,也是能够在商用搜索引擎中发挥重要作用的各种算法的基本出发点之一。为了更好的理解中文搜索用户的检索行为,本文对搜狗搜索引擎在一个月内的近5 000万条查询日志进行了分析。我们从独立查询词分布、同一session内的用户查询习惯及用户是否使用高级检索功能等方面对用户行为进行了分析。分析结论对于改进中文搜索引擎的检索算法和更准确的评测检索效果都有较好的指导意义。 展开更多
关键词 计算机应用 中文信息处理 网络信息检索 搜索引擎 用户行为分析 点击信息分析
下载PDF
网页搜索引擎查询日志的Session划分研究 被引量:16
6
作者 张磊 李亚楠 +2 位作者 王斌 李鹏 蒋在帆 《中文信息学报》 CSCD 北大核心 2009年第2期54-61,共8页
搜索引擎查询日志中的session(以下简称session)是指某特定用户为得到某个信息需求而在一段时间内的搜索行为的连续序列。Session的正确划分是进行用户搜索行为分析等一系列工作的重要基础,目前尚没有关于session的系统研究工作。本文... 搜索引擎查询日志中的session(以下简称session)是指某特定用户为得到某个信息需求而在一段时间内的搜索行为的连续序列。Session的正确划分是进行用户搜索行为分析等一系列工作的重要基础,目前尚没有关于session的系统研究工作。本文针对相关研究工作的问题重新统一定义了session的概念并进行探索和比较研究,得出结论:(1)统计语言模型因数据稀疏问题不适合做session划分;(2)利用多种属性的决策树方法可以得到比较理想的结果,以session为单位进行评价,F值达到了78.6%。 展开更多
关键词 计算机应用 中文信息处理 网络信息检索 查询日志 session划分
下载PDF
基于Lucene的站内搜索设计与实现 被引量:12
7
作者 朱学昊 王儒敬 +1 位作者 余锋林 唐昱 《计算机应用与软件》 CSCD 北大核心 2008年第10期6-8,共3页
简述了站内全文检索的必要性,介绍了一种基于Lucene的全文检索系统模型,相对于Google的站内检索和传统的数据库检索都有较为明显的优势。该模型引入更好的中文分词技术,可自定义最终结果的排序。能够保证检索的前100条记录最符合检索者... 简述了站内全文检索的必要性,介绍了一种基于Lucene的全文检索系统模型,相对于Google的站内检索和传统的数据库检索都有较为明显的优势。该模型引入更好的中文分词技术,可自定义最终结果的排序。能够保证检索的前100条记录最符合检索者的需要。 展开更多
关键词 全文检索 LUCENE 中文分词 信息抽取
下载PDF
基于PATRICIA tree的汉语自动分词词典机制 被引量:29
8
作者 杨文峰 陈光英 李星 《中文信息学报》 CSCD 北大核心 2001年第3期44-49,共6页
分词词典是汉语信息处理系统的一个基本组成部分 ,其查询和更新效率将直接影响汉语信息处理系统的性能。本文采用PATRICIAtree的数据结构 ,设计了一种可以对词典词条进行快速查询、更新的分词词典机制 ,并从理论上初步分析了它的性能。... 分词词典是汉语信息处理系统的一个基本组成部分 ,其查询和更新效率将直接影响汉语信息处理系统的性能。本文采用PATRICIAtree的数据结构 ,设计了一种可以对词典词条进行快速查询、更新的分词词典机制 ,并从理论上初步分析了它的性能。最后通过实验 ,在时间效率上与逐字二分的分词词典机制进行了比较。结果表明 ,基于PATRICIAtree的分词词典机制具有更高的查询速度和更新效率 ,能满足大规模、开放文本处理系统的需求。 展开更多
关键词 信息检索 PATRICA TREE 汉语自动分词 信息处理
下载PDF
支持智能中文分词的互联网搜索引擎的构建 被引量:8
9
作者 曹羽中 曹勇刚 +1 位作者 金茂忠 刘超 《计算机工程与设计》 CSCD 北大核心 2006年第23期4395-4398,4407,共5页
中文分词技术对中文搜索引擎的查准率及查全率有重大影响。在剖析开源搜索引擎Nutch的源代码结构的基础上,基于JavaCC实现了一个可扩展的词法分析器并将其与Nutch集成,构建了一个支持智能中文分词的互联网搜索引擎Nutch-Enhanced。它可... 中文分词技术对中文搜索引擎的查准率及查全率有重大影响。在剖析开源搜索引擎Nutch的源代码结构的基础上,基于JavaCC实现了一个可扩展的词法分析器并将其与Nutch集成,构建了一个支持智能中文分词的互联网搜索引擎Nutch-Enhanced。它可用作评测各类中文分词算法对搜索引擎的影响的实验平台。对NutchEnhanced的搜索质量与Nutch、Google、百度进行了对比评测。结果表明它远优于Nutch,其查全率达到了0.74,前30个搜索结果的查准率达到了0.86,总体上具有与Google,百度接近的中文搜索质量。 展开更多
关键词 中文分词 分词算法 搜索引擎 词法分析器 检索精度
下载PDF
中文信息检索引擎中的分词与检索技术 被引量:47
10
作者 吴栋 滕育平 《计算机应用》 CSCD 北大核心 2004年第7期128-131,共4页
文中论述了在开发中文信息检索系统中所涉及到的两项关键技术 ,即中文分词技术和检索技术。针对中文分词技术 ,介绍了一种改进的正向最大匹配切分算法 ,以及为消除歧义引入的校正策略 ,并在此基础上结合统计方法处理未登录词。针对检索... 文中论述了在开发中文信息检索系统中所涉及到的两项关键技术 ,即中文分词技术和检索技术。针对中文分词技术 ,介绍了一种改进的正向最大匹配切分算法 ,以及为消除歧义引入的校正策略 ,并在此基础上结合统计方法处理未登录词。针对检索技术 ,综述了几种最常用的检索模型的原理 ,并对每种模型的优缺点进行了简要分析。最后对给出的分词算法进行了测试 。 展开更多
关键词 信息检索 搜索引擎 分词技术 检索技术
下载PDF
汉语分词词典设计 被引量:11
11
作者 翟伟斌 周振柳 +1 位作者 蒋卓明 许榕生 《计算机工程与应用》 CSCD 北大核心 2007年第1期1-2,26,共3页
汉语分词词典是中文信息处理系统的重要基础,词典算法设计的优劣直接关系着分词的速度和效率。论文采用动态TRIE索引树的词典机制,设计并实现了汉语分词词典,有效地减少了词典空间。实验结果表明该词典具有较高的查询性能。
关键词 汉语分词 词典查询 中文信息处理
下载PDF
中文搜索引擎的原理剖析及开发实现技术 被引量:19
12
作者 李志蜀 李果 《计算机应用研究》 CSCD 北大核心 2001年第11期96-99,共4页
介绍了当前搜索引擎的分类、现状及中文搜索引擎的发展 ,剖析了中文搜索引擎采用的核心技术—全文检索与中文分词技术 ,探讨了编程中应注意的问题和部分实现技术 。
关键词 中文搜索引擎 中文分词 信息查询 INTERNET 中文信息处理
下载PDF
基于学术社区的学术搜索引擎设计 被引量:13
13
作者 陈国华 汤庸 +1 位作者 彭泽武 李建国 《计算机科学》 CSCD 北大核心 2011年第8期171-175,共5页
学术社区和学术搜索引擎在科研活动中日趋重要。给出了一个基于学术社区的学术搜索引擎的设计方案,指出了它应具备的功能,提出了应着重解决的关键问题,并对部分问题提出了实现思路。给出了系统的架构设计,并讨论了文献资料的整合算法,... 学术社区和学术搜索引擎在科研活动中日趋重要。给出了一个基于学术社区的学术搜索引擎的设计方案,指出了它应具备的功能,提出了应着重解决的关键问题,并对部分问题提出了实现思路。给出了系统的架构设计,并讨论了文献资料的整合算法,将分散在不同位置、提供不同内容的学术信息组合为一个整体,有效地解决了文献提取问题。针对普通中文分词组件在对姓名进行分词时准确率较低的问题,设计了一个专门针对姓名进行分词的高效的算法。在开源框架Nutch和HBase的基础上,实现了一个学术搜索引擎,并在实验中验证了设计的有效性。 展开更多
关键词 学术社区 学术搜索引擎 文献整合算法 中文姓名分词
下载PDF
汉语分词对中文搜索引擎检索性能的影响 被引量:6
14
作者 金澎 刘毅 王树梅 《情报学报》 CSSCI 北大核心 2006年第1期21-24,共4页
针对中文网页的特点。研究了汉语分词对中文搜索引擎检索性能的影响。首先介绍中文分词在搜索引擎中的作用,然后介绍常用的分词算法。作者利用啊页特征,提出一个简单的“带启发性规则的双向匹配分词策略”。最后,在10G的语料库中,... 针对中文网页的特点。研究了汉语分词对中文搜索引擎检索性能的影响。首先介绍中文分词在搜索引擎中的作用,然后介绍常用的分词算法。作者利用啊页特征,提出一个简单的“带启发性规则的双向匹配分词策略”。最后,在10G的语料库中,就各种分词算法对查全率和查准率的影响进行了实验比较,结果表明分词性能和检索性能没有正比关系。 展开更多
关键词 汉语分词 信息检索 中文搜索引擎
下载PDF
试析中文搜索引擎的评价标准 被引量:34
15
作者 宛玲 杨秀丹 杜晓静 《情报科学》 CSSCI 2000年第1期28-31,38,共5页
搜索引擎是一种网络检索工具,本文主要针对中文搜索引擎评价标准进行探讨。笔者认为对它的检索功能的评价主要应从收录范围、查询结果反馈信息的质量、检索款目的信息量、查错率、更新与报道速度、查询功能、检索界面的友好性、精品推... 搜索引擎是一种网络检索工具,本文主要针对中文搜索引擎评价标准进行探讨。笔者认为对它的检索功能的评价主要应从收录范围、查询结果反馈信息的质量、检索款目的信息量、查错率、更新与报道速度、查询功能、检索界面的友好性、精品推荐、与其它搜索引擎的友情链接、响应速度等多方面进行。 展开更多
关键词 搜索引擎 评价标准 中文 信息检索 检索工具
下载PDF
基于Lucene的中文字典分词模块的设计与实现 被引量:27
16
作者 向晖 郭一平 王亮 《现代图书情报技术》 CSSCI 北大核心 2006年第8期46-50,共5页
在分析Lucene语言分析器结构的基础上,采用基于中文字典的正向最大匹配分词算法,设计实现能够在基于Lucene的搜索引擎中处理中文信息的中文分词模块。
关键词 搜索引擎 LUCENE 中文分词 正向最大匹配算法
下载PDF
基于Lucene的中文分析器分词性能比较研究 被引量:24
17
作者 义天鹏 陈启安 《计算机工程》 CAS CSCD 2012年第22期279-282,共4页
针对Lucene自带的中文分析器分词性能不理想并且难以选择第三方分析器的问题,研究多种基于Lucene的中文分析器,对语句分词、分词速度、建立索引的空间与时间、检索结果以及检索速度等方面进行比较。分析结果表明,在Lucene框架下,基于词... 针对Lucene自带的中文分析器分词性能不理想并且难以选择第三方分析器的问题,研究多种基于Lucene的中文分析器,对语句分词、分词速度、建立索引的空间与时间、检索结果以及检索速度等方面进行比较。分析结果表明,在Lucene框架下,基于词典分词的Paoding分析器总体性能最优,Lucene自带的一元分析器分词速度最快,imdict与ICTCLAS4J分析器在算法效率上存在一定改进空间。 展开更多
关键词 Lucene框架 搜索引擎 中文分词 分析器 分词速度 索引 检索
下载PDF
基于Carrot2聚类的垂直搜索引擎的研究与实现 被引量:5
18
作者 高凯 阳春辉 +2 位作者 陶秋红 张洋 杨军伟 《河北工业科技》 CAS 2012年第3期155-157,共3页
给出了一个基于Nutch的垂直搜索引擎系统的实现,主要探讨了基于Lucene和Carrot2的信息检索与聚类的实现,并对分词、垂直信息采集等的实现进行了说明。
关键词 搜索引擎 LUCENE NUTCH 分词 聚类
下载PDF
搜索引擎中的聚类浏览技术 被引量:9
19
作者 李红梅 丁振国 +1 位作者 周水生 周利华 《中文信息学报》 CSCD 北大核心 2008年第3期56-63,共8页
搜索引擎大多以文档列表的形式将搜索结果显示给用户,随着Web文档数量的剧增,使得用户查找相关信息变得越来越困难,一种解决方法是对搜索结果进行聚类提高其可浏览性。搜索引擎的聚类浏览技术能使用户在更高的主题层次上查看搜索结果,... 搜索引擎大多以文档列表的形式将搜索结果显示给用户,随着Web文档数量的剧增,使得用户查找相关信息变得越来越困难,一种解决方法是对搜索结果进行聚类提高其可浏览性。搜索引擎的聚类浏览技术能使用户在更高的主题层次上查看搜索结果,方便地找到感兴趣的信息。本文介绍了搜索引擎的聚类浏览技术对聚类算法的基本要求及其分类方法,研究分析了主要聚类算法及其改进方法的特点,讨论了对聚类质量的评价,最后指出了聚类浏览技术的发展趋势。 展开更多
关键词 计算机应用 中文信息处理 搜索引擎 文档聚类 信息检索 聚类标识
下载PDF
中文Google和百度的排序方式与检索效率比较分析 被引量:10
20
作者 谈大军 林明茵 叶赛 《现代情报》 北大核心 2005年第3期87-89,92,共4页
中文Google和百度是大陆网民最常使用的两个中文搜索引擎,因此对其检索效率的比较分析就显得格外重要。而检索结果的排序是影响检索效率的关键因素,因为根据统计很多网络用户只有耐心看检索结果的前5页。本文在概括介绍目前搜索引擎采... 中文Google和百度是大陆网民最常使用的两个中文搜索引擎,因此对其检索效率的比较分析就显得格外重要。而检索结果的排序是影响检索效率的关键因素,因为根据统计很多网络用户只有耐心看检索结果的前5页。本文在概括介绍目前搜索引擎采用的三种结果排序规则地点和频率法、人气质量定律、自信心定律的基础上,比较分析了中文Google和百度的排序技术。最后笔者通过检索实践得出结论,中文Google和百度各有所长,但是在检索效率上尤其是检索结果的有效性上,中文Goole比百度要好。 展开更多
关键词 信息检索 搜索引擎 排序技术 中文Google 百度 检索效率
下载PDF
上一页 1 2 6 下一页 到第
使用帮助 返回顶部