期刊文献+
共找到7篇文章
< 1 >
每页显示 20 50 100
Pat数组创建算法的研究 被引量:2
1
作者 陶晓鹏 胡运发 张锦 《计算机研究与发展》 EI CSCD 北大核心 2000年第7期783-788,共6页
Pat数组是目前比较新的全文索引结构 ,有广阔、良好的应用前景 .详细研究了 Pat数组的创建算法 ,提出了新算法——双边二分比较法 .首先从理论上分析了算法的高效性 ,然后用实验结果证实了分析 ,初步的研究表明 ,Pat数组用于中文文本的... Pat数组是目前比较新的全文索引结构 ,有广阔、良好的应用前景 .详细研究了 Pat数组的创建算法 ,提出了新算法——双边二分比较法 .首先从理论上分析了算法的高效性 ,然后用实验结果证实了分析 ,初步的研究表明 ,Pat数组用于中文文本的全文索引是可行的 . 展开更多
关键词 全文索引 pat数组 全文检索 双边二分比较算法
下载PDF
基于邻接矩阵的全文索引模型(英文) 被引量:10
2
作者 周水庚 胡运发 关佶红 《软件学报》 EI CSCD 北大核心 2002年第10期1933-1942,共10页
文本信息的急剧增加和越来越多的用户通过在线方式获取文本信息,使得查询效率成为信息检索系统一个突出瓶颈.提出两种新型全文索引模型,用于改善信息检索系统的查询效率.通过使用有向图表示文本串,引出关于文本串的邻接矩阵;采用两种不... 文本信息的急剧增加和越来越多的用户通过在线方式获取文本信息,使得查询效率成为信息检索系统一个突出瓶颈.提出两种新型全文索引模型,用于改善信息检索系统的查询效率.通过使用有向图表示文本串,引出关于文本串的邻接矩阵;采用两种不同的方式实现文本串邻接矩阵,导出了两种基于邻接矩阵的新型全文索引模型,即基于邻接矩阵的倒排文件和基于邻接矩阵的PAT数组.给出了基于新模型的文本查询算法;分析了新模型的存储空间和查询时间的开销,并分别与两种传统索引模型进行了比较.对实际文本库进行了测试以证实新模型的效能.新模型能够以相对于原文较小的空间代价获得较大幅度的查询效率的提高,因此适合于在大规模文本检索系统中应用. 展开更多
关键词 邻接矩阵 全文索引模型 倒排文 pat数组 信息检索系统
下载PDF
全文索引的研究 被引量:10
3
作者 徐小刚 王俊杰 于玉 《计算机工程》 CAS CSCD 北大核心 2002年第2期101-103,共3页
在倒排表模型的基础上,从加快索引创建速度和改进索引动态结构两个方面着手,提出并实现了一种高效的索引创建算法和相应的索引模型,经过测试,新系统的索引创建速度可以和数据复制速度相提并论。而在空间效率上,也得到了一定程度的提高。
关键词 全文索引 倒排表模型 pat数组 文本数据库 研究
下载PDF
基于三维特征索引空间的分布式全文索引模型
4
作者 谭舜泉 陈有青 《计算机应用》 CSCD 北大核心 2004年第5期151-153,157,共4页
文中根据分布式全文数据库的特点,提出一种新的全文索引模型———基于三维特征索引空间的分布式全文索引模型。在理论上的推导和对实际全文数据库的测试都证实新模型在分布式环境下,能以相对较小的空间代价获得较大幅度的查询效率的提高。
关键词 全文索引 分布式全文数据库 pat数组 三维特征索引空间
下载PDF
全文索引模型探析
5
作者 聂文琪 《武汉交通职业学院学报》 2006年第1期73-75,78,共4页
在线文本信息的急剧增加,给信息检索系统无论是查询时间还是存储空间都带来了新的挑战。本文通过对传统的倒排文件索引模型、PAT数组索引模型及三种基于邻接矩阵的全文索引模型的探讨,分析了各种模型的查询效率及空间消耗性能指标以及... 在线文本信息的急剧增加,给信息检索系统无论是查询时间还是存储空间都带来了新的挑战。本文通过对传统的倒排文件索引模型、PAT数组索引模型及三种基于邻接矩阵的全文索引模型的探讨,分析了各种模型的查询效率及空间消耗性能指标以及它们分别所适用的数据库系统。 展开更多
关键词 全文索引 倒排文件 pat数组 邻接矩阵 索引模型
下载PDF
面向中文的全文索引模型的比较
6
作者 聂文琪 《武汉交通职业学院学报》 2007年第3期76-80,84,共6页
文章论述面向中文的五种全文索引模型的关键技术,描述各种模型的查询算法,并从时间复杂度和空间复杂度分析了模型的性能指标,以及它们分别所适用的数据库应用系统。
关键词 全文索引 索引模型 倒排文件 pat数组 后继数组 邻接矩阵 互关联后继树
下载PDF
无词典中文高频词快速抽取算法 被引量:3
7
作者 江华 苏晓光 《现代图书情报技术》 CSSCI 北大核心 2012年第6期50-53,共4页
在PAT数组的基础上,引入LCP数组记录文本后缀串的相同前缀长度,通过扫描LCP数组快速抽取文本高频词。该算法不依赖于分词词典,通过探测重复出现串来提取高频词,并能够抽取任意重复字符串,对新词、组合词抽取特别有效。实验结果表明,该... 在PAT数组的基础上,引入LCP数组记录文本后缀串的相同前缀长度,通过扫描LCP数组快速抽取文本高频词。该算法不依赖于分词词典,通过探测重复出现串来提取高频词,并能够抽取任意重复字符串,对新词、组合词抽取特别有效。实验结果表明,该算法抽取的高频词可以达到较高的可接受率,在与ICTCLAS系统关键词抽取的比较中也有较高的相同率,且在发现组合词方面更具优势。 展开更多
关键词 中文信息处理 高频词抽取 pat数组 中文分词 关键词分析
原文传递
上一页 1 下一页 到第
使用帮助 返回顶部