-
题名Pat数组创建算法的研究
被引量:2
- 1
-
-
作者
陶晓鹏
胡运发
张锦
-
机构
复旦大学计算机科学系
-
出处
《计算机研究与发展》
EI
CSCD
北大核心
2000年第7期783-788,共6页
-
基金
国家"八六三"高技术研究发展计划基金项目资助!(项目编号 863 -3 0 6-2 70 4-0 2 -2 )
-
文摘
Pat数组是目前比较新的全文索引结构 ,有广阔、良好的应用前景 .详细研究了 Pat数组的创建算法 ,提出了新算法——双边二分比较法 .首先从理论上分析了算法的高效性 ,然后用实验结果证实了分析 ,初步的研究表明 ,Pat数组用于中文文本的全文索引是可行的 .
-
关键词
全文索引
pat数组
全文检索
双边二分比较算法
-
Keywords
full text indexing, pat array, full text retrieval
-
分类号
G354.43
[文化科学—情报学]
-
-
题名基于邻接矩阵的全文索引模型(英文)
被引量:10
- 2
-
-
作者
周水庚
胡运发
关佶红
-
机构
复旦大学计算机科学与工程系
复旦大学计算机与信息技术系
武汉大学计算机学院
-
出处
《软件学报》
EI
CSCD
北大核心
2002年第10期1933-1942,共10页
-
基金
国家自然科学基金No.60173027
湖北省自然科学基金No.2001ABB050~
-
文摘
文本信息的急剧增加和越来越多的用户通过在线方式获取文本信息,使得查询效率成为信息检索系统一个突出瓶颈.提出两种新型全文索引模型,用于改善信息检索系统的查询效率.通过使用有向图表示文本串,引出关于文本串的邻接矩阵;采用两种不同的方式实现文本串邻接矩阵,导出了两种基于邻接矩阵的新型全文索引模型,即基于邻接矩阵的倒排文件和基于邻接矩阵的PAT数组.给出了基于新模型的文本查询算法;分析了新模型的存储空间和查询时间的开销,并分别与两种传统索引模型进行了比较.对实际文本库进行了测试以证实新模型的效能.新模型能够以相对于原文较小的空间代价获得较大幅度的查询效率的提高,因此适合于在大规模文本检索系统中应用.
-
关键词
邻接矩阵
全文索引模型
倒排文
pat数组
信息检索系统
-
Keywords
information retrieval
full-text indexing
inverted file
pat array
adjacency matrix
model
-
分类号
G354.45
[文化科学—情报学]
-
-
题名全文索引的研究
被引量:10
- 3
-
-
作者
徐小刚
王俊杰
于玉
-
机构
复旦大学计算机科学系
-
出处
《计算机工程》
CAS
CSCD
北大核心
2002年第2期101-103,共3页
-
文摘
在倒排表模型的基础上,从加快索引创建速度和改进索引动态结构两个方面着手,提出并实现了一种高效的索引创建算法和相应的索引模型,经过测试,新系统的索引创建速度可以和数据复制速度相提并论。而在空间效率上,也得到了一定程度的提高。
-
关键词
全文索引
倒排表模型
pat数组
文本数据库
研究
-
Keywords
Key wordsFull texts index Back scheduling table modelpat array
-
分类号
TP311.135
[自动化与计算机技术—计算机软件与理论]
-
-
题名基于三维特征索引空间的分布式全文索引模型
- 4
-
-
作者
谭舜泉
陈有青
-
机构
中山大学计算机科学系
-
出处
《计算机应用》
CSCD
北大核心
2004年第5期151-153,157,共4页
-
文摘
文中根据分布式全文数据库的特点,提出一种新的全文索引模型———基于三维特征索引空间的分布式全文索引模型。在理论上的推导和对实际全文数据库的测试都证实新模型在分布式环境下,能以相对较小的空间代价获得较大幅度的查询效率的提高。
-
关键词
全文索引
分布式全文数据库
pat数组
三维特征索引空间
-
Keywords
full-text indexing
distributed full-text database
pat array
three-dimensional characteristic index space
-
分类号
TP311.133.1
[自动化与计算机技术—计算机软件与理论]
-
-
题名全文索引模型探析
- 5
-
-
作者
聂文琪
-
机构
武汉交通职业学院
-
出处
《武汉交通职业学院学报》
2006年第1期73-75,78,共4页
-
文摘
在线文本信息的急剧增加,给信息检索系统无论是查询时间还是存储空间都带来了新的挑战。本文通过对传统的倒排文件索引模型、PAT数组索引模型及三种基于邻接矩阵的全文索引模型的探讨,分析了各种模型的查询效率及空间消耗性能指标以及它们分别所适用的数据库系统。
-
关键词
全文索引
倒排文件
pat数组
邻接矩阵
索引模型
-
分类号
F51
[经济管理—产业经济]
-
-
题名面向中文的全文索引模型的比较
- 6
-
-
作者
聂文琪
-
机构
武汉交通职业学院 湖北武汉
-
出处
《武汉交通职业学院学报》
2007年第3期76-80,84,共6页
-
文摘
文章论述面向中文的五种全文索引模型的关键技术,描述各种模型的查询算法,并从时间复杂度和空间复杂度分析了模型的性能指标,以及它们分别所适用的数据库应用系统。
-
关键词
全文索引
索引模型
倒排文件
pat数组
后继数组
邻接矩阵
互关联后继树
-
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
-
-
题名无词典中文高频词快速抽取算法
被引量:3
- 7
-
-
作者
江华
苏晓光
-
机构
海军工程大学装备经济管理系
-
出处
《现代图书情报技术》
CSSCI
北大核心
2012年第6期50-53,共4页
-
文摘
在PAT数组的基础上,引入LCP数组记录文本后缀串的相同前缀长度,通过扫描LCP数组快速抽取文本高频词。该算法不依赖于分词词典,通过探测重复出现串来提取高频词,并能够抽取任意重复字符串,对新词、组合词抽取特别有效。实验结果表明,该算法抽取的高频词可以达到较高的可接受率,在与ICTCLAS系统关键词抽取的比较中也有较高的相同率,且在发现组合词方面更具优势。
-
关键词
中文信息处理
高频词抽取
pat数组
中文分词
关键词分析
-
Keywords
Chinese information processing High - frequency word extraction pat array Chinese word segmentation Keyword detection
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-