期刊文献+
共找到73篇文章
< 1 2 4 >
每页显示 20 50 100
XML搜索引擎研究 被引量:40
1
作者 王海波 姜吉发 +2 位作者 耿晖 白硕 祝明发 《计算机应用研究》 CSCD 北大核心 2001年第4期68-71,共4页
WWW上大量信息的涌现,对信息的查询提出了严峻的挑战.XML作为一种扩展标记语言,具有许多HTML所不具备的优点,使得开展WWW上的深层应用成为可能.对基于XML的搜索引擎中涉及的关键技术进行了研究,并提出了对XML... WWW上大量信息的涌现,对信息的查询提出了严峻的挑战.XML作为一种扩展标记语言,具有许多HTML所不具备的优点,使得开展WWW上的深层应用成为可能.对基于XML的搜索引擎中涉及的关键技术进行了研究,并提出了对XML这种半结构化文档建立索引和查询时采用的数据结构和算法.它在不丢失文档中结构信息的情况下,充分利用XML的标签所带来的上下文信息,能够大幅度提高查询的准确率. 展开更多
关键词 XML 搜索引擎 信息检索 WWW INTERNET
下载PDF
全文检索模型综述 被引量:12
2
作者 申展 江宝林 +2 位作者 陈祎 唐磊 胡运发 《计算机科学》 CSCD 北大核心 2004年第5期61-64,共4页
全文检索的应用导致了信息检索领域的一场革命,是文档数据库研究的核心。全文检索的首要问题是全文检索模型的选择。本文介绍了目前国内外主要的全文拴索模型,总结了全文检索模型的评价标准,按照此标准对各种模型进行了分析比较,并对全... 全文检索的应用导致了信息检索领域的一场革命,是文档数据库研究的核心。全文检索的首要问题是全文检索模型的选择。本文介绍了目前国内外主要的全文拴索模型,总结了全文检索模型的评价标准,按照此标准对各种模型进行了分析比较,并对全文检索模型构建中一些关键问题进行了分析。 展开更多
关键词 信息检索 文档数据库 全文检索模型 倒排表 Pat-树 互关联后继树 位图 署名文件
下载PDF
基于同构型多处理机的并行检索算法研究 被引量:10
3
作者 赵捧未 徐国华 李学干 《情报学报》 CSSCI 北大核心 1999年第1期37-42,共6页
研究并行检索算法的一条途径是将原有串行检索算法并行化,这就需要挖掘串行检索算法中的并行性并合理选择所用的并行硬件实现环境。本文在较深入地分析传统的顺排检索和倒排检索中的功能并行性之后,基于同构型MIMD计算机系统,研... 研究并行检索算法的一条途径是将原有串行检索算法并行化,这就需要挖掘串行检索算法中的并行性并合理选择所用的并行硬件实现环境。本文在较深入地分析传统的顺排检索和倒排检索中的功能并行性之后,基于同构型MIMD计算机系统,研究并提出并行顺排检索和并行倒排检索的算法原理及过程。文中思想对高效实现先进制造系统中的信息管理也具有一定的适用性。 展开更多
关键词 顺排检索 倒排检索 同构型多处理机 并行算法
下载PDF
丘陵地区果园及其边界蜘蛛群落结构的动态研究 被引量:4
4
作者 顾松东 曲明华 +3 位作者 周洪旭 郑伯平 陈茎 胡敦孝 《蛛形学报》 2006年第1期39-43,共5页
2001年4月~10月用陷阱法对莱阳丘陵苹果园、桃园和二者边界进行了定点调查,初步鉴定该区游猎性蜘蛛群落有8科19种,其中优势种依次为狼蛛科Lycosidae、逍遥蛛科Philodromidae、蟹蛛科Thomisidae和平腹蛛科Gnaphosidae。对3个生境的蜘蛛... 2001年4月~10月用陷阱法对莱阳丘陵苹果园、桃园和二者边界进行了定点调查,初步鉴定该区游猎性蜘蛛群落有8科19种,其中优势种依次为狼蛛科Lycosidae、逍遥蛛科Philodromidae、蟹蛛科Thomisidae和平腹蛛科Gnaphosidae。对3个生境的蜘蛛群落研究表明,(1)各生境各季节蜘蛛群落组成不同;蜘蛛群落多样性、丰富度均有差异。(2)早春季节蜘蛛主要栖息在边界;随边界植株的长高,蜘蛛迁向两侧的苹果园和桃园中,其生态位开始分离。(3)农事操作后,边界可作为蜘蛛的保护场所聚集部分蜘蛛。通过对蜘蛛群落多样性的分析,提出了应将每年的5月和8月作为蜘蛛的重点保护时期,尤应加强边界的保护。 展开更多
关键词 蜘蛛 群落 多样性 边界
下载PDF
一种新的基于XML的索引机制 被引量:5
5
作者 姚全珠 丁晓剑 +1 位作者 任雪利 张志锋 《计算机工程》 CAS CSCD 北大核心 2006年第15期90-92,共3页
当前基于Web的半结构化数据越来越受到重视。该文分析了当前对XML数据检索的相关工作,提出了一种路径索引技术,并将之无缝结合了基于文本的倒排索引文档,以实现XML文档的内容和结构的双重检索。该方法只需要对文档库扫描一次,可以大幅... 当前基于Web的半结构化数据越来越受到重视。该文分析了当前对XML数据检索的相关工作,提出了一种路径索引技术,并将之无缝结合了基于文本的倒排索引文档,以实现XML文档的内容和结构的双重检索。该方法只需要对文档库扫描一次,可以大幅度降低用户查询时间。 展开更多
关键词 XML 信息检索 索引 倒排文档
下载PDF
基于多重倒排文件的快速相似性检索 被引量:8
6
作者 吴立德 罗航哉 薛向阳 《计算机学报》 EI CSCD 北大核心 2000年第11期1156-1160,共5页
提出一种新的高维空间中点数据的索引方法 (即 MIF) ,其基本原理是利用多维倒排文件 .和传统索引方法相比 ,新方法有许多优点 ,例如它能以较低的复杂度建立索引结构、支持非常高的维数、极低的 I/ O代价等 .实验结果表明 。
关键词 索引结构 相拟性检索 多重倒排文件 数据库
下载PDF
一种全文检索系统的设计与实现 被引量:13
7
作者 涂新辉 何婷婷 罗景 《计算机工程》 EI CAS CSCD 北大核心 2005年第17期55-57,共3页
在对全文检索有关技术进行分析和研究的基础之上,提出并实现了一个实用的全文检索系统UFRS,它能够处理中英文文档并可以扩展到其它语言,支持多种不同的索引存储方案以及分布式检索。依次讨论了该系统中的存储层、词法语法分析层、系统... 在对全文检索有关技术进行分析和研究的基础之上,提出并实现了一个实用的全文检索系统UFRS,它能够处理中英文文档并可以扩展到其它语言,支持多种不同的索引存储方案以及分布式检索。依次讨论了该系统中的存储层、词法语法分析层、系统核心接口层。最后给出了该系统的一种分布式部署方案。 展开更多
关键词 全文检索 全文索引 倒排文件 分布式
下载PDF
高效的随机访问分块倒排文件自索引技术 被引量:14
8
作者 刘小珠 彭智勇 陈旭 《计算机学报》 EI CSCD 北大核心 2010年第6期977-987,共11页
针对倒排索引空间开销大、查询时间效率低以及难以同时支持连接布尔查询和排序查询的问题,提出了一种同时提高空间效率与查询时间效率的高效随机访问分块倒排文件自索引RABIF.为了在降低空间消耗的同时支持连接布尔查询与排序查询,RABI... 针对倒排索引空间开销大、查询时间效率低以及难以同时支持连接布尔查询和排序查询的问题,提出了一种同时提高空间效率与查询时间效率的高效随机访问分块倒排文件自索引RABIF.为了在降低空间消耗的同时支持连接布尔查询与排序查询,RABIF将倒排列表进行合理地分块,然后对每个子块的不同部分采用相应的压缩方式,在不需要插入任何附加辅助信息的前提下实现压缩索引的快速定位与随机访问.理论分析及实验结果表明,与忽略倒排文件自索引SIF相比,提出的RABIF空间开销平均减少5.3%,布尔查询时间平均减少17.8%;对于0.2%与1%排序查询,查询时间分别平均减少34.4%与27.5%. 展开更多
关键词 倒排文件 自索引 时间效率 空间效率 随机访问
下载PDF
全文索引技术时空效率分析 被引量:16
9
作者 刘小珠 彭智勇 《软件学报》 EI CSCD 北大核心 2009年第7期1768-1784,共17页
全文索引技术(full-text index technique)作为提高全文检索时空效率的有效方式之一,近年来得到了广泛而深入的研究.根据全文索引实现技术的不同,将其分为三大类:索引技术、压缩与索引混合技术以及自索引技术(self-index technique).从... 全文索引技术(full-text index technique)作为提高全文检索时空效率的有效方式之一,近年来得到了广泛而深入的研究.根据全文索引实现技术的不同,将其分为三大类:索引技术、压缩与索引混合技术以及自索引技术(self-index technique).从上述分类角度综述了全文索引时空效率方法中具有代表性的一些方法和技术:倒排文件、签名文件、后缀树与后缀数组、基于这3种索引的压缩技术、基于倒排文件的自索引与基于后缀数组的自索引的基本原理、所面临的问题及进展,并对这些技术的时空性能进行了详细的分析和比较,分析了各种技术的适应环境及优劣.最后总结了上述技术的特点,指出了存在的问题以及未来的研究方向. 展开更多
关键词 倒排文件 签名文件 后缀树 后缀数组 自索引 压缩 时空效率
下载PDF
基于邻接矩阵的全文索引模型(英文) 被引量:10
10
作者 周水庚 胡运发 关佶红 《软件学报》 EI CSCD 北大核心 2002年第10期1933-1942,共10页
文本信息的急剧增加和越来越多的用户通过在线方式获取文本信息,使得查询效率成为信息检索系统一个突出瓶颈.提出两种新型全文索引模型,用于改善信息检索系统的查询效率.通过使用有向图表示文本串,引出关于文本串的邻接矩阵;采用两种不... 文本信息的急剧增加和越来越多的用户通过在线方式获取文本信息,使得查询效率成为信息检索系统一个突出瓶颈.提出两种新型全文索引模型,用于改善信息检索系统的查询效率.通过使用有向图表示文本串,引出关于文本串的邻接矩阵;采用两种不同的方式实现文本串邻接矩阵,导出了两种基于邻接矩阵的新型全文索引模型,即基于邻接矩阵的倒排文件和基于邻接矩阵的PAT数组.给出了基于新模型的文本查询算法;分析了新模型的存储空间和查询时间的开销,并分别与两种传统索引模型进行了比较.对实际文本库进行了测试以证实新模型的效能.新模型能够以相对于原文较小的空间代价获得较大幅度的查询效率的提高,因此适合于在大规模文本检索系统中应用. 展开更多
关键词 邻接矩阵 全文索引模型 倒排文 PAT数组 信息检索系统
下载PDF
搜索引擎倒排文件的一种分块组织技术 被引量:9
11
作者 彭波 李晓明 《电子学报》 EI CAS CSCD 北大核心 2005年第2期358-362,共5页
检索效率对大规模信息检索系统至关重要 .本文基于Web搜索应用背景 ,针对用户查询的统计特性 ,提出了一种分块组织倒排文件的方法 .通过建立检索性能模型 ,进行分析和仿真实验 ,结果表明这一方法下的检索算法可以有效的减少检索执行时... 检索效率对大规模信息检索系统至关重要 .本文基于Web搜索应用背景 ,针对用户查询的统计特性 ,提出了一种分块组织倒排文件的方法 .通过建立检索性能模型 ,进行分析和仿真实验 ,结果表明这一方法下的检索算法可以有效的减少检索执行时间 ,并得到这一组织方式中分块参数的优化选择方法 . 展开更多
关键词 搜索引擎 信息检索 倒排文件 检索效率
下载PDF
重庆倒置山区稻飞虱和捕食蜘蛛发生动态及其影响因素探讨 被引量:2
12
作者 黄乾龙 王楚桃 +3 位作者 欧阳杰 管玉圣 郭爽 李贤勇 《南方农业学报》 CAS CSCD 北大核心 2019年第6期1234-1239,共6页
【目的】明确重庆倒置山区稻飞虱和捕食蜘蛛的发生动态及其影响因素,为合理利用捕食蜘蛛对稻飞虱进行生物防控提供参考依据。【方法】采用平行跳跃取样法,对移栽中稻田褐飞虱(Nilaparvata lugens St?l.)、白背飞虱(Sogatella furcifera ... 【目的】明确重庆倒置山区稻飞虱和捕食蜘蛛的发生动态及其影响因素,为合理利用捕食蜘蛛对稻飞虱进行生物防控提供参考依据。【方法】采用平行跳跃取样法,对移栽中稻田褐飞虱(Nilaparvata lugens St?l.)、白背飞虱(Sogatella furcifera Horv.)和捕食蜘蛛(Aranea Clerck)的数量进行拍查,每点系统拍查2丛,10个点,共20丛,分析其发生动态,并探讨其影响因素。【结果】褐飞虱若、成虫的发生动态均呈单峰曲线,分别在水稻乳熟后期(4030头/百丛)和分蘖末期(865头/百丛)达峰值;白背飞虱若虫、成虫的发生动态也呈单峰曲线,均在水稻孕穗期(分别为1285和645头/百丛)达峰值;稻飞虱总量的发生动态呈双峰曲线,分别在水稻孕穗期(3870头/百丛)和乳熟后期(4030头/百丛)达峰值;捕食蜘蛛的发生动态与稻飞虱群体发生动态基本一致。相关性分析结果表明,稻飞虱总量的发生程度与日最低温度、日最高温度和日均温度呈极显著正相关(P<0.01,下同),与日均相对湿度呈极显著负相关;捕食蜘蛛发生程度与日最低温度、日最高温度和日均温度呈极显著正相关,与日均相对湿度呈显著负相关(P<0.05)。【结论】重庆倒置山区中稻田稻飞虱主要以若虫为害水稻孕穗期和乳熟后期,前期以白背飞虱为主,后期以褐飞虱为主;捕食蜘蛛的发生动态与稻飞虱群体的发生动态基本一致,有明显的跟随效应;在20.6~35.0℃、相对湿度56.4%~87.7%内,温、湿度与稻飞虱和捕食蜘蛛发生程度紧密相关. 展开更多
关键词 稻飞虱 捕食蜘蛛 发生动态 影响因素 倒置山区 重庆
下载PDF
基于Lucene的搜索引擎设计与实现 被引量:26
13
作者 赵珂 逯鹏 李永强 《计算机工程》 CAS CSCD 北大核心 2011年第16期39-41,共3页
针对目前教育网庞大的FTP资源检索困难的问题,提出一种基于EdtFTPJ和Lucene的FTP搜索引擎的设计和实现方案。该方案整体上采用基于Struts1.2框架的模型-视图-控制器设计模式,数据采集模块利用基于正则表达式的有限状态自动机抓取数据,... 针对目前教育网庞大的FTP资源检索困难的问题,提出一种基于EdtFTPJ和Lucene的FTP搜索引擎的设计和实现方案。该方案整体上采用基于Struts1.2框架的模型-视图-控制器设计模式,数据采集模块利用基于正则表达式的有限状态自动机抓取数据,索引模块应用倒排索引方法,系统的分词算法使用基于字典的正向最大匹配中文分词法。实验结果表明,该方案具有较高的资源检索率,同时能够保证检索结果的准确性。 展开更多
关键词 FTP搜索引擎 Lucene框架 模型-视图-控制器 有限状态自动机 倒排索引
下载PDF
农业搜索引擎倒排索引缓冲机制研究 被引量:2
14
作者 薛煜阳 张太红 +4 位作者 张晓明 冯向萍 陈燕红 白涛 马健 《新疆农业大学学报》 CAS 北大核心 2011年第2期161-164,共4页
为了解决ASPSeek倒排索引直接采用操作系统文件缓冲访问机制带来的效率问题,本研究以125万张中文农业网页为样本,采用块大小可变的倒排索引存储结构,设计了基于LRU、MRU、LFU、MFU、Clock、Random、FPA替代策略的专用缓冲管理机制。对这... 为了解决ASPSeek倒排索引直接采用操作系统文件缓冲访问机制带来的效率问题,本研究以125万张中文农业网页为样本,采用块大小可变的倒排索引存储结构,设计了基于LRU、MRU、LFU、MFU、Clock、Random、FPA替代策略的专用缓冲管理机制。对这7种替代策略的缓冲命中率及查询访问时间对比测试表明,当所有词条以相同的概率进行检索时,Clock算法为较好的缓冲替代策略,当词条以特定差别概率进行检索时,本研究提出的FPA算法为较好的缓冲替代策略。 展开更多
关键词 农业搜索引擎 倒排索引 缓冲替换策略
下载PDF
电网调度控制系统公共信息模型文件快速查询方法 被引量:5
15
作者 李镇义 孙云枫 +3 位作者 李焱 宋爱波 周剑 张国芳 《电力系统自动化》 EI CSCD 北大核心 2017年第9期116-122,共7页
电网调度控制系统采用描述电网模型的公共信息模型(CIM)文件进行多级调度系统间的模型交换。在电网调度控制系统内部,开始采用CIM文件代替传统的关系数据库作为电网模型多版本和离线编辑模型的存储介质,实现电网模型的轻量化存储。研究... 电网调度控制系统采用描述电网模型的公共信息模型(CIM)文件进行多级调度系统间的模型交换。在电网调度控制系统内部,开始采用CIM文件代替传统的关系数据库作为电网模型多版本和离线编辑模型的存储介质,实现电网模型的轻量化存储。研究了CIM文件快速查询技术,提出了一种基于广义后缀数组的路径索引算法,结合基于倒排文件的关键词索引建立一种轻量级的联合索引,该索引存储性能良好,且可以保存到磁盘;基于联合索引,给出了关键词查询、直接路径查询(DPQ)和间接路径查询(IPQ)三种查询算法。最后,通过和XPath查询技术比较,表明DPQ和IPQ有很好的查询性能,大幅提高了CIM文件的查询效率,能够有效满足模型多版本和模型离线编辑对CIM文件查询的需求。 展开更多
关键词 公共信息模型(CIM) 广义后缀数组 路径索引 倒排文件 关键词查询 路径查询
下载PDF
基于单汉字索引的全文检索系统的优化研究 被引量:11
16
作者 余海燕 张仲义 《中文信息学报》 CSCD 北大核心 2001年第4期14-19,27,共7页
对于按照单汉字建立倒排索引的全文检索系统 ,最需要解决的问题是如何提高其存储效率和运算速度。本文针对此问题提出了以下优化方法 :一是利用参数化的Golomb编码对倒排文件进行压缩 ;二是对求集合交集的逻辑乘算法进行改进 ;三是运用... 对于按照单汉字建立倒排索引的全文检索系统 ,最需要解决的问题是如何提高其存储效率和运算速度。本文针对此问题提出了以下优化方法 :一是利用参数化的Golomb编码对倒排文件进行压缩 ;二是对求集合交集的逻辑乘算法进行改进 ;三是运用并行计算和双缓冲技术。实验结果表明 ,经过优化后的单汉字全文检索系统已达到实用化的程度。 展开更多
关键词 单汉字标引 倒排文件 Golomb编码 全文检索系统 倒排索引 单汉字索引
下载PDF
高效FTP搜索引擎的设计与实现 被引量:7
17
作者 郭立力 赵春江 《华南理工大学学报(自然科学版)》 EI CAS CSCD 北大核心 2009年第1期135-139,共5页
为了解决传统FTP搜索引擎对检索结果优化程度不够而造成的检索质量低的问题,在对FTP用户查询日志进行统计分析的基础上,采用双字节倒排索引、检索结果自动分类以及查询自动纠错等技术设计了一种高性能的智能化FTP搜索引擎.双字节倒排是... 为了解决传统FTP搜索引擎对检索结果优化程度不够而造成的检索质量低的问题,在对FTP用户查询日志进行统计分析的基础上,采用双字节倒排索引、检索结果自动分类以及查询自动纠错等技术设计了一种高性能的智能化FTP搜索引擎.双字节倒排是对文件名中每两个字节建立倒排索引表,自动分类是对检索结果按主题划分为层次结构,查询自动纠错是以用户查询日志中的高频查询词为数据源构建拼写错误词典.试验结果表明,该方案能够有效地提高FTP搜索引擎的文件检索效率与质量. 展开更多
关键词 文件传输协议 搜索引擎 倒排索引 自动分类 自动纠错
下载PDF
基于压缩后缀数组技术的搜索引擎 被引量:2
18
作者 姚全珠 张楠 +1 位作者 杨增辉 田元 《计算机工程》 CAS CSCD 北大核心 2008年第10期83-85,88,共4页
目前,搜索引擎的核心模块(索引器)均采用倒排文件结构,对短语查询的准确率较低。该文引入后缀数组技术进行全文索引,为克服全文索引时占用空间大的缺点,研究了压缩后缀数组技术,把后缀数组索引的大小压缩到了O(n)位,并给出应用压缩后缀... 目前,搜索引擎的核心模块(索引器)均采用倒排文件结构,对短语查询的准确率较低。该文引入后缀数组技术进行全文索引,为克服全文索引时占用空间大的缺点,研究了压缩后缀数组技术,把后缀数组索引的大小压缩到了O(n)位,并给出应用压缩后缀数组索引的步骤和核心操作伪代码。对比实验表明,基于压缩后缀数组的索引比传统倒排文件索引的短语查准率提高了近20%。 展开更多
关键词 压缩后缀数组 倒排文件 后缀数组 搜索引擎
下载PDF
基于倒排文件的布尔规则隐藏算法 被引量:1
19
作者 张伟 陈芸 +1 位作者 邹汉斌 周霆 《计算机工程》 EI CAS CSCD 北大核心 2005年第14期97-98,218,共3页
介绍了关联规则方法的研究概况,提出了利用基于倒排文件的比特向量操作实现布尔规则隐藏算法,以及对实验结果的评估分析,并对未来数据挖掘领域中涉及的信息隐藏研究进行了展望。
关键词 敏感规则 隐藏 倒排文件 比特向量
下载PDF
全文检索系统中动态索引技术的研究与实现 被引量:7
20
作者 向桂林 刘锦华 《现代图书情报技术》 CSSCI 北大核心 2003年第3期51-54,共4页
分析了传统全文检索系统中静态索引技术的实现 ,讨论了静态索引技术的优缺点 ;然后提出来一种动态索引技术 ,阐述了动态索引技术的原理 。
关键词 全文检索系统 动态索引技术 静态索引技术 变长文件管理系统 数据库开发平台
下载PDF
上一页 1 2 4 下一页 到第
使用帮助 返回顶部