期刊文献+
共找到8篇文章
< 1 >
每页显示 20 50 100
搜索引擎的文档预处理技术研究 被引量:2
1
作者 陶跃华 赵波 杨秀国 《计算机科学》 CSCD 北大核心 2002年第7期111-112,100,共3页
搜索引擎的R0bots(自动采集器)对WWW站点进行搜索,并将搜索到WWW页面信息存入搜索引擎的临时数据库,然后再对页面信息进行整理,形成规范的页面索引,存入索引数据库,供用户查询.设计搜索引擎的第一步就是对输入的各项进行规格化处理,使... 搜索引擎的R0bots(自动采集器)对WWW站点进行搜索,并将搜索到WWW页面信息存入搜索引擎的临时数据库,然后再对页面信息进行整理,形成规范的页面索引,存入索引数据库,供用户查询.设计搜索引擎的第一步就是对输入的各项进行规格化处理,使之标准化. 展开更多
关键词 搜索引擎 文档预处理 数据结构 网页标引 计算机网络 信息检索
下载PDF
基于向量空间模型的中文文档预处理系统设计
2
作者 张亦辉 石冰 李新 《山东科学》 CAS 2010年第5期50-54,共5页
本文主要讨论基于向量空间模型的中文文档预处理的系统设计,通过改造字典提高中文语句流词义识别的速度,设置同义词典进行特征表示和提取,改进TFIDF表示法完成权值计算。实验表明,经过改进之后,工作效率和查询准确度有所提高。
关键词 WEB文本挖掘 向量空间模型 中文文档预处理系统
下载PDF
基于Q/A与文档库的智能课程答疑系统 被引量:3
3
作者 叶忠杰 陈庆章 《计算机工程与设计》 CSCD 北大核心 2008年第10期2692-2694,共3页
评价智能答疑系统优劣的重要指标是准确率和召回率。系统结合Q/A库和文档库搜索技术的优势实现,利用成熟的Q/A技术回答常见问题,保证了系统的准确率和高效率。利用智能文档搜索技术解答非常见问题,提高了系统的召回率,又因为事先对文档... 评价智能答疑系统优劣的重要指标是准确率和召回率。系统结合Q/A库和文档库搜索技术的优势实现,利用成熟的Q/A技术回答常见问题,保证了系统的准确率和高效率。利用智能文档搜索技术解答非常见问题,提高了系统的召回率,又因为事先对文档作了预处理,使搜索效率明显提高。同时系统基于课程开发,关键词的词汇量少而精确,使得语义理解的处理得以简化。 展开更多
关键词 智能答疑 召回率 向量空间模型 文档预处理 文档相似度
下载PDF
针对中文检索的Lucene改进策略 被引量:10
4
作者 索红光 孙鑫 《计算机应用与软件》 CSCD 2009年第6期175-177,共3页
为了提高基于Lucene中文检索系统的检索精度和效率,通过分析Lucene的结构,在系统中加入了中文分词模块和索引文档预处理模块。给出了具体的实验方法和实验过程,对改进原理和实验数据进行了分析,表明了加入中文分词模块和在索引预处理模... 为了提高基于Lucene中文检索系统的检索精度和效率,通过分析Lucene的结构,在系统中加入了中文分词模块和索引文档预处理模块。给出了具体的实验方法和实验过程,对改进原理和实验数据进行了分析,表明了加入中文分词模块和在索引预处理模块中采用提取特定数量的特征词来替代文档的方法能够有效提高Lucene检索系统的效率和精度,增强Lucene检索系统中文的性能。 展开更多
关键词 LUCENE 索引 中文分词 文档预处理
下载PDF
基于Lucene的中文全文检索系统的研究与设计 被引量:6
5
作者 索红光 孙鑫 《计算机工程与设计》 CSCD 北大核心 2008年第19期5083-5086,共4页
提出了一种基于Lucene的中文全文检索系统模型。通过分析Lucene的系统结构,系统采用了基于统计的网页正文提取技术,并且加入了中文分词模块和索引文档预处理模块来提高检索系统的效率和精度。在检索结果的处理上,采用文本聚类的办法,使... 提出了一种基于Lucene的中文全文检索系统模型。通过分析Lucene的系统结构,系统采用了基于统计的网页正文提取技术,并且加入了中文分词模块和索引文档预处理模块来提高检索系统的效率和精度。在检索结果的处理上,采用文本聚类的办法,使检索结果分类显示,提高了用户的查找的效率。实验数据表明,该系统在检索中文网页时,在效率、精度和结果处理等方面性能明显提高。 展开更多
关键词 全文检索 网页正文提取 中文分词模块 索引文档预处理 文本聚类
下载PDF
基于Web的文摘技术研究 被引量:1
6
作者 耿增民 贾云得 +1 位作者 刘万春 朱玉文 《中文信息学报》 CSCD 北大核心 2006年第6期54-60,108,共8页
W eb文档的迅猛增长使W eb文摘技术成了当今的一个研究热点。由于W eb文档的特殊性,使得W eb文摘不同于传统的文本自动文摘。本文分析了W eb文档的特点;给出了W eb文摘的定义;提出了基于句子抽取的W eb文摘生成算法。算法中将每个W eb... W eb文档的迅猛增长使W eb文摘技术成了当今的一个研究热点。由于W eb文档的特殊性,使得W eb文摘不同于传统的文本自动文摘。本文分析了W eb文档的特点;给出了W eb文摘的定义;提出了基于句子抽取的W eb文摘生成算法。算法中将每个W eb句子权重分解为W eb特征词权重和W eb句子结构权重,并用机器学习的方法来计算二者所占的比重。W eb特征词权重根据文档分类树图进行权值调整,W eb句子结构权重充分考虑排版格式和超连接属性。通过对1000篇W eb文档的文摘实验,证明文中所提W eb文摘算法切实可行。 展开更多
关键词 计算机应用 中文信息处理 Web文摘 文本文摘 Web文档预处理 文摘后处理
下载PDF
网络信息挖掘及其在竞争情报工作中的应用 被引量:12
7
作者 霍艳蓉 孙成权 《情报杂志》 CSSCI 北大核心 2003年第2期12-14,共3页
介绍了网络信息挖掘的类型和内容、实施网络信息挖掘的关键技术以及技术实现流程 ,阐述了网络信息挖掘在竞争情报工作中的应用。
关键词 WEB 网络信息挖掘 竞争情报 类型 文档信息预处理 关键技术
下载PDF
格式转换在基于仿人摘要系统中的应用
8
作者 孙展 王永成 《计算机仿真》 CSCD 2004年第7期163-165,168,共4页
该文的主要内容是描述如何实现一个PDF格式转换模块,并添加到一个通用文档预处理模块结构中来增强系统功能。本预处理模块目前应用于一个新闻自动摘要系统。该系统采用了仿人算法,模拟人在处理摘要时候的思维模式,实现了一系列算法,最... 该文的主要内容是描述如何实现一个PDF格式转换模块,并添加到一个通用文档预处理模块结构中来增强系统功能。本预处理模块目前应用于一个新闻自动摘要系统。该系统采用了仿人算法,模拟人在处理摘要时候的思维模式,实现了一系列算法,最终生成了主题明确,反映中心,语句连贯的摘要。而PDF模块的加入,使得整个文档预处理模块的功能大大增强,能够处理文档的范围更加广泛,为进一步的文档信息处理打下了牢固的基础。该文详细分析了该格式的特点和数据存储方式,并提出了合适的解析算法。最后文章还讨论了如何利用设计模式来实现系统的无缝集成以及功能模块的动态添加,使得软件的模块化和可维护性得到了质的飞跃。 展开更多
关键词 格式转换 仿人摘要系统 文档预处理 PDF文件结构 Deflate解压算法 软件维护 设计模块
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部