-
题名搜索引擎的文档预处理技术研究
被引量:2
- 1
-
-
作者
陶跃华
赵波
杨秀国
-
机构
云南师范大学计算机科学与信息技术学院
-
出处
《计算机科学》
CSCD
北大核心
2002年第7期111-112,100,共3页
-
基金
云南省教育厅科学研究基金(项目编号:0112242)
-
文摘
搜索引擎的R0bots(自动采集器)对WWW站点进行搜索,并将搜索到WWW页面信息存入搜索引擎的临时数据库,然后再对页面信息进行整理,形成规范的页面索引,存入索引数据库,供用户查询.设计搜索引擎的第一步就是对输入的各项进行规格化处理,使之标准化.
-
关键词
搜索引擎
文档预处理
数据结构
网页标引
计算机网络
信息检索
-
Keywords
Search engines .Documents predisposition,Stoplists.Stemming
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
G354.4
[文化科学—情报学]
-
-
题名基于向量空间模型的中文文档预处理系统设计
- 2
-
-
作者
张亦辉
石冰
李新
-
机构
济南铁道职业技术学院
山东大学软件学院
滨州职业学院
-
出处
《山东科学》
CAS
2010年第5期50-54,共5页
-
文摘
本文主要讨论基于向量空间模型的中文文档预处理的系统设计,通过改造字典提高中文语句流词义识别的速度,设置同义词典进行特征表示和提取,改进TFIDF表示法完成权值计算。实验表明,经过改进之后,工作效率和查询准确度有所提高。
-
关键词
WEB文本挖掘
向量空间模型
中文文档预处理系统
-
Keywords
web texrt mining
vector space model
Chinese document pretreatment system
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Q/A与文档库的智能课程答疑系统
被引量:3
- 3
-
-
作者
叶忠杰
陈庆章
-
机构
浙江工业大学职教学院
浙江工业大学信息工程学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2008年第10期2692-2694,共3页
-
基金
浙江省新世纪教改基金项目(yb05103)
-
文摘
评价智能答疑系统优劣的重要指标是准确率和召回率。系统结合Q/A库和文档库搜索技术的优势实现,利用成熟的Q/A技术回答常见问题,保证了系统的准确率和高效率。利用智能文档搜索技术解答非常见问题,提高了系统的召回率,又因为事先对文档作了预处理,使搜索效率明显提高。同时系统基于课程开发,关键词的词汇量少而精确,使得语义理解的处理得以简化。
-
关键词
智能答疑
召回率
向量空间模型
文档预处理
文档相似度
-
Keywords
intellectualized answering
recalling
vector space model
pretreatment document
document similarity
-
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
-
-
题名针对中文检索的Lucene改进策略
被引量:10
- 4
-
-
作者
索红光
孙鑫
-
机构
中国石油大学计算机与通信工程学院
-
出处
《计算机应用与软件》
CSCD
2009年第6期175-177,共3页
-
文摘
为了提高基于Lucene中文检索系统的检索精度和效率,通过分析Lucene的结构,在系统中加入了中文分词模块和索引文档预处理模块。给出了具体的实验方法和实验过程,对改进原理和实验数据进行了分析,表明了加入中文分词模块和在索引预处理模块中采用提取特定数量的特征词来替代文档的方法能够有效提高Lucene检索系统的效率和精度,增强Lucene检索系统中文的性能。
-
关键词
LUCENE
索引
中文分词
文档预处理
-
Keywords
Lucene Index Chinese word segmentation Documents pretreatment
-
分类号
TP316
[自动化与计算机技术—计算机软件与理论]
G354.4
[文化科学—情报学]
-
-
题名基于Lucene的中文全文检索系统的研究与设计
被引量:6
- 5
-
-
作者
索红光
孙鑫
-
机构
中国石油大学(华东)计算机与通信工程学院
-
出处
《计算机工程与设计》
CSCD
北大核心
2008年第19期5083-5086,共4页
-
文摘
提出了一种基于Lucene的中文全文检索系统模型。通过分析Lucene的系统结构,系统采用了基于统计的网页正文提取技术,并且加入了中文分词模块和索引文档预处理模块来提高检索系统的效率和精度。在检索结果的处理上,采用文本聚类的办法,使检索结果分类显示,提高了用户的查找的效率。实验数据表明,该系统在检索中文网页时,在效率、精度和结果处理等方面性能明显提高。
-
关键词
全文检索
网页正文提取
中文分词模块
索引文档预处理
文本聚类
-
Keywords
full text search
web page text extraction
Chinese word segmentation
documents for indexing pretreatment
document clustering
-
分类号
TP393
[自动化与计算机技术—计算机应用技术]
-
-
题名基于Web的文摘技术研究
被引量:1
- 6
-
-
作者
耿增民
贾云得
刘万春
朱玉文
-
机构
北京理工大学计算机科学技术学院
-
出处
《中文信息学报》
CSCD
北大核心
2006年第6期54-60,108,共8页
-
基金
国家部委基金资助项目(2003WL01)
-
文摘
W eb文档的迅猛增长使W eb文摘技术成了当今的一个研究热点。由于W eb文档的特殊性,使得W eb文摘不同于传统的文本自动文摘。本文分析了W eb文档的特点;给出了W eb文摘的定义;提出了基于句子抽取的W eb文摘生成算法。算法中将每个W eb句子权重分解为W eb特征词权重和W eb句子结构权重,并用机器学习的方法来计算二者所占的比重。W eb特征词权重根据文档分类树图进行权值调整,W eb句子结构权重充分考虑排版格式和超连接属性。通过对1000篇W eb文档的文摘实验,证明文中所提W eb文摘算法切实可行。
-
关键词
计算机应用
中文信息处理
Web文摘
文本文摘
Web文档预处理
文摘后处理
-
Keywords
computer application
Chinese information processing
Web document summarization
automatic text summarization
preprocessing of Web document
postprocessing of summary
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-
-
题名网络信息挖掘及其在竞争情报工作中的应用
被引量:12
- 7
-
-
作者
霍艳蓉
孙成权
-
机构
中科院资源环境科学信息中心
-
出处
《情报杂志》
CSSCI
北大核心
2003年第2期12-14,共3页
-
文摘
介绍了网络信息挖掘的类型和内容、实施网络信息挖掘的关键技术以及技术实现流程 ,阐述了网络信息挖掘在竞争情报工作中的应用。
-
关键词
WEB
网络信息挖掘
竞争情报
类型
文档信息预处理
关键技术
-
分类号
G250.73
[文化科学—图书馆学]
G35
[文化科学—情报学]
-
-
题名格式转换在基于仿人摘要系统中的应用
- 8
-
-
作者
孙展
王永成
-
机构
上海交通大学计算机科学与工程系
-
出处
《计算机仿真》
CSCD
2004年第7期163-165,168,共4页
-
基金
863(课题编号2002AA119050)资助项目
-
文摘
该文的主要内容是描述如何实现一个PDF格式转换模块,并添加到一个通用文档预处理模块结构中来增强系统功能。本预处理模块目前应用于一个新闻自动摘要系统。该系统采用了仿人算法,模拟人在处理摘要时候的思维模式,实现了一系列算法,最终生成了主题明确,反映中心,语句连贯的摘要。而PDF模块的加入,使得整个文档预处理模块的功能大大增强,能够处理文档的范围更加广泛,为进一步的文档信息处理打下了牢固的基础。该文详细分析了该格式的特点和数据存储方式,并提出了合适的解析算法。最后文章还讨论了如何利用设计模式来实现系统的无缝集成以及功能模块的动态添加,使得软件的模块化和可维护性得到了质的飞跃。
-
关键词
格式转换
仿人摘要系统
文档预处理
PDF文件结构
Deflate解压算法
软件维护
设计模块
-
Keywords
Text preprocessing
Apery algorithm
Compress algorithm
Design pattern
-
分类号
TP311.12
[自动化与计算机技术—计算机软件与理论]
-