期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
利用关键词倒排表实时检索中文网页 被引量:4
1
作者 王远定 梁久祯 《计算机工程与应用》 CSCD 北大核心 2010年第28期135-137,159,共4页
研究了基于关键词倒排表的中文网页快速检索方法。在建立大量网页语料库的前提下,利用关键词词典和优化后的前向最大切词算法脱机生成网页关键词特征向量,然后对网页特征向量作维数压缩生成压缩格式的网页特征表,最后利用网页特征表根... 研究了基于关键词倒排表的中文网页快速检索方法。在建立大量网页语料库的前提下,利用关键词词典和优化后的前向最大切词算法脱机生成网页关键词特征向量,然后对网页特征向量作维数压缩生成压缩格式的网页特征表,最后利用网页特征表根据关键词在所有网页中出现的频率统计生成关键词倒排文件。实验中,通过对比访问网页库、特征表和倒排文件三种不同的数据来源,分别实现了中文网页的关键词检索,比较了三种数据源检索的实时性。实验表明,基于关键词的倒排表检索算法大大优于其他两种方法,具有很好的实时性。 展开更多
关键词 检索 网页特征表 倒排文件 实时性
下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部