-
题名利用关键词倒排表实时检索中文网页
被引量:4
- 1
-
-
作者
王远定
梁久祯
-
机构
江南大学信息工程学院
-
出处
《计算机工程与应用》
CSCD
北大核心
2010年第28期135-137,159,共4页
-
基金
江苏省自然科学基金No.BK20080544~~
-
文摘
研究了基于关键词倒排表的中文网页快速检索方法。在建立大量网页语料库的前提下,利用关键词词典和优化后的前向最大切词算法脱机生成网页关键词特征向量,然后对网页特征向量作维数压缩生成压缩格式的网页特征表,最后利用网页特征表根据关键词在所有网页中出现的频率统计生成关键词倒排文件。实验中,通过对比访问网页库、特征表和倒排文件三种不同的数据来源,分别实现了中文网页的关键词检索,比较了三种数据源检索的实时性。实验表明,基于关键词的倒排表检索算法大大优于其他两种方法,具有很好的实时性。
-
关键词
检索
网页特征表
倒排文件
实时性
-
Keywords
retrieval
webpage feature table
inverted file
real-time
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-