摘要
Web网上海量信息急速膨胀使得有效定向采集相关信息检索成为网上信息查询一个日益重要的研究方向。该文提出一种基于用户兴趣模型的Web文本信息预测采集过滤方法。这种方法根据正反集文本过滤方法,设计出一种用户兴趣模型,并在对Web站点结构进行分析的基础上,通过对网页的相关度的预测来控制信息的采集。在保持定向采集精度的同时,缩短采集时间、减少存储、加快检索,节约了网络资源。
Following rapid expansion of huge information on Web,the efficient Web information gathering on specified fields becomes more important in information retrieval research.Based on the interested model of user,this paper presents the Forecast and Filter Method for Web page Gathering.The method applies text filter with plus and minus sets provided by user to design the interested model.Forecast for the relativity of Web page controlled the gathering,based on the analysis of Website structure.Gathering time shortened,storage decreased,retrieval speeded,net resources saved.
出处
《计算机工程与应用》
CSCD
北大核心
2003年第5期3-5,16,共4页
Computer Engineering and Applications
基金
1999~2000年度国家技术创新项目″中国技术创新网″建设
2002年的″中国技术创新网″升级改造项目
国家经贸委国家重点技术创新项目"中国技术创新信息网系统开发"中信息采集检索部分