摘要
个人信息检索是指个人计算机上用户搜索个人信息(通常是文档)的过程,与互联网检索相比,个人信息检索能够利用的信息很少,这使得其检索结果的排序更加困难。该文通过考察计算机上的用户行为,对个人信息检索的排序问题进行深入的研究。该文考察的用户行为主要包括用户在检索系统中的查询行为和在计算机上的文件访问行为。该文一方面通过查询行为数据训练出结果排序函数,另一方面通过文件访问行为数据获取文件自身的权重,最后利用统计学习方法结合这两类行为的计算结果。实验结果表明,该文提出的方法好于传统的TFIDF排序方法。
Personal Information Retrieval(PIR) is an important technology for users searching files in their computers.Compared with Web retrieval,the information that can be used by PIR are very limited,which makes personal information retrieval a very difficult problem.In this paper,we collect user behavior information and use them to conduct an in-depth research on ranking problem of PIR.The user behavior information includes the user's search information and the file-access information.In this paper,we use search information to obtain training data and file-access information to computer file weights,then we use statistical learning method to learn ranking function.Experimental results show that our method performes better than the traditional TFIDF ranking method.
出处
《中文信息学报》
CSCD
北大核心
2011年第1期9-14,122,共7页
Journal of Chinese Information Processing
基金
国家自然科学基金资助项目(60873166
60776797)
国家973计划资助项目(2007CB311103)
国家863计划资助项目(2006AA010105)