摘要
提出了一种利用搜索引擎日志发现高质量相近Web查询的新方法.对一个给定的查询,从日志中抽取候选查询的一些量化指标,如被查询的不同用户量、被查询的次数、用户在反馈结果中的点击次数、与给定查询间的共有词项个数、点击相同URL的个数及其分布等,用手工标记部分训练数据,进而建立一个发现有较好反馈结果的相近查询的回归模型.实验显示用该方法可得到较高的结果精度.
出处
《北京邮电大学学报》
EI
CAS
CSCD
北大核心
2005年第z1期44-48,共5页
Journal of Beijing University of Posts and Telecommunications
基金
国家自然科学基金项目(60435020)
教育部博士点基金项目(20030001076)
中国博士后科学基金项目(2004036182)