-
题名搜索日志中领域查询串识别研究
- 1
-
-
作者
唐静笑
吕学强
柳成洋
李涵
-
机构
北京信息科技大学网络文化与数字传播北京市重点实验室
中国标准化研究院现代服务标准化发展研究中心
-
出处
《计算机工程与设计》
CSCD
北大核心
2014年第5期1766-1771,共6页
-
基金
国家自然科学基金项目(61171159
61271304)
北京市教委科技发展计划重点基金项目暨北京市自然科学基金B类重点基金项目(KZ201311232037)
-
文摘
利用搜索日志中查询串自身信息和用户点击信息,提出了双层模型识别领域查询串的方法。第一层模型采用贝叶斯法则和词典相结合的方法对查询串进行识别;针对搜索日志查询串内容简短、信息量少的特点,提出基于域名可信度的第二层识别模型。在搜狗2012版用户查询日志上对双层模型进行了开放测试,召回率和准确率分别达到了85.2%和94.6%,实验结果表明了该方法的有效性。
-
关键词
查询串
双层模型
贝叶斯
领域词典
域名可信度
-
Keywords
query string
bi-level model l Bayes theorem
domain dictionary
domain name credibility
-
分类号
TP391.1
[自动化与计算机技术—计算机应用技术]
-
-
题名用户查询意图的层次化识别方法
被引量:1
- 2
-
-
作者
唐静笑
吕学强
柳成洋
李涵
-
机构
北京信息科技大学网络文化与数字传播北京市重点实验室
中国标准化研究院
-
出处
《现代图书情报技术》
CSSCI
北大核心
2014年第1期36-42,共7页
-
基金
国家自然科学基金项目"基于本体的专利自动标引研究"(项目编号:61271304)
北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目"面向领域的互联网多模态信息精准搜索方法研究"(项目编号:KZ201311232037)的研究成果之一
-
文摘
【目的】向搜索引擎提交的查询均有其潜在的查询意图,准确识别查询意图可以提高查询的效率。【方法】针对有明显意图的查询,采用滑动窗口寻找最大公共子串的策略抽取用户的意图模板,然后用模板匹配的方法识别用户查询意图。对无明显意图的查询,采用多特征融合的分类方法进行识别。【结果】实验结果表明,采用层次化识别方法和单独使用分类器方法相比,识别查询意图的实验结果正确率得到19.04%的提升。【局限】可获得的意图模板是有限的,因此显式意图查询的识别存在局限性。大规模数据情况下,模式匹配及机器学习算法的运算量很大,需要进一步优化算法。【结论】实验证明该方法在Web意图识别中是有效的,对意图识别率的提高有积极意义。
-
关键词
信息检索查询意图
层次化识别
意图模板
-
Keywords
Information retrieval Query intent Hierarchical identification Intent template
-
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
-