一种消除位置偏差的搜索自动补全深度学习排序算法

Unbiased Deep Learning to Rank Algorithm for Suggestion Auto-completion

下载PDF

导出

摘要搜索提示自动补全是正式提交搜索之前,影响用户输入搜索内容的关键手段之一,是商业搜索引擎不可或缺的核心功能之一。如何提供更好的提示词,是一个排序问题。在机器学习排序领域,收集的训练数据有位置偏差,且会影响训练模型的排序效果,已经是一个较为普遍的认知。针对以上训练数据有偏问题,对位置偏差和相关度使用深度学习分别建模,并结合改进后的上下文语义特征,新设计一种同时学习位置偏差和提示词相关度的深度学习排序算法(An Unbiased Deep Learning To Rank Algorithm for Suggestion Auto-completion,UDLTR-SAc)提升搜索提示自动补全的排序效果。UDLTR-SAc能自动学习训练数据中由于位置引入的偏差,从而学习到更为准确的相关度计算模型,在与没有考虑有偏问题的同类型算法及经典补全排序算法对比上分别获得显著增长;同时,在线上A/B测试上也获得+0.1%(p<0.1)的GMV增长。 Suggestion auto-completion is one of the key means to influence users’input before searching submission,and it is one of the indispensable core functions of commercial search engines.How to provide better suggestion words is also a ranking pro-blem.In the field of machine learning ranking,it has been a common perception that the collected training data has position bias[1-8]which can affect the ranking effect of a training model.To address the above problem of biased training data,this paper combines improved context-based semantic feature to design an unbiased deep learning to ranking algorithm for suggestion auto-completion(UDLTR-SAc)which learns position bias and suggestion relevance simultaneously.According to offline experiments and online A/B tests,UDLTR-SAc can automatically learn the training data bias introduced by the position to obtain a more accurate model in calculating correlation when compared with the similar algorithm without considering the bias problem or the classical completion ranking algorithm respectively.What’s more,it also achieves a 0.1%(p<0.1)increase in GMV on the online A/B tests.

作者周明星闫湘洲于敬高昌举陈运文纪达麒金克 ZHOU Mingxing;YAN Xiangzhou;YU Jing;GAO Changju;CHEN Yunwen;JI Daqi;JIN Ke(Datagrand Co.,Ltd.,Shanghai 200120,China)

机构地区达观数据

出处《计算机科学》 CSCD 北大核心 2023年第S02期681-685,共5页 Computer Science

基金上海市科学技术委员会“科技创新行动计划”青年科技启明星计划资助项目(21QB1400100)。

关键词位置偏差深度学习 LTR 提示词自动补全上下文语义 Position bias Deep learning Learning to rank(LTR) Suggestion Auto-completion Context-based semantic

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献3

1李稚楹,杨武,谢治军.PageRank算法研究综述[J].计算机科学,2011,38(B10):185-188. 被引量：48
2王秀平,李治柱.一种改进的搜索引擎网页排序算法[J].计算机科学,2004,31(B09):17-19. 被引量：3
3张祥,瞿裕忠.语义网中的排序问题[J].计算机科学,2008,35(2):196-200. 被引量：4

二级参考文献44

1戚华春,黄德才,郑月锋.具有时间反馈的PageRank改进算法[J].浙江工业大学学报,2005,33(3):272-275. 被引量：27
2黄德才,戚华春.PageRank算法研究[J].计算机工程,2006,32(4):145-146. 被引量：69
3黄德才,戚华春,钱能.基于主题相似度模型的TS-PageRank算法[J].小型微型计算机系统,2007,28(3):510-514. 被引量：23
4王小玲,胡平.基于个人兴趣和反馈技术的PageRank算法研究[M].合肥:合肥工业大学出版杜,2006(3).
5中国互联网络信息中心(CNNIC)[R].第26次中国互联网络发展状况报告,2010,7.http://www.cnnic.net.cn/html/Dir/2010/07/15/5921.html.
6Kamvar S. Extrapolation Methods for Accelerating PageRank computations[D]. USA: Stanford University, 2003.
7Haveliwala T H. Efficient Computation of PageRank[R]. Stanford. 1999.
8Soon I Y,Koh S N. Speech enhancement using 2-D fourier transform[J].IEEE Transactions on Speech and Audio Processing, 2003,11 (6) : 717-724.
9Haveliwala T H. Topic-sensitive PageRank[C]//Proeeedings of the Eleventh International World Wide Web Conference. Hoho Lulu Hawaii, 2002.
10Richardson M, Domingos P. The intelligent surfer.. Probabilistic combination of link and content information[J]. PageRank Advances in Neural Information Processing Systems, 2002,14: 673-680.

共引文献52

1李江,殷之明.链接分析研究综述[J].大学图书馆学报,2008,26(2):51-58. 被引量：14
2戴伟.情报学视角与社会学视角的链接分析比较[J].中国科技资源导刊,2008,40(3):21-25. 被引量：1
3张祥,葛唯益,瞿裕忠.语义网站点的发现与排序[J].软件学报,2009,20(10):2834-2843. 被引量：2
4徐德智,刘怡静.一种用于本体排序的内容分析方法[J].计算机应用研究,2010,27(6):2127-2129. 被引量：2
5王春芹.一种基于链接结构的PageRank改进算法[J].中国电子商务,2012(2):14-15. 被引量：1
6方树峰.基于用户反馈的PageRank改进算法[J].计算技术与自动化,2012,31(1):89-92. 被引量：6
7舒琰,向阳,张骐,张熊熊,张君瑛.基于PageRank的微博排名MapReduce算法研究[J].计算机技术与发展,2013,23(2):73-76. 被引量：11
8陶林,谌超,强保华,王勇.基于Hadoop的Nutch网页排序算法研究与实现[J].桂林电子科技大学学报,2013,33(2):139-143. 被引量：4
9吴陈鹤,杜友田,苏畅.有限节点驱动的微博社会网络话题推荐方法[J].计算机工程与应用,2013,49(15):141-146. 被引量：1
10李江华,时鹏,胡长军.本体搜索与排序方法研究综述[J].小型微型计算机系统,2013,34(10):2396-2406. 被引量：6

1覃毅.霍曼科技出海[J].21世纪商业评论,2023(9):76-77.
2王丽.基于ChatGPT4.0的人工智能艺术设计走向分析[J].中国新技术新产品,2023(19):38-41. 被引量：1
3陈端兵,杨志杰,曾卓,傅彦,周俊临,赵俊严.基于子图特征的节点排序算法[J].计算机科学,2023,50(S02):431-437.
4郭具涛,吕佑龙,戴铮,张洁,郭宇.基于复合规则和强化学习的混流装配线调度方法[J].中国机械工程,2023,34(21):2600-2606. 被引量：3

计算机科学

2023年第S02期

浏览历史

内容加载中请稍等...

一种消除位置偏差的搜索自动补全深度学习排序算法

参考文献3

二级参考文献44

共引文献52

相关作者

相关机构

相关主题

浏览历史