PWFT-BERT:一种融合排序学习与预训练模型的检索排序方法被引量：2

PWFT-BERT:A Retrieval Ranking Method Integrating Learning to Rank and Pre-Trained Model

下载PDF

导出

摘要信息检索是从文档集合或互联网中找出用户所需信息的过程,细化为召回和排序两个阶段。针对排序阶段中相关文档的重排序,提出一种称为融合排序学习与预训练模型的检索排序方法(Pair-Wise FineTuned Bidirectional Encoder Representation from Transformers,PWFTBERT)。通过对候选论文数据集使用BM25等算法召回出与查询相关的小范围文档后,可应用PWFT-BERT对召回得到的文档集合进行排序。为构造pair-wise形式的训练数据,提出一种伪负例生成算法生成训练数据,并使用排序学习方法微调预训练模型使其适配排序任务。对比IT-IDF和BM25基线方法,PWFT-BERT在WSDM-DiggSci 2020数据集上的检索结果提升了240%和74%,证明了所提方法的有效性。 Information Retrieval is the process of finding relevant information needed by users from Internet or large document collections,which includes two stages:recall and ranking.To address the re-ranking of related documents in the ranking stage,a retrieval ranking method called PWFT-BERT is proposed,which integrates Learning to Rank and pre-training models.First,by using recall algorithms such as BM25,the candidate paper dataset is recalled to a small range of documents related to query,and then PWFT-BERT is used to rank the recalled documents.To train PWFT-BERT,we construct pair-wise form training data by using a pseudo-negative example generation algorithm,and use Learning to Rank method to fine-tune the pre-trained model to fit the ranking task.Compared with the IT-IDF and BM25 baseline methods,the retrieval results of PWFT-BERT on the WSDMDiggSci 2020 dataset are improved by 240% and 74%,respectively,proving the effectiveness of the proposed method.

作者苏珂黄瑞阳张建朋胡楠余诗媛 SU Ke;HUANG Ruiyang;ZHANG Jianpeng;HU Nan;YU Shiyuan(Zhengzhou University,Zhengzhou 450001,China;Information Engineering University,Zhengzhou 450001,China)

机构地区郑州大学信息工程大学

出处《信息工程大学学报》 2022年第4期460-466,共7页 Journal of Information Engineering University

基金国家自然基金青年基金资助项目(62002384) 中国博士后科学基金面上项目(2020M683760)。

关键词自然语言处理信息检索排序学习预训练模型检索排序 natural language processing information retrieval learning to rank pre-trained models retrieval ranking

分类号 TP183 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献2

1高炜,张超,梁立.信息检索排序算法研究综述[J].信息技术,2009,33(6):1-4. 被引量：3
2苏珂,黄瑞阳,张建朋,余诗媛,胡楠.多跳机器阅读理解研究进展[J].计算机工程,2021,47(9):1-17. 被引量：4

二级参考文献20

1郑煜,钱榕.一个基于链接分析的相关度排序算法及其在专题搜索引擎中应用[J].计算机应用与软件,2007,24(7):54-55. 被引量：5
2Page L. The PageRank Citation Ranking: Bring Order to the Web[EB/ OL]. Stanford Digital Libraries Working Paper. [1999]. http://www. diglib. stanford. edu.
3Kleinberg J M. Authoritative sources in a hyperlinked environment[J]. Journal of the ACM, 1999,46(5) :604 - 632.
4Nallapati R. Discriminative Modds for Information Retrieval[C]. Proceedings of the 27th SIGIR conference, on information retrieval,2004: 64-71.
5Caruana R, Baluja S, Mitchell T. Using the future to "sort out" the present:~ and multitask learning for medical risk evaluation[J]. Advances in Neural information Processing Systems (NIPS)8: 959 - 965.
6Freund Y, lyer R D, Schapire R E, et al. An efficient boosting algorithm for combining preferences[ C ]. Proceedings of the 15th Intl. conference on machine learning , San Francisco, CA, USA, 1998:170 - 178.
7Joachims T. Optimizing search engines using clickthrongh data [ C ]. proceedings of the 8th ACM SIGKDD intl. conference, on knowledge discovery and data mining. New York, NY, USA, ACM press,2002: 133 - 142.
8Herbrich R, Graepel T, Obermayer K. Large margin rank boundaries for ordinal regression[ J ]. Advances in Large Marge Classifiers. MIT Press,2000:115- 132.
9Burges C, et al. Leaming to rank using gradient descent[C]. proceedings of the 22nd intl. conf. on machine learning, 2005:89-96.
10T-S.Chua, S-Y.Neo, H-K.C, oh,et al.Trecvid 2005 by nus pris[J]. NIST TRECVID, Nov,2005.

共引文献5

1孙海东,张力.基于Lucennee.t的医学教育视频垂直检索的设计与实现[J].开放教育研究,2011,17(2):105-112. 被引量：3
2刘羽,蔡妍,牛茜欣.云计算数据保护系统设计[J].科技创新与应用,2015,5(23):98-98.
3黄君扬,王振宇,梁家卿,肖仰华.基于自裁剪异构图的NL2SQL模型[J].计算机工程,2022,48(9):71-77. 被引量：1
4扆雅欣,孙欣伊,谭红叶.基于反事实推理的阅读理解去偏方法[J].软件导刊,2023,22(1):152-157.
5王红斌,杨何祯旻,王灿宇.基于对比学习思想的多跳问题生成[J].吉林大学学报（理学版）,2023,61(5):1103-1111.

同被引文献18

1孙洪伟,司唯山,纪兆辉.基于本体的家谱知识图谱构建及信息检索系统的设计实现[J].计算机产品与流通,2020,9(9):156-156. 被引量：3
2于再富,袁满.融合BabelNet的多语言智能信息检索模型[J].吉林大学学报（信息科学版）,2020,38(1):99-106. 被引量：7
3公维臣.基于区块链技术的图书馆隐性知识采集方法研究[J].现代电子技术,2020,43(8):41-43. 被引量：10
4董光芹,夏文秀.基于Top-k查询算法的图书自整合信息快速检索方法[J].吉林大学学报（理学版）,2020,58(3):666-670. 被引量：6
5刘亚静.基于MapReduce的档案信息数据库快速检索系统设计[J].电子设计工程,2020,28(13):45-49. 被引量：5
6林涛,冯竞凯,郝章肖,黄少群.基于组合预测模型的云计算资源负载预测研究[J].计算机工程与科学,2020,42(7):1168-1173. 被引量：16
7龙飞,郭永平.基于云计算和人工智能技术的图书信息检索系统设计[J].电子设计工程,2020,28(18):60-64. 被引量：7
8韩邦,李子臣,汤永利.基于同态加密的全文检索方案设计与实现[J].计算机工程与应用,2020,56(21):103-107. 被引量：5
9段立峰.基于最大熵原理的电子商务混合入侵行为信息智能化检索方法研究[J].粘接,2020,44(10):141-144. 被引量：3
10肖雄,王萌.跨媒体检索方法研究进展的citespace知识图谱分析[J].电脑与信息技术,2020,28(6):21-25. 被引量：2

引证文献2

1刘家材.基于区块链技术的公共图书馆线上数据库信息检索方法[J].信息记录材料,2022,23(11):214-216.
2李燕妮.基于云计算的网络体育文献信息检索系统设计[J].信息与电脑,2022,34(19):118-120. 被引量：1

二级引证文献1

1杨鸿.云计算技术在“文献检索”课程教学中的应用分析[J].中国新通信,2024,26(5):101-103.

1刘金花,焦嘉.基于排序学习的PRLMDF推荐算法[J].信息记录材料,2022,23(8):103-106.
2杨桂松,王静茹,李俊,何杏宇.基于时空信息和任务流行度分析的移动群智感知任务推荐[J].计算机应用研究,2022,39(9):2745-2751.
3胡婷婷,黄刚,吴长旺.融合知识图卷积网络的双端邻居推荐算法[J].计算机技术与发展,2022,32(10):34-40. 被引量：4
4Yufan Cao,Yuehong Shen.Capacity Analysis and Information Optimization of WSDM[J].International Journal of Communications, Network and System Sciences,2016,9(5):160-167.
5卢天旭.基于压缩空间句子选择的涉案新闻话题摘要[J].通信技术,2022,55(9):1136-1145.
6杨倩,朱平,林鹤.多算法协同的医疗器械产品竞争情报知识库构建方法研究[J].竞争情报,2022,18(5):30-39. 被引量：2
7姚奕,杨帆.联合知识图谱和预训练模型的中文关键词抽取方法[J].计算机科学,2022,49(10):243-251. 被引量：2

信息工程大学学报

2022年第4期

浏览历史

内容加载中请稍等...

PWFT-BERT:一种融合排序学习与预训练模型的检索排序方法被引量：2

参考文献2

二级参考文献20

共引文献5

同被引文献18

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

PWFT-BERT:一种融合排序学习与预训练模型的检索排序方法 被引量：2

参考文献2

二级参考文献20

共引文献5

同被引文献18

引证文献2

二级引证文献1

相关作者

相关机构

相关主题

浏览历史

PWFT-BERT:一种融合排序学习与预训练模型的检索排序方法被引量：2