基于多示例学习的长文档检索被引量：2

Long Document Retrieval Based on Multi-instance Learning

下载PDF

导出

摘要随着互联网信息的爆炸式增长,文档检索已经成为自然语言处理的热点问题。对于长文本检索,使用传统的基于词频的表示方法往往忽略了文本的语义信息,而使用嵌入模型进行文本表示,受输入长度的影响,长文本通常会被截断,此外,一些相似度计算方法会受到文本长度的影响。针对上述问题,提出将多示例学习框架用于文档检索中,以语义相对完整的句子为单位对文本进行切分,将文本表示成包,句子作为示例,通过示例之间的相关性来计算包之间的相关性得分,并将该得分与使用传统文档级检索即将整个文档作为一个单示例计算出的相似度得分相结合,从而检索出相关文档。在Med数据集上的实验结果表明,基于多示例的检索方法能在一定程度上提高文档检索的性能。 With the explosive growth of Internet information,document retrieval has become a hot issue in natural language processing.For long text retrieval,the traditional representation method based on word frequency tends to ignore the semantic information of the text,and if the embedded model is used for text representation,the long text will usually be truncated due to the influence of the input length.In addition,some similarity calculation methods will be affected by the text length.A multi-instance learning framework is proposed to be used in document retrieval.The text is segmented by sentences with relatively complete semantics,and the text is represented as a bag.The sentences are taken as instances,and the similarity score between bags is calculated by the similarity between the instances,so as to retrieve the relevant documents.Experimental results on Med dataset show that the proposed method can improve the performance of document retrieval to a certain extent.

作者田媛郝文宁靳大尉陈刚邹傲 TIAN Yuan;HAO Wenning;JIN Dawei;CHEN Gang;ZOU Ao(Command&Control Engineering College,Army Engineering University of PLA,Nanjing 210000,China)

机构地区陆军工程大学指挥控制工程学院

出处《无线电工程》北大核心 2021年第9期886-892,共7页 Radio Engineering

基金国家自然科学基金资助项目(61806221)。

关键词文档检索多示例学习相关性得分 document retrieval multi-instance learning similarity score

分类号 TP311 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献4

1温超,耿国华,李展.基于K均值聚类和多示例学习的图像检索方法[J].计算机应用,2011,31(6):1546-1548. 被引量：4
2陈涛.基于多示例学习和贝叶斯分类器的图像检索方法[J].深圳职业技术学院学报,2018,17(3):7-11. 被引量：6
3李宇,刘波.文档检索中文本片段化机制的研究[J].计算机科学与探索,2020,14(4):578-589. 被引量：4
4左家莉,王明文,吴水秀,万剑怡.结合句子级别检索的信息检索模型[J].中文信息学报,2016,30(2):107-112. 被引量：6

二级参考文献31

1DATTA R, LI J, WANG J Z. Content-based image retrieval-approaches and trends of the new age[ C]// Proceedings of the 7th International Workshop on Multimedia Information Retrieval, Inconjunction with ACM International Conference on Multimedia. New York: ACM, 2005:253-262.
2DATTA R, JOSHI D, LI J, et al. Image retrieval: Ideas, influences, and trends of the new age[ J]. ACM Computing Surveys, 2008, 40(2): 1-65.
3ZHANG QI, GOLDMAN S A. Content-based image retrieval using multiple-instance learning[ C]//Proceedings of the 19th Internation- al Conference on Machine Learning. San Francisco: Morgan Kaufmann, 2002:682-689.
4RAHMANI R, GOLDMAN S A. Localized content-based image retrieval[ C]//Proceedings of the 7th ACM SIGMM International Workshop on Multimedia Information Retrieval. New York: ACM, 2005:227 - 236.
5CHEN YIXIN, WANG J Z. Image categorization by learning and reasoning with regions[ J]. Journal of Machine Learning Research, 2004, 5(8) : 913 - 939.
6CHEN YIXIN, BI JINBO, WANG J Z. MILES: Multiple-instance learning via embedded instance selection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2006, 28(12) : 1931 - 1947.
7DIETTERICH T G, LATHROP R H, LOZANO-PEREZ T. Solving the multiple instance problem with axis-parallel rectangles[ J]. Artificial Intelligence, 1997, 89(12):31 -71.
8MacQUEEN J. Some methods for classification and analysis of multivariate observations[ C]//Proceedings of the 5th Berkeley Symposium on Mathematical Statistics and Probability. Los Angeles: University of California Press, 1967:281 -297.
9Christopher D. Manning, Prabhakar Raghavan, Hin- rich Schutze. Introduction to Information retrieval ~-M]. Cambridge:Cambridge University Press, 2009.
10Gerard Salton. Automatic Information Organization and Retrieval[M]. New York: McGraw-Hill, 1968.

共引文献15

1刘晙,茹庆云.基于快速小波变换的高适应性图像检索技术研究[J].图学学报,2014,35(2):262-267. 被引量：2
2王剑峰,赵晓容,李明科.基于数字特征直方图的图像检索算法[J].重庆邮电大学学报（自然科学版）,2013,25(5):700-704. 被引量：2
3王剑峰,罗少甫,赵晓容.基于DCT系数统计特征的镜头突变实验算法[J].实验技术与管理,2014,31(11):63-66.
4於馨彦,孙瑞玲.医院特定患者信息资源快速检索仿真研究[J].计算机仿真,2017,34(12):389-392. 被引量：3
5张祥合.分布式文献数据库需求信息自适应检索仿真[J].计算机仿真,2018,35(9):409-412. 被引量：2
6陈涛,董紫君.基于改进萤火虫群优化的多示例学习算法[J].现代计算机,2019,25(10):40-43.
7陈涛.基于子空间集成的多示例学习算法[J].深圳职业技术学院学报,2019,18(3):8-12.
8陈思,方振.基于图像比对的视频检索算法的研究与实现[J].电子测试,2019,30(12):49-50. 被引量：2
9董光芹,夏文秀.基于Top-k查询算法的图书自整合信息快速检索方法[J].吉林大学学报（理学版）,2020,58(3):666-670. 被引量：6
10于爽,李淑梅.图书电子资源信息分布式多模块检索仿真[J].计算机仿真,2020,37(6):439-442. 被引量：10

同被引文献3

1王志宝,夏昊,王成波.地理信息检索关键技术研究综述[J].计算机工程与科学,2018,40(3):533-543. 被引量：7
2彭晓娅,周栋.跨语言词向量研究综述[J].中文信息学报,2020,34(2):1-15. 被引量：12
3马伟彬.TF-IDF模型和LSI模型文本相似度算法的应用[J].电子技术与软件工程,2022(1):130-133. 被引量：4

引证文献2

1杜超利,肖淞月,王新健.语义信息驱动的空间位置数据检索关键技术研究[J].中国安防,2023(4):105-109.
2刘军平,唐佳伟,朱强,彭涛,胡新荣.基于最优传输的密集增强文档检索研究[J].长江信息通信,2023,36(9):142-145.

1林甲深,王飞鸿,陈晨.基于Visual Studio锂离子电池剩余寿命的实现[J].科技创新导报,2021,18(2):49-52.
2孙斌,何治斌,邹滔.基于EES的船舶制冷压缩机仿真与优化[J].船舶工程,2020,42(8):80-84. 被引量：1
3田沛霖,符海滕,马力禹,罗琳.融合对抗训练和CNN-BiGRU神经网络的新闻文本分类模型[J].图书情报导刊,2021,6(8):38-45. 被引量：3
4杜刚,朱艳云,张晨,杜雪涛.一种约束上下文区间的关键词组合策略[J].电信工程技术与标准化,2021,34(9):69-73.
5王璐.数字化归档践行企业数字化转型及管理创新[J].建筑设计管理,2021,38(7):59-66. 被引量：2

无线电工程

2021年第9期

浏览历史

内容加载中请稍等...

基于多示例学习的长文档检索被引量：2

参考文献4

二级参考文献31

共引文献15

同被引文献3

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于多示例学习的长文档检索 被引量：2

参考文献4

二级参考文献31

共引文献15

同被引文献3

引证文献2

相关作者

相关机构

相关主题

浏览历史

基于多示例学习的长文档检索被引量：2