基于深度学习的科学数据集检索方法研究被引量：9

Research on Deep Learning Based Scientific Dataset Retrieval Method

导出

摘要 [目的/意义]为了支撑数据驱动研究范式,促进科学数据的共享与利用,提高数据仓储和发现平台中数据集检索功能的效果。[方法/过程]将科学数据集检索过程分为候选数据集检索和候选数据集重排序两个主要阶段:在第一阶段,将BM25模型与基于SimCSE的稠密检索模型结合,获取潜在的相关数据集;在第二阶段,基于BERT排序模型对候选数据集的相关性进行评分,据此优化检索结果排序。[结果/结论]从国内外13个人文社科相关的科学数据仓储平台采集约10万数据集的元数据进行检索实验和效果评价,结果表明:提出的检索模型效果最优,其NDCG@10的得分分别高于基准的向量空间和BM25模型23.6和11.7个百分点;对各模型检索结果分析发现,该模型相比基准模型具有更强的语义检索能力;此外,还对模型权重设置进行分析,可为实践应用中的参数设置提供参考。[局限]仅在英文人文社科数据集上进行模型效果验证。 [Purpose/significance]In order to support the data-driven research paradigm,promote the sharing and reusing of scientific data,and improve the effectiveness of the dataset retrieval function in the data repository and discovery platform.[Method/process]This paper divides the scientific dataset retrieval process into two main stages:candidate dataset retrieval and candidate dataset reranking.In the first stage,the BM25 model is combined with SimCSE-based dense retrieval model to obtain potentially relevant datasets.In the second stage,the ranking of the search results is optimized based on the candidate dataset’s relevance which is scored based on the BERT ranking model.[Result/conclusion]The metadata of about 100,000 datasets are collected from 13 Humanities and Social Sciences related scientific data repositories at home and abroad for retrieval experiments and model effect evaluation.The results show that:our model has the best effect,and its NDCG@10 score is 23.6 and 11.7 percentage points higher than the benchmark Vector Space Model and BM25 Model respectively;analysis of the retrieval results of each model shows that our model has stronger semantic retrieval capabilities than the benchmark model;in addition,we also analyze the model parameter settings,which can provide help in practical applications.[Limitations]Only perform model effect verification on English Humanities and Social Science related scientific datasets.

作者罗鹏程王继民王世奇郭鑫高正赵常煜 Luo Pengcheng

机构地区北京大学信息管理系北京大学图书馆延世大学融合医学系

出处《情报理论与实践》 CSSCI 北大核心 2022年第7期49-56,共8页 Information Studies:Theory & Application

基金国家社会科学基金重点项目“开放科学数据集统一发现的关键问题与平台构建研究”的成果,项目编号:20ATQ007。

关键词信息检索数据集搜索科学数据神经网络学习排序 BERT SimCSE information retrieval dataset search scientific data neural network learning to rank BERT SimCSE

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论] TP18 [自动化与计算机技术—控制理论与控制工程] G252.7 [文化科学—图书馆学]

引文网络
相关文献

参考文献1

1李丽亚,宋扬,薛中玉,李春梅.基于Ontology的科学数据共享检索体系解析[J].情报理论与实践,2009,32(5):81-85. 被引量：10

二级参考文献18

1王阿川,李丹.基于ontology的地理信息系统构建中的信息共享[J].东北林业大学学报,2006,34(6):107-109. 被引量：2
2肖琨焘,李德顺.本体论[M]//中国大百科全书·哲学卷Ⅰ.北京:中国大百科全书出版社,1987:3.
3NECHES R, FIKES R E, GRUBER T R, et al. Enabling technology for knowledge sharing [J]. AI Magazine, 1991, 12 (3) : 36-56.
4GRUBER T R. A translation approach to portable ontologies [J]. Knowledge Acquisition, 1993, 5 (2): 199-220.
5BORST W N. Construction of engineering ontologies for knowledge sharing and reuse [D]. Enschede: University of Twente, 1997 : 56-71.
6STUDER R, BENJARNINS V R, FENSEL D. Knowledge engineering, principles and methods [ J ]. Data and Knowledge Engineering, 1998, 25 (122) : 161-197.
7BERNERS-LEE T, HENDLER J, LASSILA O. The semantic Web [J]. Scientific American, 2001, 284 (5) : 34.
8GUARINO N. Formal ontology and information systems [C] // Proceedings of the 1 International Conference on Formal Ontology in Information System, Trento, Italy: IOS Press, 1998.
9HEFLIN J, HENDLER J. Searching the Web with SHOE [ C ] //Artificial Intelligence for Web Search, Menlo Park, CA: AAAI, 2001: 35-40.
10ROBERT E K. Conceptual knowledge markup language: the central core [C] //The 12th Workshop on Knowledge Acquisition, Modeling and Management (KAW99), Banff, Canada, 1999.

共引文献9

1钱鹏,郑建明.高校科学数据组织与服务初探[J].情报理论与实践,2011,34(2):27-29. 被引量：45
2郭会雨,张文举,李娜.疾病领域本体模型构建研究[J].预防医学情报杂志,2011,27(6):460-465. 被引量：3
3李成赞,沈志宏,黎建辉.面向科学数据的搜索引擎voovle[J].科研信息化技术与应用,2011,2(5):36-43. 被引量：2
4李艾丹,薛中玉,李春梅.异构信息知识挖掘与可视化系统处理流程解析[J].图书馆学研究,2012(14):29-35.
5李艾丹,薛中玉,李春梅.异构信息知识挖掘与可视化分析系统架构模型解析[J].中国科技论坛,2012(10):122-126. 被引量：2
6房小可.基于关联数据的高校图书馆科学数据组织研究[J].图书馆建设,2013(10):31-34. 被引量：12
7周志峰.中国大陆科学数据领域研究热点分析——基于知识图谱[J].情报杂志,2016,35(1):81-86. 被引量：6
8周宇,欧石燕.国内数据监护平台研究热点与进展探析[J].图书情报工作,2016,60(22):116-125. 被引量：10
9罗鹏程,王继民,聂磊.开放科学数据集的统一发现平台研究进展[J].情报学报,2022,41(6):637-650. 被引量：6

同被引文献147

1张海瑜,陈庆龙,张斯静,张子怡,杨帆,李鑫星.基于语义知识图谱的农业知识智能检索方法[J].农业机械学报,2021,52(S01):156-163. 被引量：11
2周宁,谷宏群.基于Lucene/XML的全文检索机制研究[J].图书情报知识,2005,22(3):75-77. 被引量：9
3秦喜艳,陆伟,姜捷璞.信息检索中的相关性判断和系统评价述评[J].图书情报知识,2009,26(4):89-94. 被引量：11
4吴丹.交互式跨语言信息检索中用户行为研究[J].中国图书馆学报,2012,38(3):78-90. 被引量：12
5罗芳,李春花,周可,黄永峰,廖正霜.基于多属性的海量Web数据关联存储及检索系统[J].计算机工程与科学,2014,36(3):404-410. 被引量：8
6李月琳,韩宏亮.从信息检索系统评估到知识服务平台评估[J].图书情报工作,2019,63(1):52-59. 被引量：14
7郭猛,胡秀香,邵国金.混合语义相似度计算优化模糊查询的智能信息检索算法[J].科学技术与工程,2014,22(23):97-102. 被引量：4
8马斌,王金虹,闫娟娟,芦倩.基于本体的智能语义检索模型设计与研究[J].情报科学,2015,33(2):46-49. 被引量：20
9司莉,陈雨雪,曾粤亮.基于多语言本体的中英跨语言信息检索模型及实现[J].图书情报工作,2017,61(1):100-108. 被引量：18
10苏新宁.大数据时代情报学学科崛起之思考[J].情报学报,2018,37(5):451-459. 被引量：94

引证文献9

1王芳.基于深度学习的网络传输数据异常识别方法[J].现代电子技术,2023,46(6):62-66. 被引量：2
2卢美情,申妍燕.一种基于孪生网络预训练语言模型的文本匹配方法研究[J].集成技术,2023,12(2):53-63.
3应志为,刘力伟.基于数字信号处理理论的新型信息检索模型研究[J].情报科学,2023,41(1):61-70. 被引量：1
4谢妞妞.面向流式数据处理系统的目标数据自动化查询技术[J].自动化与仪器仪表,2023(9):237-240.
5许自龙,方小平.基于哈希学习的舰船网络数据库目标数据检索方法[J].舰船科学技术,2023,45(17):182-185.
6刘红.基于语义相似度匹配的C语言课程教学资源在线检索方法[J].信息与电脑,2023,35(15):234-236.
7胡昊天,邓三鸿,王东波,沈思,沈健威.情报学视角下的预训练语言模型研究进展[J].图书情报工作,2024,68(3):130-150. 被引量：1
8赵蕾,翁巍,庞泰,孟灿,高炎哲.基于改进哈希学习算法的小微企业融资数据智能检索方法[J].信息记录材料,2024,25(2):81-83.
9肖汉周,刘迎春.云环境下数值型数据库检索与编码模型的构建[J].北部湾大学学报,2024,39(2):33-39.

二级引证文献4

1罗艳芳.不同分类器模型对网络传输数据异常识别方法[J].信息与电脑,2023,35(9):211-213.
2林立鑫,喻燕华,涂剑峰.基于改进KNN算法的网络数据流异常识别方法[J].信息与电脑,2023,35(8):108-110.
3张皓天.信息化背景下电子信息工程数字信号处理技术探究[J].中国宽带,2023,19(3):46-48.
4屠鑫,张伟,李继东,李美姣,龙相波.面向智能在线教学的英语时态习题自动分类研究[J].计算机科学,2024,51(4):353-358.

1杜雨晅,王巍,张闯,郑小丽,苏嘉涛,王杨洋.基于自适应图卷积注意力神经协同推荐算法[J].计算机应用研究,2022,39(6):1760-1766. 被引量：5
2杨宁,张志强.科学数据集知识扩散特征探析——以基因表达数据集为例[J].图书情报工作,2022,66(12):82-91. 被引量：6
3高洪贵,张换.全过程人民民主:中国共产党破解“历史周期率”的三重逻辑[J].东华大学学报（社会科学版）,2022,22(2):7-14.
4陈一凡,朱民耀,朱晓强,宋海洋,陆小锋.基于时序特征的图卷积协同过滤推荐算法[J].电子测量技术,2022,45(6):79-85. 被引量：2
5石瑞香,刘闯.数据期刊科学数据质量评审主要问题研究——以《全球变化数据仓储电子杂志(中英文)》为例[J].中国科技期刊研究,2022,33(5):596-601. 被引量：1
6容秀婵,邹湘军,李承恩,林俊强,姚书杰,邹天龙.基于数据驱动的虚拟场景搭建及模型检索优化方法[J].中国农机化学报,2022,43(8):128-135. 被引量：2
7杨冰,向学勤,孔万增,施妍,姚金良.自适应多任务学习的自动艺术分析[J].中国图象图形学报,2022,27(4):1226-1237.
8周嘉凡,杜岳峰,宋宝燕,李晓光,赵阿珠,肖绪界.基于元路径注意力机制的MOOC视频推荐方法[J].计算机应用,2022,42(6):1808-1813. 被引量：1
9姚瑶,汪洁,赵海峰,谢浩芬,徐琴鸿,蔡泽君,严志龙,黄晓燕.胃癌术后患者早期肠内营养支持的最佳证据总结[J].中华现代护理杂志,2022,28(14):1869-1875. 被引量：2
10田国艳.合作学习在初中英语阅读教学中的应用分析[J].学周刊,2022(27):54-56. 被引量：1

情报理论与实践

2022年第7期

浏览历史

内容加载中请稍等...

基于深度学习的科学数据集检索方法研究被引量：9

参考文献1

二级参考文献18

共引文献9

同被引文献147

引证文献9

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于深度学习的科学数据集检索方法研究 被引量：9

参考文献1

二级参考文献18

共引文献9

同被引文献147

引证文献9

二级引证文献4

相关作者

相关机构

相关主题

浏览历史

基于深度学习的科学数据集检索方法研究被引量：9