面向自动综述系统的文献价值评估研究

Towards Automatic Literature Review Generation System:Research on Document Value Assessment

下载PDF

导出

摘要 “论文爆炸”使科研人员面临严重的信息过载问题,自动综述系统研究逐渐引起重视,而如何自动挑选出能够反映知识脉络发展的重要文献是自动综述系统需要解决的首要问题。本文从影响综述作者选择参考文献的因素出发,在引用行为中挖掘综述作者评估文献价值的规律,并基于排序学习框架构建面向自动综述系统的文献评估模型。本文以微软学术图谱为数据源构建实验数据集,通过ΔP@K和NDCG@K两个指标对实验结果进行评价。研究结果表明,①相较于单文档模型和文档列表模型,文档对模型更适合于训练最优文献评估模型,其ΔP@100、ΔP@200、NDCG@100和NDCG@200分为0.274、0.085、0.738、0.831;②知识重要性和文献质量与影响力因素对模型效果提升有较大贡献,是综述作者评估文献价值选择参考文献的首要参考因素。 The problem of information overload caused by“thesis explosion”has directed attention towards research on automatic review systems.How to automatically select important documents that can reflect the development of knowledge is the primary problem that the automatic review system needs to solve.In this study,starting from which factors influence review authors’selection of references,the rules of review authors’citation behaviors are excavated to assess the value of documents,and a document evaluation model for automatic review systems is constructed based on the ranking learning framework.This study uses Microsoft Academic Graph as the data source to construct an experimental data set and evaluates the experimental results through two indicators:ΔP@K and NDCG@K.The experimental results revealed two findings:(1)Compared with pointwise and listwise approaches,the pairwise approach is more suitable for training the optimal document evaluation model.The pairwise approach gains 0.274,0.085,0.738,and 0.831 onΔP@100,ΔP@200,NDCG@100,and NDCG@200,respectively.(2)Knowledge importance,literature quality,and influence have a greater contribution to the improvement of the model and are the primary considerations for the authors of the review article to evaluate the value of the literature and choose references.

作者丁恒阮靖龙 Ding Heng;Ruan Jinglong(School of Information Management,Central China Normal University,Wuhan 430079)

机构地区华中师范大学信息管理学院

出处《情报学报》 CSSCI CSCD 北大核心 2022年第11期1199-1213,共15页 Journal of the China Society for Scientific and Technical Information

基金国家自然科学基金青年科学基金项目“基于深度语义表示和多文档摘要的学术文献自动综述研究”(71904058) 中央高校基本科研业务费资助项目“信息交互行为与隐私保护研究”(CCNU22QN017)。

关键词自动综述文献评估多维特征排序学习 automatic review literature evaluation multi-dimensional features learning to rank

分类号 G353.1 [文化科学—情报学]

引文网络
相关文献

参考文献10

1jie wang,chengzhi zhang,mengying zhang,sanhong deng.CitationAS： A Tool of Automatic Survey Generation Based on Citation Content[J].Journal of Data and Information Science,2018,3(2):20-37. 被引量：1
2黄永,陆伟,程齐凯,桂思思.学术文本的结构功能识别——在学术搜索中的应用[J].情报学报,2016,35(4):425-431. 被引量：14
3王瑞雪,方婧,李信,陆伟,张显.学术查询意图类目体系构建与分析:百度学术查询日志的实证[J].图书情报工作,2021,65(4):73-80. 被引量：3
4万连城.面向问题导向的学术文献搜索引擎研究[J].电子科技,2016,29(12):142-144. 被引量：1
5李响,谭静.融合相关性与多样性的学术论文推荐方法研究[J].情报理论与实践,2017,40(6):99-103. 被引量：8
6谭红叶,要一璐,梁颖红.基于知识脉络的科技论文推荐[J].山东大学学报（理学版）,2016,51(5):94-101. 被引量：13
7杨凯,王利,周志平,赵卫东.基于内容和协同过滤的科技文献个性化推荐[J].信息技术,2019,43(12):11-14. 被引量：16
8步一,许家伟,黄文彬.基于引文的科学文献定量评价:引文影响力指标评述[J].图书情报知识,2021,38(6):47-59. 被引量：6
9马凤,武夷山.关于论文引用动机的问卷调查研究——以中国期刊研究界和情报学界为例[J].情报杂志,2009,28(6):9-14. 被引量：52
10邱均平,陈晓宇,何文静.科研人员论文引用动机及相互影响关系研究[J].图书情报工作,2015,59(9):36-44. 被引量：40

二级参考文献111

1席运江,党延忠.基于知识网络的专家领域知识发现及表示方法[J].系统工程,2005,23(8):110-115. 被引量：59
2陆伟,Stephen Robertson.基于域加权词频法的XML文档级检索实现与评价[J].中国图书馆学报,2006,32(6):57-60. 被引量：8
3姜春林,刘则渊,梁永霞.H指数和G指数——期刊学术影响力评价的新指标[J].图书情报工作,2006,50(12):63-65. 被引量：105
4余慧佳,刘奕群,张敏,茹立云,马少平.基于大规模日志分析的搜索引擎用户行为分析[J].中文信息学报,2007,21(1):109-114. 被引量：117
5Gross P L K,Gross E M.College Libraries and Chemical Education[J].Science,1927,66(1713):385-389.
6Lutz Bommann,Hans-Dieter Daniel.What do Citation Counts Measure? A Review of Studies on Citing Behavior[J].Journal of Documentation,2008,64 (1):45-80.
7Garfield E.Can Citation Indexing be Automated?[J].Essays of an Information Scientist,1962(1):84-90.
8Ben-Ami Lipetz.Improvement of the Selectivity of Citation Indexes to Science Literature Through Inclusion of Citation Relationship Indicators[J].American Documentation,1965,16(2):81-90.
9Terrence A Brooks.Private Acta and Public Objects-An Investigation of Citer Motivations[J].Journal of the American Society for Information Science,1985,36(4):223-229.
10Terrenee A Brooks.Evidence of Complex Citer Motivations[J].Journal of the American Society for Information Science,1986,37 (4):34-36.

共引文献128

1马蓉.英语专业学生学术写作引用动机因子研究[J].中国ESP研究,2020(4):71-81.
2黄英娟.期刊编辑引导作者重视参考文献合理引用的重要性及建议举措[J].学报编辑论丛,2019,0(1):442-446. 被引量：2
3邱均平,马凤.微观层次的引用与合作之间关系的研究——以三位中国图书情报学核心作者为例[J].情报理论与实践,2011,34(10):43-47. 被引量：7
4王林,冷伏海.学术论文的关键词与引文共现关系分析及实证研究[J].情报理论与实践,2012,35(2):82-86. 被引量：18
5杨利军,万小渝.引用习惯对我国期刊论文被引频次的影响分析——以情报学为例[J].情报科学,2012,30(7):1093-1096. 被引量：33
6成党校,钱桂生,黄桂君.人肺腺癌细胞单羧酸转运泵基因的克隆及基因序列分析[J].第三军医大学学报,2000,22(5):407-409. 被引量：1
7谢黎,邓勇,张苏闽.论文引用与专利引用比较研究[J].情报杂志,2012,31(4):19-21. 被引量：15
8艾红,章丽萍.23种农大学报核心期刊载文被引情况分析[J].中国科技期刊研究,2013,24(2):295-298. 被引量：10
9孙建军,鞠秀芳,裴雷,郑彦宁,潘云涛.基于CART分类方法的期刊操纵引用行为识别建模研究[J].情报学报,2013,32(10):1058-1067. 被引量：3
10朱大明.“参考文献”与“引文”概念辨析[J].编辑之友,2013(11):81-83. 被引量：5

1任越,许灵玲,鲁苗苗,程炜馨,周雨薇,金希.益生菌对成人溃疡性结肠炎的辅助疗效和安全性的Meta分析[J].浙江医学,2022,44(3):289-295. 被引量：5
2刘超,王宇,曹永娇,马凯,姜姝宇.能源互联网中基于格密码的区块链隐私保护研究[J].科技创新与应用,2022,12(34):9-12.
3王应婷.医药行业股权激励对企业绩效的影响综述[J].投资与创业,2022,33(15):138-140.
4许晨,黄奕婷,迟晓立.基于建筑与绿化因素对城市居住区微气候影响综述[J].现代园艺,2022,45(23):35-37. 被引量：1
5焦文庆,薛晴.数字普惠金融对中小企业融资约束影响综述[J].中国市场,2022(29):59-62. 被引量：5
6韩俊峰,胡雅清,张渝.扫描速度对SLM成形致密度的影响综述[J].锻压装备与制造技术,2022,57(5):94-97.
7王奕婷,兰艳艳,庞亮,郭嘉丰,程学旗.基于相关修正的无偏排序学习方法[J].计算机研究与发展,2022,59(12):2867-2877. 被引量：3
8贾羽.大规模光伏发电对电力系统影响综述[J].电脑乐园,2022,7(11):97-99.
9黄永文,孙坦,赵瑞雪,鲜国建,李娇,罗婷婷.大数据与人工智能背景下新型知识服务研究与实践[J].图书情报工作,2022,66(19):36-46. 被引量：28
10董家玮,孙福振,吴相帅,吴田慧,王绍卿.基于差异性汉明距离的变分推荐算法[J].计算机科学,2022,49(12):178-184. 被引量：2

情报学报

2022年第11期

浏览历史

内容加载中请稍等...

面向自动综述系统的文献价值评估研究

参考文献10

二级参考文献111

共引文献128

相关作者

相关机构

相关主题

浏览历史