基于机器学习模型的科技论文潜在“精品”识别研究被引量：3

Study on Identification of Potential“Treasures”in Massive Papers Based on Machine Learning Models

下载PDF

导出

摘要综合运用科技文献特征向量空间和机器学习模型实现海量文献中潜在“精品”的自动识别与推荐,能够提升海量科技文献的科学影响和其科技发展促进作用。设计和实现基于机器学习的科技文献潜在“精品”识别分类器和模型框架,测度出国际高影响力期刊和国内图书情报与档案管理期刊论文的原文及引文特征,运用特征工程构建科技论文特征向量空间;然后分别采用支持向量机和朴素贝叶斯等传统机器学习模型,以及深度置信网络和多层感知机等深度学习模型进行潜在“精品”的自动识别,并基于ROC曲线(receiver operating characteristic curve)和混淆矩阵构建评价模型识别效果的指标体系。研究结果显示:①深度学习模型在潜在“精品”识别方面的效果较差,而传统机器学习模型的识别效果较优,其中随机森林和支持向量机的潜在“精品”识别效果最佳,决策树识别效果次之,朴素贝叶斯识别效果较差且稳定性不足。②影响因子越高的期刊潜在“精品”识别效果越好;无论国际自然科学领域高影响力期刊,还是国内社会科学领域图书情报与档案管理期刊,识别出的“精品”论文全部为被引频次较高的论文且综述论文的占比较低,国内期刊的“精品”论文中仅有1篇为综述论文。③“精品”论文的计量特征值与总体论文样本相比,呈现较大差异,即“精品”论文的首次响应时间较短且拥有基金资助,参考文献数量、关键词数量和被引频次较多,摘要和论文篇幅较长且偏向多作者论文。实证结果表明,机器学习模型能够准确识别科技文献中的潜在“精品”,并提升潜在“精品”识别的自动化程度,为海量文献中潜在“精品”文献的自动识别与传播利用提供理论参考与方法支撑。 Constructing a feature vector space of massive literature and using machine learning models to accurately and automatically identify and utilize potential“treasures”from a vast body of literature can enhance their scientific influence and facilitate advancements in science and technology.This study designs and implements machine learning models and the model framework of identifying potential“treasures”from consistent scientific and technological papers.As samples,we collected papers(and their citation data)published in international high-influencing journals and domestic journals from Web of Science and Library Information and Archives Management,respectively.Subsequently,we measured the bibliometric characteristics of all these papers and constructed a feature vector space of the literature.Thereafter,traditional machine learning models,such as support vector machine and naive Bayes model,and deep learning models,such as deep belief networks and multilayer perceptron,were used to identify potential“high-quality”papers.An receiver operating characteristic(ROC)curve and a confusion matrix were used to evaluate the recognition effect of the machine learning algorithms.The results show that deep learning models cannot efficiently identify the potential“treasures”from consistent papers,thus exhibiting a low recognition effect.However,the traditional machine learning models can efficiently identify the potential“treasures”from international high-influencing journals and domestic journals in library Information and Archives Management.While two types of machine learning models,including random forest and support vector machine,show the optimum recognition effect,relatively low recognition effect for the decision tree model and Naive Bayes model is identified.Moreover,the more influential a journal is,the higher the recognition effect.Irrespective of whether we considered international high-influencing journals from natural sciences or domestic journals from social sciences,all identified excellent papers exhibit a higher citation frequency,and extremely few review papers are found among them.Furthermore,by comparing the bibliometric features of all papers analyzed,we find that most identified excellent papers are multi author articles supported by science foundation and present a shorter first-citation time,more references and keywords,higher citation frequency,and longer abstracts.The empirical results show that the machine learning model can accurately identify potential“high-quality”articles from massive scientific and technological literature and improve the automation scope of identifying potential“high-quality”articles.This can also provide theoretical reference and methodological support for automatic recognition,dissemination,and utilization of potential“high-quality”papers from massive literature.

作者胡泽文任萍崔静静 Hu Zewen;Ren Ping;Cui Jingjing(School of Management Science and Engineering,Nanjing University of Information Science&Technology,Nanjing 210044)

机构地区南京信息工程大学管理工程学院

出处《情报学报》 CSCD 北大核心 2023年第2期189-202,共14页 Journal of the China Society for Scientific and Technical Information

基金国家社会科学基金项目“面向海量科技文献的潜在‘精品’识别方法与应用研究”(20CTQ031)。

关键词机器学习深度学习精品文献特征工程随机森林支持向量机朴素贝叶斯深度置信网络 machine learning deep learning excellent literature feature engineering random forest support vector machine naive Bayes model deep belief networks

分类号 G353.1 [文化科学—情报学] TP181 [自动化与计算机技术—控制理论与控制工程]

引文网络
相关文献

参考文献13

1胡泽文,武夷山,高继平.图书情报学领域期刊论文零被引率的演变规律研究[J].情报学报,2018,37(3):243-253. 被引量：11
2胡泽文,崔静静,曹玲.国内外科技文献低被引研究进展述评[J].情报学报,2020,39(12):1354-1362. 被引量：11
3徐晓芹,刘晓燕,李春花.基于专家审稿意见的高被引和零被引论文学术质量差异性分析[J].编辑学报,2015,27(6):564-566. 被引量：12
4叶鹰.高品质论文被引数据及其对学术评价的启示[J].中国图书馆学报,2010,36(1):100-103. 被引量：48
5曾继城,张家榕,叶鹰.天鹅展翅:高品质论文的引文模式探析[J].大学图书馆学报,2019,37(2):83-87. 被引量：4
6杜建,武夷山.基于被引速率指标识别睡美人文献及其“王子”——以2014年诺贝尔化学奖得主Stefan Hell的睡美人文献为例[J].情报学报,2015,34(5):508-521. 被引量：30
7杜建,武夷山.一个用于识别睡美人文献的新的无参数指标——基于“Science”和“Nature”上睡美人文献的验证[J].情报理论与实践,2017,40(2):19-25. 被引量：31
8宋呈玉,李秀霞,刘黎明.基于引文曲线导数的睡美人文献识别研究[J].情报资料工作,2019,40(3):33-38. 被引量：9
9赵又霖,刘黎明,葛梦真,陆颖隽.改进的“睡美人”B值识别模型构建及学科领域因素差异探析——以ISLS和WR为例[J].图书与情报,2020(2):128-139. 被引量：5
10崔静静,胡泽文,任萍.基于决策树和逻辑回归模型的人工智能领域潜在“精品”论文识别研究[J].情报科学,2022,40(5):90-96. 被引量：7

二级参考文献107

1陈悦,陈超美,刘则渊,胡志刚,王贤文.CiteSpace知识图谱的方法论功能[J].科学学研究,2015,33(2):242-253. 被引量：7180
2张洁,吴晓利.从研究生投稿看学术期刊作者群建设[J].科技与出版,2005(5):38-39. 被引量：14
3白云.中国人文社会科学期刊被引半衰期分析研究[J].云南师范大学学报（哲学社会科学版）,2006,38(4):127-130. 被引量：58
4姜春林,刘则渊.历时态角度看人文社会科学引文峰值及其引文评价的时间选择[J].情报科学,2006,24(9):1343-1347. 被引量：28
5王颖鑫,黄德龙,刘德洪.ESI指标原理及计算[J].图书情报工作,2006,50(9):73-75. 被引量：64
6陈立新,梁立明,刘则渊.力学文献老化速度50年(1954-2003)的变化趋势[J].现代情报,2006,26(10):12-15. 被引量：18
7邱均平,孙凯.基于ESI数据库的中国高校科研竞争力的计量分析[J].图书情报工作,2007,51(5):45-48. 被引量：140
8Van Raan A E J. Advanced bibliometric methods as quantitative core of peer review based evaluation and foresight exercises. Scientometrics, 1996, 36 (6) : 397 -420.
9Glanzel W. Seven myths in bibkiometrics: About facts and fiction in quantitative science studies. Proceedings of WIS 2008, http://www. collnet. de/Berlin-2008/.
10Hirsch J E. An index to quantify an individual's scientific research output. Proceedings of the National Academy of Sciences of the USA, 2005, 102(46) : 16569 - 16572.

共引文献184

1胡佳丽,曹忆堇.感染性疾病及传染病学期刊引证指标与零被引率的相关性分析[J].学报编辑论丛,2023(1):619-626.
2卢文辉,李战.零被引与高被引图书馆学硕士学位论文引文特征的比较分析[J].图书馆杂志,2020,39(1):76-84. 被引量：4
3王晓飞.科技论文零被引原因及思考——以《中国环境科学》和《环境科学》为例[J].编辑学报,2023,35(S02):46-48.
4曹明.2009年法学研究的一些形式特点——基于三大期刊法学论文统计的分析[J].法律文献信息与研究,2010(2):22-32. 被引量：4
5邓备.新媒体研究的高被引论文分析--基于CNKI的关键词途径[J].编辑之友,2010(12):41-44. 被引量：12
6邓静,邓备.体育新闻研究的高影响力论文分析——基于CNKI关键词途径[J].四川教育学院学报,2011,27(1):12-17. 被引量：4
7夏登武.学术论文评估信息的开发与传播[J].科技与出版,2011(2):66-69.
8郭刚,阮建海.原生数字期刊导航系统构建研究[J].情报科学,2011,29(9):1327-1330. 被引量：2
9苏芳荔,孙建军.期刊引用认同指标在期刊评价中的适用性分析[J].中国图书馆学报,2012,38(1):96-104. 被引量：12
10张力,唐健辉,刘永涛,韩松涛,潘有能,陈丽君,叶鹰.中外图书情报学研究方法量化比较[J].中国图书馆学报,2012,38(2):21-27. 被引量：38

同被引文献89

1武瑞娟,李佩毓,李研.线上消费者负面评论中贴图数量对评论有用性影响效应研究——一项基于负面评论的研究[J].管理评论,2022,34(12):157-172. 被引量：4
2支振锋.生成式人工智能大模型的信息内容治理[J].政法论坛,2023,41(4):34-48. 被引量：85
3李亚辉,徐书令,房威,柯颖,喻藜.数字出版中著作权的法律保护探究[J].学报编辑论丛,2022(1):698-702. 被引量：1
4王丹,张祥合.区块链技术推动下期刊数字版权保护机制[J].学报编辑论丛,2022(1):436-440. 被引量：2
5李天娇,潘启亮.学术生态视域下高校科研诚信行为的影响因素分析[J].科技管理研究,2023,43(2):120-126. 被引量：4
6张海静.数字出版时代学术期刊质量提升路径研究——以《经济经纬》为例[J].传媒论坛,2023,6(19):95-97. 被引量：2
7王海娟,沈锡宾,赵巍,刘冰,魏均民.刍议中国英文科技期刊数字出版平台的学术运营[J].编辑学报,2023,35(3):316-320. 被引量：10
8杨涵,张小强.论人工智能应用给学术期刊编辑带来的机遇与挑战[J].编辑学报,2023,35(3):258-262. 被引量：17
9张彤,唐慧,胡小洋,丁佐奇.人工智能辅助学术期刊同行评议的功能需求分析[J].编辑学报,2021,33(5):523-528. 被引量：8
10龚旭.同行评议公正性的影响因素分析[J].科学学研究,2004,22(6):613-618. 被引量：67

引证文献3

1杨丽萍,黄丽芸,梁秀豪,刘晓蔚,韦维,梁星星,阳文林.基于人工智能构建以科技期刊为中心的学术生态体系[J].编辑学报,2023,35(S01):121-126.
2刘嘉宇,李贺,谷莹,时倩如,杨心苗.不平衡数据集上在线评论有用性识别研究[J].情报理论与实践,2023,46(11):119-125. 被引量：2
3刘巧艳.科技期刊数字出版的SWOT 分析及发展策略[J].传播力研究,2024,8(15):136-138.

二级引证文献2

1杨森,罗立帆,刘桓竭,曾求初.不平衡数据集梯度提升算法研究[J].微型计算机,2024(3):67-69.
2许思为,周明,邹瑞,刘吉华,吴俊平,秦雨露.不平衡数据集中采样比例对分类结果影响的研究[J].智能计算机与应用,2024,14(9):111-117.

1《资源与产业》参考文献著录简则[J].资源与产业,2023,25(1):121-121.
2林丹枫.加强“四位一体”的博物馆传播利用体系建设[J].中文科技期刊数据库（全文版）社会科学,2022(7):7-9.
3王晓光.卷首语[J].信息资源管理学报,2023,13(1).
4谭瑞华.关于节水灌溉水利工程施工技术浅析[J].中文科技期刊数据库（全文版）工程技术,2022(1):70-73.
5李慧明,李青青.碳中和目标下中国气候治理国际话语权建设与路径选择[J].理论与评论,2022(5):87-96. 被引量：2
6张士多,赵志芳,赵丁丁,王晶.骨科住院患者功能康复的护理分析[J].中文科技期刊数据库（引文版）医药卫生,2022(7):341-344.
7曹云龙:新冠预测者[J].中国名牌,2023(1):55-55.
8武晓春,刘杰鑫.基于IITD样本熵与改进深度置信网络的轨道电路故障检测[J].Journal of Measurement Science and Instrumentation,2023,14(1):9-16. 被引量：2
9王会霞.房屋建筑施工中的节能环保技术初探[J].中文科技期刊数据库（引文版）工程技术,2021(6):198-198.
10时巧丽.建筑工程给排水工程施工技术探析[J].中文科技期刊数据库（全文版）工程技术,2020(11):28-28.

情报学报

2023年第2期

浏览历史

内容加载中请稍等...

基于机器学习模型的科技论文潜在“精品”识别研究被引量：3

参考文献13

二级参考文献107

共引文献184

同被引文献89

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于机器学习模型的科技论文潜在“精品”识别研究 被引量：3

参考文献13

二级参考文献107

共引文献184

同被引文献89

引证文献3

二级引证文献2

相关作者

相关机构

相关主题

浏览历史

基于机器学习模型的科技论文潜在“精品”识别研究被引量：3