-
题名融合多维特征的学术论文被引频次预测与分析
- 1
-
-
作者
苏中琪
-
机构
中国医科大学图书馆
-
出处
《图书馆研究与工作》
2023年第4期49-55,共7页
-
基金
中国医科大学图书馆、医学信息学院规划课题“基于神经网络的论文被引频次预测模型研究”(项目编号:CMUGY002)研究成果之一。
-
文摘
被引频次是评价论文影响力的重要指标,预测论文未来的被引频次对政府科研政策制定、研究机构师资评聘、研究人员识别有影响力论文具有重要意义。文章根据论文发表3年内的作者层面、期刊层面和论文早期表现层面共27个指标,利用GBRT、Lasso、Linear Regression、AdaBoost和BP神经网络五种算法,预测论文发表第4—10年的被引频次。在构建的论文被引频次预测数据集上比较算法效果,并以GBRT算法在2006年、2009年和2012年的预测结果为样本,利用SHAP值分析指标的重要性。实验表明GBRT算法在论文被引频次预测数据集上R2指标最高达到0.97,优于其他模型。论文发表3年内累计被引频次、论文发表3年内年均被引频次、论文发表第3年被引频次、期刊IF值、第一作者篇均被引频次、论文发表第2年被引频次、作者累计被引频次最大值和作者论文篇均被引频次近两年变化最大值是GBRT模型最为重要的8个指标。
-
关键词
学术论文
被引频次预测
GBRT
指标
SHAP值
-
Keywords
academic paper
citation counts prediction
GBRT
indicator
SHAP value
-
分类号
G252.8
[文化科学—图书馆学]
-
-
题名单篇论文被引频次影响因素及预测研究综述
被引量:2
- 2
-
-
作者
张素芳
刘慧敏
-
机构
华南师范大学经济与管理学院
-
出处
《知识管理论坛》
2022年第3期299-313,共15页
-
文摘
[目的/意义]梳理单篇论文被引频次的相关影响因素以及被引频次预测研究现状,为科研人员和科研机构研究单篇论文被引频次影响因素及预测提供一个全面系统的认知框架。[过程/方法]采用文献调研法,通过对现有文献进行系统的梳理,总结被引频次预测的影响因素、研究对象和研究方法的相关内容和特点,并通过列表的方式对比分析不同的方法,总结现有研究普遍存在的问题和一些创新的解决方案。[结果/结论]在系统梳理和总结的过程中发现,影响因素与预测结果之间因果关系不明确,研究样本数据缺乏多样性,未明确研究结果的适用性与预测周期的关系,模型评估可解释性较弱。因此,应从解决问题的前提条件、选择有针对性的样本、改进影响因素提取方法、运用数学思维方式进行建模等方面提高后续研究的质量。
-
关键词
被引频次预测
影响因素
回归分析
机器学习
深度学习
-
Keywords
the prediction of the citation frequency
influencing factors
regression analysis
machine learning
deep learning
-
分类号
G353.1
[文化科学—情报学]
-