一种基于集成学习的科研合作者潜力预测分类方法被引量：10

A Classification Method of Scientific Collaborator Potential Prediction Based on Ensemble Learning

下载PDF

导出

摘要科研合作是学术成果非常重要的实现形式,很多高水平的研究成果通过合作实现.研究合作潜力可以为学者选择合作者提供指导,最大化科研效率.然而当前大数据爆发阻碍了合作者的有效选择.为了解决这个问题,基于学者文章大数据,经过特征分析和优化,综合考虑学者的文章、机构、研究兴趣等个人属性和相关属性,分别从文章标题、文章等级、文章数量、时间及署名序多维度构造样本特征,以文章所发表的期刊会议等级作为合作者序列对的样本标签,表示当前合作者的潜力高低,利用集成方法的强学习特性,提出了基于集成学习分类方法的科研合作者潜力预测模型.分析并构造对应于科研合作者潜力预测问题的特征集后,采用分类方法解决这一问题.实验中准确率、召回率、F1分数都远高于传统机器学习方法,并能以较少的样本和时间收敛于较高值(80%以上),说明了模型的优越性. Scientific cooperation is a very important form of academic achievement. Many high-level researches are achieved through cooperation. Researching the collaboration potential can provide guidance for scholars to choose collaborators and maximize the efficiency of scientific research. However, the current outbursts of big data have hindered the effective choice of collaborators. In order to solve the problem, based on scholar-paper big data, after features analysis and optimization and comprehensively considering individual attributes and related attributes of scholars' papers, institutions, research interests, etc., sample features from various dimensions such as paper title, paper rank, paper number, time and coauthor order are constructed. Taking journal or conference level of papers as the sample tags of collaborators sequence pairs, which indicates the potential of current cooperators and make use of the strong learning characteristics of the ensemble methods, a scientific collaborator potential prediction model based on ensemble learning classification method is proposed. After analyzing and constructing the feature set that corresponds to the problem of scientific collaborator potential prediction, classification method is adopted to solve the problem. In experiments, the accuracy, recall rate, and F1 score are much higher than those of traditional machine learning methods and can converge to high values (above 80%) with few samples and little time, indicating the superiority of the proposed model.

作者艾科马国帅杨凯凯钱宇华 Ai Ke;Ma Guoshuai;Yang Kaikai;Qian Yuhua(Institute of Big Data Science and Industry, Shanxi University, Taiyuan 030006;Key Laboratory of Computational Intelligence and Chinese Information Processing(Shanxi University), Ministry of Education, Taiyuan 030006;School of Computer and Information Technology, Shanxi University, Taiyuan 030006)

机构地区山西大学大数据科学与产业研究院计算智能与中文信息处理教育部重点实验室(山西大学) 山西大学计算机与信息技术学院

出处《计算机研究与发展》 EI CSCD 北大核心 2019年第7期1383-1395,共13页 Journal of Computer Research and Development

基金国家自然科学基金项目(61672332,61432011,U1435212) 山西省海外归国人员研究项目(2017023)~~

关键词科研合作潜力预测特征构造学术大数据集成学习 scientific cooperation potential prediction feature construction big scholar data ensemble learning

分类号 TP18 [自动化与计算机技术—控制理论与控制工程] TP391 [自动化与计算机技术—计算机应用技术]

引文网络
相关文献

参考文献1

1胡开先,梁英,许洪波,毕晓迪,左遥.一种社会网络用户身份特征识别方法[J].计算机研究与发展,2016,53(11):2630-2644. 被引量：10

二级参考文献3

1李敏,王晓聪,张军,刘正捷.基于位置的社交网络用户签到及相关行为研究[J].计算机科学,2013,40(10):72-76. 被引量：20
2丁兆云,贾焰,周斌.微博数据挖掘研究综述[J].计算机研究与发展,2014,51(4):691-706. 被引量：119
3王玙,高琳.基于社交圈的在线社交网络朋友推荐算法[J].计算机学报,2014,37(4):801-808. 被引量：53

共引文献9

1郑敬华,郭世泽,高梁,钟晓峰.社交网络用户认知域特征预测研究综述[J].计算机科学,2018,45(3):16-22. 被引量：1
2胡石,章毅,许乐灵,陈心怡,陈芳.复杂通信环境下多社交网络用户身份识别研究[J].淮海工学院学报（人文社会科学版）,2018,16(9):113-115.
3谢小杰,梁英,董祥祥.社交网络用户敏感属性迭代识别方法[J].山东大学学报（理学版）,2019,54(3):10-17. 被引量：2
4詹华蕊,杨花雨.多源头网络用户访问信息自适应识别算法[J].科学技术与工程,2019,19(16):256-261. 被引量：3
5张树森,梁循,弭宝瞳,赵吉超,周小平.基于内容的社交网络用户身份识别方法[J].计算机学报,2019,42(8):1739-1754. 被引量：15
6胡富增,王勇军.基于数据挖掘的计算机用户行为分析与识别[J].自动化技术与应用,2020,39(6):42-47. 被引量：10
7马慧芳,胡东林,刘宇航,李志欣.融合作者合作强度与研究兴趣的合作者推荐[J].计算机工程与科学,2021,43(10):1864-1872.
8张小云.基于改进轮廓信息模型的异构去匿名化算法[J].微型电脑应用,2022,38(3):151-154.
9张津,郭艳光.基于偏好逻辑的社交网络用户身份识别方法[J].计算机仿真,2022,39(4):450-453. 被引量：3

同被引文献219

1党亚茹,王莉亚.中国省区间合作分布研究[J].科研管理,2009,30(S1):155-159. 被引量：14
2吴尔中.漫谈科研合作的计量研究[J].情报科学,1986,7(1):93-94. 被引量：2
3许文霞.科技论文合著化研究评述[J].图书情报工作,1984,28(6):27-29. 被引量：4
4孙丽娟.科技论文作者署名排序与通讯作者[J].中国科技期刊研究,2005,16(2):242-244. 被引量：20
5王贤文,丁堃,朱晓宇.中国主要科研机构的科学合作网络分析——基于Web of Science的研究[J].科学学研究,2010,28(12):1806-1812. 被引量：42
6章忠志,荣莉莉,周涛.一类无标度合作网络的演化模型[J].系统工程理论与实践,2005,25(11):55-60. 被引量：17
7刘云,朱东华,许海力,毛家杰.基础学科国际科学合作的重要模式[J].科学学研究,1996,14(1):37-42. 被引量：12
8张晗,崔雷,姜洋.运用非相关文献知识发现方法挖掘科研机构潜在的合作方向[J].现代图书情报技术,2006(4):45-48. 被引量：12
9郭永正.科学合作年龄结构的强度分布——我国控制理论案例研究[J].科学学与科学技术管理,2006,27(4):127-131. 被引量：7
10赫杰.图书馆学期刊合著现象的研究与思考[J].图书馆学研究,1996(2):68-70. 被引量：3

引证文献10

1魏国辉,张丰聪,付先军,王振国.中药成分相似性量化建模及寒热药性预测分析[J].数据分析与知识发现,2020,4(5):75-83. 被引量：15
2张佳欢,李磊军,李美争,米据生,解滨.基于聚类的多标记选择性集成[J].南京航空航天大学学报,2020,52(5):768-776.
3张喆,汤永利.基于集成学习的全云化健康大数据整合系统设计[J].现代电子技术,2020,43(22):173-176. 被引量：5
4陈文杰.基于翻译模型的科研合作预测研究[J].数据分析与知识发现,2020,4(10):28-36. 被引量：3
5舒坚,高素,陈宇斌.基于自适应广义回归神经网络的链路质量评估[J].计算机研究与发展,2020,57(12):2662-2672. 被引量：5
6刘鹏程,孙林夫,张常有.融合组合赋权与嵌套集成分类器的服务商评价[J].计算机集成制造系统,2020,26(12):3408-3426. 被引量：3
7高虹雷,门昌骞,王文剑.一种特征值区间划分的模型决策树加速算法[J].小型微型计算机系统,2021,42(6):1136-1143. 被引量：4
8刘国仕.基于高校资源配置效率的大学生创新创业潜力测评系统设计[J].现代电子技术,2021,44(24):83-86. 被引量：1
9胡泽文,崔静静,任萍.国内科研合作研究进展综述[J].现代情报,2022,42(6):148-159. 被引量：9
10马国帅,钱宇华,张亚宇,李俊霞,刘郭庆.动态异构信息融合的科研合作潜力预测[J].计算机应用,2023,43(9):2775-2783.

二级引证文献45

1殷茜,李泽霞.基于社会网络的学者科研合作与其跨学科性的关系研究——以天体物理学领域学者为例[J].知识管理论坛,2023(3):193-201.
2袁培培,张奇,克迎迎,傅阳,侯颖,冯卫生,郑晓珂.桑白皮药性改变对其降糖功效的影响[J].中药药理与临床,2021,37(2):80-85. 被引量：2
3马婧,任越,张嘉宁,林力,张燕玲.基于靶标活性谱的理气功效和活血功效靶点分析[J].中国中药杂志,2021,46(15):3970-3979. 被引量：4
4朱铁梁,孙蕾,姬艳苏.中药四气理论现代研究进展[J].现代中西医结合杂志,2021,30(28):3188-3192. 被引量：9
5魏国辉,闵巍巍,李丽萍.医工融合生物医学工程学案例式教学实践[J].中国医药导报,2021,18(28):63-66. 被引量：5
6陈浩,张梦毅,程秀峰.融合主题模型与决策树的跨地区专利合作关系发现与推荐——以广东省和武汉市高校专利库为例[J].数据分析与知识发现,2021,5(10):37-50. 被引量：5
7谢鑫,张贤勇,王旋晔,唐鹏飞.变精度邻域等价粒的邻域决策树构造算法[J].计算机应用,2022,42(2):382-388. 被引量：4
8刘鹏程,孙林夫.基于第三方云平台的服务价值链多链知识图谱构建[J].计算机集成制造系统,2022,28(2):612-627. 被引量：5
9张骞.面向电子数字文献保存的元数据存储系统设计[J].电子设计工程,2022,30(7):26-29. 被引量：1
10达巴姆.信息化背景下大学生创新创业能力提升研究[J].科技资讯,2022,20(13):254-256. 被引量：2

1刘婷.“新工科”背景下健康信息类专业学生学习特性分析及应对措施研究——以A校B学院为研究对象[J].青年与社会,2019,0(14):57-57.
2蔺秋红.中职生语文教学要突出“三性”[J].汉字文化,2019(6):96-97.
3方豪,王春林,林波荣.我国钢铁余热清洁供暖现状和产能调整下的余热潜力预测[J].建筑节能,2019,47(6):106-111. 被引量：5
4刘影影.听障生美术课堂学习问题浅析[J].课程教育研究（学法教法研究）,2019,0(13):165-166.
5马保菊.利用多媒体优化数学课堂教学[J].散文选刊（中旬刊）,2019,0(3):97-97.
6刘尚,米薇,陈博.基于技术进化树的技术潜力预测方法[J].机械设计与研究,2019,35(3):199-203. 被引量：2
7美国学校网络联合会,季瑞芳(译),吴莎莎(译),张春华(译),李国云(译).新技术如何推动教学变革——基础教育创新驱动力报告(挑战篇)[J].开放学习研究,2019,0(2):1-7. 被引量：2
8王宁.基于改进DEA交叉模型的“一流大学”建设高校科研效率评价[J].国内高等教育教学研究动态,2019,0(11):6-6. 被引量：1
9董礼,陈佳琦,樊悦,王妮.小麦抗旱基因工程研究进展[J].江西农业,2019,0(10):102-102. 被引量：2

计算机研究与发展

2019年第7期

浏览历史

内容加载中请稍等...

一种基于集成学习的科研合作者潜力预测分类方法被引量：10

参考文献1

二级参考文献3

共引文献9

同被引文献219

引证文献10

二级引证文献45

相关作者

相关机构

相关主题

浏览历史

一种基于集成学习的科研合作者潜力预测分类方法 被引量：10

参考文献1

二级参考文献3

共引文献9

同被引文献219

引证文献10

二级引证文献45

相关作者

相关机构

相关主题

浏览历史

一种基于集成学习的科研合作者潜力预测分类方法被引量：10