大数据时代的到来,撼动了世界的方方面面,从商业、科技、医疗卫生到政府、教育以及社会的其他各个领域。全世界范围内科研活动的进行,每天都有数以万计的学术数据产生。学术大数据也开始成为大数据时代的研究热点。本文选取Scopus数据...大数据时代的到来,撼动了世界的方方面面,从商业、科技、医疗卫生到政府、教育以及社会的其他各个领域。全世界范围内科研活动的进行,每天都有数以万计的学术数据产生。学术大数据也开始成为大数据时代的研究热点。本文选取Scopus数据库中发表的关于学术大数据的论文作为研究样本,运用文献计量和知识图谱分析法,借助R语言新型文献计量工具软件Biblioshiny进行研究趋势和热点分析。结果显示,学术大数据研究正呈现蓬勃发展的趋势,中国在发文量、引用频次等多方面居于国际领先地位。学术大数据研究趋向多元化,呈现多学科交叉趋势,深度学习、机器学习和自然语言处理等是需要重点关注的方面。关键词:学术大数据;Biblioshiny;知识图谱;趋势分析中图分类号:G353.10 引言随着移动互联网的快速普及,物联网技术的迅猛发展,全球数据总量呈爆炸式增长,2021年3 月 24 日 国际数据公司 (IDC) 发布了其年度 DataSphere 和 StorageSphere 预测,IDC全球数据领域高级副总裁Dave Reinsel表示:“2020 年,全球数据总量达到 64.2ZB,复合年增长率为 23%”[1]。大数据时代下的世界科学领域,全球研究人员在每天的科学研究和发现中也不断产生海量的学术数据,包括论文、书籍、技术报告以及相关数据、图表等。学术大数据(Big Scholarly Data)一词也由快速增长的学术信息来源应运而生[2]。目前对于学术大数据还没有一个统一、明确的定义,它随着大数据时代的发展而不断发生着变化,笔者从现有的相关文献中查找到下述两种说法:(1)学术大数据是指由具有学术行业特征的多元实体及其之间的多样化关系构成的数据集合。其中,实体可以包括学者、机构、论文、学科等对象,而实体间的关系则可以体现为合作、引用、研究兴趣、领域归属等形式[3]。(2)学术大数据是指与学术研究相关的海量数据集合,这些集合包括期刊文章、会议论文集、论文、书籍、专利、演示文稿、幻灯片和实验数据等[4]。这两种说法基本上从广义和狭义两个方面概述了学术大数据的定义。通过中国学术期刊网(知网)使用“学术大数据”作为篇名和关键词检索,只得出下述寥寥几篇文章。梁英和张永锋[5, 6]等分别对学术大数据在科技管理过程和企业专家对接中的应用进行全面分析;谢靖[7]等以科研学术大数据的精准服务进行架构设计;在图书情报相关领域只有张志武[8, 9]等基于学术大数据驱动下对图书馆一流学科精准服务研究和学术大数据助力高校学术服务应用研究和杜君[10]开展的学术大数据环境下高校图书馆馆藏资源的知识发现研究。综合上述研究主题内容来看,国内学术大数据研究主要集中在实际应用的畅想中,对其数据开发、获取、管理方面等还未涉猎。与此同时,使用文献计量分析法来追踪领域内学科知识的产生和发表已成为一种新的研究主流。因此本研究旨在通过Scopus数据库收录的相关研究论文进行文献计量分析并借助Biblioshiny软件进行知识图谱分析,以梳理下述几个问题:(1)在过去的几年间,国际上学术大数据研究是如何发展的?(2)对学术大数据研究做出贡献的主要国家有哪些?(3)谁是该领域最有影响力的作者?(4)学术大数据研究发展趋势是什么?1 数据来源与研究方法1.1数据来源Scopus是当今世界最大的同行评议研究?献摘要和引文数据库,由世界上最大的学术出版商Elsevier公司2004年推出的。近年来,Scopus数据库在国家研究评估、政府科学政策评估、世界大学排名等方面都发挥了重要作用[11]。本研究通过在Scopus数据库利用文章题名和关键字为学术大数据且限定文献类型为文章或会议论文,构建高级检索式为:( TITLE ( “big scholarly data” OR “ academic big data” ) OR KEY ( “big scholarly data” OR “ academic big data” ) ) AND ( LIMIT-TO ( DOCTYPE , "ar" ) OR LIMIT-TO ( DOCTYPE , "cp" ) ),选择2012年1月1日作为起始日期,因为在此之前还没有学术大数据相关研究论文发表,终止日期为2021年12月31日,检索日期为2022年5月6日。通过检索文献记录作为本研究的数据集,将这些记录导入到R语言中的Bibliometrix for Biblioshiny进行处理分析。1.2 研究方法R语言是一款具有丰富统计功能的开源软件,不仅具有强大的科学计算工具包,数据分析功能灵活,且具有顶尖的绘图功能,这使得其成为文献计量分析的最佳选择。R语言环境下的Bibliometrix和Biblioshiny开源包作为一种新型的文献计量分析工具,可用于从Clarivate Analytics 的 Web of Science、Scopus、Dimensions、Lens.org、PubMed等多种学术数据库中导入的数据,以执行基本计量分析和构建数据矩阵以进行共引、耦合、科学协作等可视化分析[12]。通过“网络数据”(主要是文献知识单元)的关系构建和可视化分析,可以实现科学知识图谱的绘制,展现科技知识领域的结构 、进化、合作等关系并用于从微观、宏观和中观三个层面揭示特定领域的科学发展趋势。2 文献基本统计分析文献统计分析法在预测学、科学学与技术管理的研究中有着广泛的应用。通过统计某学科的文献数量及其变化情况,来分析研究该学科的发展及其趋势是文献计量学的基本方法之一[13]。2.1 发文量分析发表学术论文的数量是衡量某项科学研究发展趋势的重要指标,能够反映出某个领域的发展状况和不同的发展阶段。根据本研究数据集统计分析可得到如图1所示的发文量趋势图。从图1可以看出,在过去十年中,学术大数据论文产出以每年21.5%的平均增长率急剧增加。2012年开始出现学术大数据研究相关的4篇论文,处于诞生阶段;2014年-2018年发文量处于平稳上升的探索发展阶段;直到2019年达到峰值发文数量当年累计发文26篇形成急速发展阶段;随后又趋于平稳发展状态。图1 年度发文量趋势图2.2 来源期刊分析文献分析需要对其来源进行统计分析,即该领域学术论文主要发表在哪些期刊,是否为学科领域内核心收录期刊,可以在一定程度上了解其学科发展趋势。布拉德福定律已被广泛应用于检验期刊核心地位。本研究采用布拉德福定律对来源期刊进行图像分析法,根据n与R(n)两组累积数据,用n的对数作为横坐标(即期刊来源),R(n)作为比例坐标(即发文量),所得到的图像就是n与R(n)的对应关系曲线。由图2可知学术大数据论文发文量最大的是《IEEE Transactions On Emerging Topics In Computing》和Springer公司出版的《Lecture Notes In Computer Science》丛书,其两者发文量均为10篇;位列第二的是《IEEE Access》,《Scientometrics》紧随其后。从来源期刊,学术大数据研究论文的发文水平还缺乏在有影响力的世界一流期刊,且目前学术大数据研究多受计算机科学专业方面的关注,其次为工程、数学和社会科学等相关专业期刊。图2 布拉德福定律期刊来源分析2.3 高产机构分析研究高产机构可以表明该机构在学术大数据研究领域的研究水平或关注程度,也可以在一定程序上反映机构人才队伍建设水平。根据本研究数据集分析,发文量前20名的研究机构如图3所示, Dalian University of Technology(大连理工大学)已发表论文26篇排名第一;排名第二的机构是Pennsylvania State University(宾夕法尼亚州立大学),发文量为15篇;Federation University Australia(澳大利亚联邦大学)以发文量6篇排名第三位。从图3中我们可以粗略地看出,这些研究机构主要来自中国、美国、澳大利亚等。我国的大连理工大学发文数量遥遥领先于其他机构,成为该领域研究主力机构。经笔者进一步检索信息得知早在2005年大连理工大学就成立了网络-信息-科学-经济计量实验室即WISE Lab of Dalian University of Technology,WISE是网络计量学(Webometrics)、信息计量学(Informetrics)、科学计量学(Scientometrics)、经济计量学(Econometrics)的缩写,WISE Lab的中文含义为“智慧实验室”[14]。由此可见大连理工大学在学术大数据研究方面具有强大的支撑力,一直处于相关研究的前沿。图3 高产研究机构排名前20位2.4 高被引分析在文献计量分析中,被引次数分为全局被引次数(Global citation scores,简称GCS)和本地被引次数(Local citation scores,简称LCS)。全局被引次数是指某知识单元,比如某篇论文在某一大型数据库中被引的频次;本地被引频次是指,按照某一策略采集的文献数据集在所采集数据中被引的次数[15]。为集中展示论文在本研究数据集中的引用情况,本研究所指的引用次数均采用本地被引频次(LCS)。图4展示了在本数据集中的高被引论文,也就是说,这些文章是该领域最受欢迎的。引用次数最多的论文是宾夕法尼亚州立大学的Wu,Z于2014年数字图书馆会议论坛上发表的题为“Towards Building a Scholarly Big Data Platform:Challenges, Lessons and Opportunities[16]”一文,该文章描述了通过构建动态调度的爬虫抓取数据,并将这些数据集成到一个数据平台中,最终实现在该平台上的学术应用程序,包括引文推荐和合作者发现。同为高被引次数“MVCWalker: Random Walk-Based Most Valuable Collaborators Recommendation Exploiting Academic Factors[17]”由大连理工大学Xia, F发表于《IEEE 计算新兴主题汇刊》,该文章介绍了MVCWalker这种创新方法,对DataBase systems and Logic Programming(DBLP)即计算机领域内的研究成果集成数据库系统,进行了广泛的数据收集,以实现研究人员通过大量学术大数据找到最有价值的合作者。图4 本地引用次数排名前10位2.5 高产学者分析 本数据集中336位作者中排名前20位的高产作者文献与被引时间演化如图5所示。横坐标为时间轴,红线表示作者的发文时间线,连线的长度一定程度上可以反映出该学者研究的持续时间。节点的大小与年度发表论文数量成正比,颜色深浅则表示年度引用频次多少,颜色越深引用次数越多。为了便于进一步了解,笔者在图中标注了三位作者的节点示意图。从图5中可以看出大连理工大学的XIA,F从2014年开始刊发第一篇论文后整条红线贯穿至2021年,显示其多年来一直在对该领域有研究贡献,且每年均有新的研究成果发表,2017年发表了4篇文章,总引频次达到12.17。排名第二位的美国北德克萨斯大学WU,J,经进一步检索,其多年来一直致力于CiteSeerx数据集中学术大数据的挖掘和应用并发表多篇相关论文,2014年发文量最高为4篇,总引频次为14.33。标注的第三位作者WILLAMS K,该作者仅在2014年发表4篇文章后,2015、2016年各发表1篇,随即可能终止了对该领域的研究或暂无新的研究成果发表。图5 高产作者文献与被引时间演化情况3 文献计量图谱分析通过学术大数据研究基本文献统计分析,我们可以了解该研究的大致发展方向。而利用现代计算机语言多元的统计技术如因子分析、聚类分析和多维尺度分析等,并结合R语言出色的制图效果,可以实现多种文献网络结构可视化分析,通过这些分析,可以直观地显示该领域的研究热点和研究趋势及其他相关关系。3.1 关键词共现分析论文关键词是对研究目的、研究对象、研究方法进行高度凝练与概括。对每篇论文的研究主题进行唯一标识,统计文献的研究主题与高频词的共现关系,有助于探索各研究主题的具体研究内容[18]。为了有效识别学术大数据领域的重要研究热点,本研究选用索引关键字进行分析。在 Scopus 数据库中提供的索引关键字,源自 Elsevier公司公开可用的词汇表进行标准化的关键字。与作者关键字不同,索引关键字将同义词、多种拼写方式和附属纳入考虑范围[19]。通过对本研究数据集的索引关键词进行网络结构可视化分析结果如图6所示。以big data关键词为中心的红色集群,紧密围绕其周围节点较大的。展开更多
文摘大数据时代的到来,撼动了世界的方方面面,从商业、科技、医疗卫生到政府、教育以及社会的其他各个领域。全世界范围内科研活动的进行,每天都有数以万计的学术数据产生。学术大数据也开始成为大数据时代的研究热点。本文选取Scopus数据库中发表的关于学术大数据的论文作为研究样本,运用文献计量和知识图谱分析法,借助R语言新型文献计量工具软件Biblioshiny进行研究趋势和热点分析。结果显示,学术大数据研究正呈现蓬勃发展的趋势,中国在发文量、引用频次等多方面居于国际领先地位。学术大数据研究趋向多元化,呈现多学科交叉趋势,深度学习、机器学习和自然语言处理等是需要重点关注的方面。关键词:学术大数据;Biblioshiny;知识图谱;趋势分析中图分类号:G353.10 引言随着移动互联网的快速普及,物联网技术的迅猛发展,全球数据总量呈爆炸式增长,2021年3 月 24 日 国际数据公司 (IDC) 发布了其年度 DataSphere 和 StorageSphere 预测,IDC全球数据领域高级副总裁Dave Reinsel表示:“2020 年,全球数据总量达到 64.2ZB,复合年增长率为 23%”[1]。大数据时代下的世界科学领域,全球研究人员在每天的科学研究和发现中也不断产生海量的学术数据,包括论文、书籍、技术报告以及相关数据、图表等。学术大数据(Big Scholarly Data)一词也由快速增长的学术信息来源应运而生[2]。目前对于学术大数据还没有一个统一、明确的定义,它随着大数据时代的发展而不断发生着变化,笔者从现有的相关文献中查找到下述两种说法:(1)学术大数据是指由具有学术行业特征的多元实体及其之间的多样化关系构成的数据集合。其中,实体可以包括学者、机构、论文、学科等对象,而实体间的关系则可以体现为合作、引用、研究兴趣、领域归属等形式[3]。(2)学术大数据是指与学术研究相关的海量数据集合,这些集合包括期刊文章、会议论文集、论文、书籍、专利、演示文稿、幻灯片和实验数据等[4]。这两种说法基本上从广义和狭义两个方面概述了学术大数据的定义。通过中国学术期刊网(知网)使用“学术大数据”作为篇名和关键词检索,只得出下述寥寥几篇文章。梁英和张永锋[5, 6]等分别对学术大数据在科技管理过程和企业专家对接中的应用进行全面分析;谢靖[7]等以科研学术大数据的精准服务进行架构设计;在图书情报相关领域只有张志武[8, 9]等基于学术大数据驱动下对图书馆一流学科精准服务研究和学术大数据助力高校学术服务应用研究和杜君[10]开展的学术大数据环境下高校图书馆馆藏资源的知识发现研究。综合上述研究主题内容来看,国内学术大数据研究主要集中在实际应用的畅想中,对其数据开发、获取、管理方面等还未涉猎。与此同时,使用文献计量分析法来追踪领域内学科知识的产生和发表已成为一种新的研究主流。因此本研究旨在通过Scopus数据库收录的相关研究论文进行文献计量分析并借助Biblioshiny软件进行知识图谱分析,以梳理下述几个问题:(1)在过去的几年间,国际上学术大数据研究是如何发展的?(2)对学术大数据研究做出贡献的主要国家有哪些?(3)谁是该领域最有影响力的作者?(4)学术大数据研究发展趋势是什么?1 数据来源与研究方法1.1数据来源Scopus是当今世界最大的同行评议研究?献摘要和引文数据库,由世界上最大的学术出版商Elsevier公司2004年推出的。近年来,Scopus数据库在国家研究评估、政府科学政策评估、世界大学排名等方面都发挥了重要作用[11]。本研究通过在Scopus数据库利用文章题名和关键字为学术大数据且限定文献类型为文章或会议论文,构建高级检索式为:( TITLE ( “big scholarly data” OR “ academic big data” ) OR KEY ( “big scholarly data” OR “ academic big data” ) ) AND ( LIMIT-TO ( DOCTYPE , "ar" ) OR LIMIT-TO ( DOCTYPE , "cp" ) ),选择2012年1月1日作为起始日期,因为在此之前还没有学术大数据相关研究论文发表,终止日期为2021年12月31日,检索日期为2022年5月6日。通过检索文献记录作为本研究的数据集,将这些记录导入到R语言中的Bibliometrix for Biblioshiny进行处理分析。1.2 研究方法R语言是一款具有丰富统计功能的开源软件,不仅具有强大的科学计算工具包,数据分析功能灵活,且具有顶尖的绘图功能,这使得其成为文献计量分析的最佳选择。R语言环境下的Bibliometrix和Biblioshiny开源包作为一种新型的文献计量分析工具,可用于从Clarivate Analytics 的 Web of Science、Scopus、Dimensions、Lens.org、PubMed等多种学术数据库中导入的数据,以执行基本计量分析和构建数据矩阵以进行共引、耦合、科学协作等可视化分析[12]。通过“网络数据”(主要是文献知识单元)的关系构建和可视化分析,可以实现科学知识图谱的绘制,展现科技知识领域的结构 、进化、合作等关系并用于从微观、宏观和中观三个层面揭示特定领域的科学发展趋势。2 文献基本统计分析文献统计分析法在预测学、科学学与技术管理的研究中有着广泛的应用。通过统计某学科的文献数量及其变化情况,来分析研究该学科的发展及其趋势是文献计量学的基本方法之一[13]。2.1 发文量分析发表学术论文的数量是衡量某项科学研究发展趋势的重要指标,能够反映出某个领域的发展状况和不同的发展阶段。根据本研究数据集统计分析可得到如图1所示的发文量趋势图。从图1可以看出,在过去十年中,学术大数据论文产出以每年21.5%的平均增长率急剧增加。2012年开始出现学术大数据研究相关的4篇论文,处于诞生阶段;2014年-2018年发文量处于平稳上升的探索发展阶段;直到2019年达到峰值发文数量当年累计发文26篇形成急速发展阶段;随后又趋于平稳发展状态。图1 年度发文量趋势图2.2 来源期刊分析文献分析需要对其来源进行统计分析,即该领域学术论文主要发表在哪些期刊,是否为学科领域内核心收录期刊,可以在一定程度上了解其学科发展趋势。布拉德福定律已被广泛应用于检验期刊核心地位。本研究采用布拉德福定律对来源期刊进行图像分析法,根据n与R(n)两组累积数据,用n的对数作为横坐标(即期刊来源),R(n)作为比例坐标(即发文量),所得到的图像就是n与R(n)的对应关系曲线。由图2可知学术大数据论文发文量最大的是《IEEE Transactions On Emerging Topics In Computing》和Springer公司出版的《Lecture Notes In Computer Science》丛书,其两者发文量均为10篇;位列第二的是《IEEE Access》,《Scientometrics》紧随其后。从来源期刊,学术大数据研究论文的发文水平还缺乏在有影响力的世界一流期刊,且目前学术大数据研究多受计算机科学专业方面的关注,其次为工程、数学和社会科学等相关专业期刊。图2 布拉德福定律期刊来源分析2.3 高产机构分析研究高产机构可以表明该机构在学术大数据研究领域的研究水平或关注程度,也可以在一定程序上反映机构人才队伍建设水平。根据本研究数据集分析,发文量前20名的研究机构如图3所示, Dalian University of Technology(大连理工大学)已发表论文26篇排名第一;排名第二的机构是Pennsylvania State University(宾夕法尼亚州立大学),发文量为15篇;Federation University Australia(澳大利亚联邦大学)以发文量6篇排名第三位。从图3中我们可以粗略地看出,这些研究机构主要来自中国、美国、澳大利亚等。我国的大连理工大学发文数量遥遥领先于其他机构,成为该领域研究主力机构。经笔者进一步检索信息得知早在2005年大连理工大学就成立了网络-信息-科学-经济计量实验室即WISE Lab of Dalian University of Technology,WISE是网络计量学(Webometrics)、信息计量学(Informetrics)、科学计量学(Scientometrics)、经济计量学(Econometrics)的缩写,WISE Lab的中文含义为“智慧实验室”[14]。由此可见大连理工大学在学术大数据研究方面具有强大的支撑力,一直处于相关研究的前沿。图3 高产研究机构排名前20位2.4 高被引分析在文献计量分析中,被引次数分为全局被引次数(Global citation scores,简称GCS)和本地被引次数(Local citation scores,简称LCS)。全局被引次数是指某知识单元,比如某篇论文在某一大型数据库中被引的频次;本地被引频次是指,按照某一策略采集的文献数据集在所采集数据中被引的次数[15]。为集中展示论文在本研究数据集中的引用情况,本研究所指的引用次数均采用本地被引频次(LCS)。图4展示了在本数据集中的高被引论文,也就是说,这些文章是该领域最受欢迎的。引用次数最多的论文是宾夕法尼亚州立大学的Wu,Z于2014年数字图书馆会议论坛上发表的题为“Towards Building a Scholarly Big Data Platform:Challenges, Lessons and Opportunities[16]”一文,该文章描述了通过构建动态调度的爬虫抓取数据,并将这些数据集成到一个数据平台中,最终实现在该平台上的学术应用程序,包括引文推荐和合作者发现。同为高被引次数“MVCWalker: Random Walk-Based Most Valuable Collaborators Recommendation Exploiting Academic Factors[17]”由大连理工大学Xia, F发表于《IEEE 计算新兴主题汇刊》,该文章介绍了MVCWalker这种创新方法,对DataBase systems and Logic Programming(DBLP)即计算机领域内的研究成果集成数据库系统,进行了广泛的数据收集,以实现研究人员通过大量学术大数据找到最有价值的合作者。图4 本地引用次数排名前10位2.5 高产学者分析 本数据集中336位作者中排名前20位的高产作者文献与被引时间演化如图5所示。横坐标为时间轴,红线表示作者的发文时间线,连线的长度一定程度上可以反映出该学者研究的持续时间。节点的大小与年度发表论文数量成正比,颜色深浅则表示年度引用频次多少,颜色越深引用次数越多。为了便于进一步了解,笔者在图中标注了三位作者的节点示意图。从图5中可以看出大连理工大学的XIA,F从2014年开始刊发第一篇论文后整条红线贯穿至2021年,显示其多年来一直在对该领域有研究贡献,且每年均有新的研究成果发表,2017年发表了4篇文章,总引频次达到12.17。排名第二位的美国北德克萨斯大学WU,J,经进一步检索,其多年来一直致力于CiteSeerx数据集中学术大数据的挖掘和应用并发表多篇相关论文,2014年发文量最高为4篇,总引频次为14.33。标注的第三位作者WILLAMS K,该作者仅在2014年发表4篇文章后,2015、2016年各发表1篇,随即可能终止了对该领域的研究或暂无新的研究成果发表。图5 高产作者文献与被引时间演化情况3 文献计量图谱分析通过学术大数据研究基本文献统计分析,我们可以了解该研究的大致发展方向。而利用现代计算机语言多元的统计技术如因子分析、聚类分析和多维尺度分析等,并结合R语言出色的制图效果,可以实现多种文献网络结构可视化分析,通过这些分析,可以直观地显示该领域的研究热点和研究趋势及其他相关关系。3.1 关键词共现分析论文关键词是对研究目的、研究对象、研究方法进行高度凝练与概括。对每篇论文的研究主题进行唯一标识,统计文献的研究主题与高频词的共现关系,有助于探索各研究主题的具体研究内容[18]。为了有效识别学术大数据领域的重要研究热点,本研究选用索引关键字进行分析。在 Scopus 数据库中提供的索引关键字,源自 Elsevier公司公开可用的词汇表进行标准化的关键字。与作者关键字不同,索引关键字将同义词、多种拼写方式和附属纳入考虑范围[19]。通过对本研究数据集的索引关键词进行网络结构可视化分析结果如图6所示。以big data关键词为中心的红色集群,紧密围绕其周围节点较大的。