-
题名中国替代计量数据集构建方法研究
- 1
-
-
作者
余厚强
梁以安
-
机构
中山大学信息管理学院
-
出处
《情报理论与实践》
CSSCI
北大核心
2024年第8期171-179,共9页
-
基金
国家自然科学基金面上项目“中国替代计量的数据识别机制与关键分析方法研究”(项目编号:72274227)
教育部人文社会科学研究规划基金项目“融合替代计量分析的高校科研社会影响力评价研究”(项目编号:22YJA870016)的成果。
-
文摘
[目的/意义]探索我国替代计量数据集构建方法,为实现面向国内社会需求的替代计量分析提供数据基础。[方法/过程]从作为提及主体的数据源角度提出基于实体识别的数据集构建方法,从作为提及客体的学术成果角度提出基于术语检索的数据集构建方法,并针对所提出的方法进行实证检验与对比分析。[结果/结论]实证结果表明,所提出的基于实体识别和基于术语检索的中国替代计量数据集构建方法均具有可行性;在知乎替代计量数据集构建中,实际采集7.2万条帖子,基于正则表达式和深度学习方法识别所提及的学术论文,F_(1)值在80%以上;在微信替代计量数据集构建中,基于术语检索获取了6.55万篇CSSCI期刊论文的17余万条微信提及,微信提及相对覆盖率近70%;对两种构建方法的多角度比较分析可知,这两种构建中国替代计量数据集的基本方法相互补充,适用于不同的替代分析数据需求。
-
关键词
替代计量学
替代计量数据
学术成果识别
实体识别
术语检索
-
Keywords
altmetrics
altmetric data
identification of academic outputs
entity recognition
term retrieval
-
分类号
G353.1
[文化科学—情报学]
-
-
题名中国替代计量数据的来源与识别研究
被引量:4
- 2
-
-
作者
余厚强
马超
王玥
李龙飞
-
机构
中山大学信息管理学院
南京理工大学经济管理学院
-
出处
《情报理论与实践》
CSSCI
北大核心
2022年第12期111-118,共8页
-
基金
国家自然科学基金面上项目“中国替代计量的数据识别机制与关键分析方法研究”(项目编号:72274227)
教育部人文社会科学研究规划基金项目“融合替代计量分析的高校科研社会影响力评价研究”(项目编号:22YJA870016)的成果之一。
-
文摘
[目的/意义]从不同来源的文本中识别和提取学术论文寻找合适的方法,为后续开展国内替代计量研究提供参考。[方法/过程]基于广泛的数据收集,总结归纳中国替代数据来源类别,提出从中国替代计量数据来源中识别学术论文的思路,探究将命名实体识别的方法引入识别和提取学术论文上的可能性,并利用基于正则表达式的识别方法进行实证分析。[结果/结论]中国替代计量数据源种类繁多,包括知识共享平台、学术社交平台、大众社交平台、新闻平台、学科交流平台和视频网站。学术论文提及作为一类新型的命名实体,可参考传统的命名实体识别方法进行识别和提取。实证研究显示,基于正则表达式的方法可以用于学术论文的识别,在知乎“机器学习”话题的数据集上取得了80%的F1值,而正则表达式模板的匹配度对识别效果起关键性作用。
-
关键词
替代计量学
替代计量数据
替代计量数据源
实体识别
正则表达式
-
Keywords
altmetrics
altmetrics data
altmetrics data source
entity recognition
regular expression
-
分类号
G259.2
[文化科学—图书馆学]
-
-
题名不同替代计量数据库数据政策与数据数值的比较研究
被引量:3
- 3
-
-
作者
余厚强
尹梓涵
-
机构
中山大学信息管理学院
南京理工大学经济管理学院
-
出处
《情报杂志》
CSSCI
北大核心
2021年第5期111-117,共7页
-
基金
教育部人文社会科学青年基金“替代计量数据质量评估体系的构建与实证研究”(编号:18YJC870023)
国家自然科学青年基金项目“结合情境数据的替代计量指标多元化内涵识别与表征研究”(编号:71804067)
中央高校基本科研业务费专项资金(编号:30920021203)的研究成果之一。
-
文摘
[目的/意义]揭示不同替代计量数据库数据的特点,以明确基于这些替代计量数据库的研究和服务的适用性和局限性,同时为面向不同目标选取合适的替代计量数据库提供参考。[方法/过程]在充分调研主流替代计量数据库的基础上,选取Altmetric.com、CrossRef和PLoS ALM三家替代计量数据库作为研究对象,通过调研对比分析了不同替代计量数据库的数据政策,采用统计分析对比了不同替代计量数据库数据数值的差异。[结果/结论]不同替代计量数据库在保障数据透明性、可重复性和准确性上采取的具体策略不尽相同,并且各有特色。在数据数值的表现方面,Altmetric数据库的Twitter数据数值最高,CED提取Wikipedia数据的范围最为广泛,PLoS ALM的Facebook数据数值更高,而Reddit、F1000、DataCite和Wordpress这四种替代计量数据体现出较强的一致性。
-
关键词
替代计量学
替代计量数据库
数据质量
数据政策
替代计量指标
-
Keywords
Altmetrics
Altmetrics databases
data quality
data policy
altmetrics indicators
-
分类号
G201
[文化科学—传播学]
-
-
题名数据级别计量在机构知识库中的应用研究
被引量:3
- 4
-
-
作者
张雪蕾
李娟
魏青山
尹飞
-
机构
西安交通大学图书馆
-
出处
《情报理论与实践》
CSSCI
北大核心
2020年第5期137-143,共7页
-
文摘
[目的/意义]数据级别计量是在科学数据开放共享背景下,承认科研人员学术贡献度的一种有效途径。机构知识库作为收集各类学术成果平台,科学数据也是其重要的收录类型之一。借助完善与拓展机构知识库功能契机,避免重复建设。[方法/过程]分别从数据引用、数据使用和数据替代计量三个维度对科学数据使用情形进行分析。[结果/结论]西安交通大学机构知识库引入数据级别计量的实践在一定程度上能够体现出对学者贡献度的认可,提升学者自存缴意愿,从而推动科学数据共享。
-
关键词
科学数据
机构知识库
数据引用
数据使用
数据替代计量
-
Keywords
scientific data
institutional repository
data citation
data usage
Altmetrics for data
-
分类号
G353.1
[文化科学—情报学]
-