-
题名国内自然语言处理领域数据集引用行为分析
- 1
-
-
作者
徐琳宏
王凯达
张立杰
-
机构
大连外国语大学软件学院
-
出处
《数字图书馆论坛》
CSSCI
2023年第11期29-37,共9页
-
基金
国家自然科学基金项目“面向社交媒体的多语种文本情感分析方法研究”(编号:61806038)资助。
-
文摘
随着科学研究对数据的依赖性不断增强,分析国内自然语言处理领域内数据集的引用行为,有利于规范化数据集的构建和使用,推动国内自然语言处理领域的快速发展。选取《中文信息学报》2013—2022年的1628篇论文为样本,通过全文本分析法,人工标注1970条数据集引用信息,以研究文献对数据集的引用行为。研究发现:在国内自然语言处理领域研究中,引用他人数据集的论文数量逐渐增加,使用自建数据集的论文逐渐减少,并且引用数据集论文的篇均被引频次高于自建数据集论文;引用多个数据集的倾向较为明显,引用单个数据集的论文逐渐减少,并且引用2~3个数据集论文的篇均被引频次高于引用单个数据集的论文;数据集重用性较低,高被引数据集主要来源于评测。
-
关键词
数据集引用
数据引用
自然语言处理
高被引数据集
数据集重用
-
Keywords
Dataset Citation
Data Citation
Natural Language Processing
Highly Cited Dataset
Dataset Reuse
-
分类号
G353.1
[文化科学—情报学]
-