-
题名项目申请书摘要文本的语步识别语料构建
被引量:1
- 1
-
-
作者
赵旸
张智雄
李婕
-
机构
中国科学院文献情报中心
中国科学院大学经济与管理学院图书情报与档案管理系
-
出处
《图书情报工作》
CSSCI
北大核心
2022年第21期97-106,共10页
-
基金
中国科学院文献情报能力建设专项子项目"基于科技文献知识的人工智能(AI)引擎建设"(项目编号:E0290906)研究成果之一。
-
文摘
[目的/意义]自动识别项目申请书摘要中的科学要素,对于揭示科技项目中的科学知识具有重要的研究意义。这些科学要素的识别依赖于结构化项目摘要文本,然而目前结构化项目摘要语料资源匮乏,严重制约着相关研究的进一步发展。拟构建项目申请书摘要文本的语步语料集,为相关研究提供数据支撑。[方法/过程]首先将项目摘要内容归纳为背景及问题、目标及任务、方法内容、价值意义4种语步类型,总结每个语步结构中出现的标志性特征并制定语步标注规范;其次相继利用基于规则和基于深度学习的方法辅助人工进行项目摘要的语步结构标注,并对每轮标注后的语料进行质量评估。[结果/结论]两种方法共计标注近25000条语句,语料标注的一致性系数达到0.9839,表明该语料集基本能够区分项目摘要内的不同语步结构,初步达到了语料库建设的基本要求。
-
关键词
语步识别
项目申请摘要文本
语步语料集构建
迭代标注
-
Keywords
move recognition
project application abstract
move corpus construction
iterative annotation
-
分类号
G202
[文化科学—传播学]
G203
[文化科学—传播学]
-