-
题名基于主动学习与众包的农业知识标注体系及语料库构建
- 1
-
-
作者
姜京池
关昌赫
刘劼
关毅
柯善风
-
机构
哈尔滨工业大学物联网与泛在智能中心
哈尔滨工业大学语言技术研究中心
北大荒信息有限公司
物联网智能技术工信部重点实验室
-
出处
《中文信息学报》
CSCD
北大核心
2023年第1期33-45,共13页
-
基金
2030—“新一代人工智能”重大项目(SQ2021AAA010643)
国家青年自然基金(NSFC62006063)
黑龙江省博士后自然基金(LBH-Z20015)。
-
文摘
农业书籍与网络知识库作为领域专家撰写的蕴含了大量农学常识与农事经验的数据源,具有高可信、知识丰富、结构规范等特点。为了挖掘此类文本源中的农学知识,该文讨论了农业命名实体和实体关系的相关问题,首次提出了主动学习与众包相结合的农业知识标注体系。在农学专家的指导和参与下,构建了包含9类实体以及15大类、37小类语义关系的多源农业知识标注语料库,其中农业书籍源共3.7万个实体、3.5万个实体关系,百度百科源含1.1万个实体以及1.5万个实体关系。在实验部分,我们利用标注一致性评价标准对比了两类数据源的标注质量,并从实体识别、关系抽取两个方面证明了主动学习能够节约标注成本、提升标注效率和模型训练效果,为后续研究打下了坚实基础。
-
关键词
语料构建
农业知识图谱
标注体系
-
Keywords
corpus construction
agricultural knowledge graph
annotation scheme
-
分类号
TP391
[自动化与计算机技术—计算机应用技术]
-