期刊文献+

面向多领域多来源文本的汉语依存句法树库构建 被引量:7

Construction of Chinese Dependency Syntax Treebanks for Multi-domain and Multi-source Texts
下载PDF
导出
摘要 为了支持汉语句法分析研究,目前句法分析领域已经标注了多个汉语依存句法树库。然而,已有树库主要针对较规范文本,而对各种网络文本如博客、微博、微信等考虑较少。为此,该文基于近期研制的标注规范及可视化在线标注系统,开展了大规模数据标注。聘请了15名兼职标注者,并采用严格的标注流程保证标注质量,目前,已经标注了约3万句的汉语依存句法树库,其中包含约1万句淘宝头条文本。该文重点介绍了数据选取、标注流程等问题,并详细分析了标注准确率、一致性和标注数据的分布情况。未来将继续对多领域多来源文本进行标注,扩大树库规模,并以合适的方式公开相应的标注数据。 The existing Chinese dependency treebanks are mainly annotated for canonical texts,and give little consideration to web texts,such as blogs,WeiBo,and WeChat.This paper presents a large-scale tree-bank annotation,based on the recently designed annotation guideline and online annotating system.Altogether 15 part-time annotators are involved and a strict annotation procedure is applied to guarantee the quality.So far,we have annotated about 30,000 Chinese sentences with their dependency syntax trees,including about 10,000 sentences from Taobao headline texts.This paper describes the details in data selection and annotation workflow.We also analyze the annotation accuracy,inter-annotator consistency,and distribution of annotated data.
作者 郭丽娟 彭雪 李正华 张民 GUO Lijuan;PENG Xue;LI Zhenghua;ZHANG Min(School of Computer Science and Technology,Soochow University,Suzhou,Jiangsu 215006,China)
出处 《中文信息学报》 CSCD 北大核心 2019年第2期34-42,共9页 Journal of Chinese Information Processing
基金 国家自然科学基金(61876116 61673289) 江苏省高校自然科学研究重大项目(16KJA520001)
关键词 依存句法 树库构建 多领域多来源文本 dependency syntax treebank construction multi-domain and multi-source texts
  • 相关文献

参考文献4

二级参考文献74

共引文献106

同被引文献69

引证文献7

二级引证文献48

相关作者

内容加载中请稍等...

相关机构

内容加载中请稍等...

相关主题

内容加载中请稍等...

浏览历史

内容加载中请稍等...
;
使用帮助 返回顶部