-
题名汉语学习者文本多维标注语料库建设
- 1
-
-
作者
王莹莹
孔存良
杨麟儿
胡韧奋
杨尔弘
孙茂松
-
机构
北京语言大学
北京师范大学
清华大学
-
出处
《语言文字应用》
北大核心
2023年第1期88-100,共13页
-
基金
国家语委科研中心重点项目“智能辅助汉语应用文写作研究”(ZDI135-131)
教育部中外语言交流合作中心2021年度项目“汉语学习者偏误多维度标注语料库建设”(YHJC21YB-129)
+1 种基金
北京语言大学语言资源高精尖创新中心项目“智能辅助汉语写作研究”(TYZ19005)
国家语言资源监测与研究平面媒体中心研究经费资助。
-
文摘
本研究以中介语多元对比分析的理论和方法为指引,以计算机智能辅助写作为导向,构建了一个大规模、高质量、篇章级别的汉语学习者文本多维标注语料库——YACLC。YACLC设计了一套多维度富信息标注体系,包括最小改动、流利度提升、句子可接受度、上下文依赖性四个维度,采用众包策略标注了2,421篇、32,124句语言使用场景下的汉语学习者文本,获取到331,292个最小改动标注句和137,708个流利提升标注句。YACLC的建设既解决了现有汉语学习者语料库语料来源封闭、标注结果单一和流利维度欠缺的问题,又为学界分析学习者语言与两个参照语变体三者之间的多元互动,揭示二语习得的规律提供了参考及扩展空间。
-
关键词
学习者语料库
流利度
众包
语法自动纠错
-
Keywords
learner corpus
fluency
crowdsourcing
grammatical error correction
contrastive interlanguage analysis
-
分类号
H087
[语言文字—语言学]
-