摘要
该文提出了可读性语料库构建的改进方法,基于该方法,构建了规模更大的汉语句子可读性语料库。该语料库在句子绝对难度评估任务上的准确率达到78.69%,相对前人工作提升了15%以上,证明了改进方法的有效性。同时,将深度学习方法应用于汉语可读性评估,探究了不同深度学习方法自动捕获难度特征的能力,并进一步探究了向深度学习特征中融入不同层面的语言难度特征对模型整体性能的影响。实验结果表明,不同深度学习模型捕获难度特征的能力不尽相同,语言难度特征可以不同程度地提高可读性评估模型的难度表征能力。
In this paper, an improved construction method of corpus with readability is proposed, and a large-scale Chinese sentence readability corpus is constructed. We then apply the deep learning method to the evaluation of the readability of Chinese sentence, and explores the influence of incorporating different levels of language difficulty features on the overall performance. The experimental results show that the accuracy of the absolute difficulty of sentences in this corpus reaches 78.69%, with an increase of 15% compared to the previous work.
作者
唐玉玲
张宇飞
于东
TANG Yuling;ZHANG Yufei;YU Dong(School of Information Science,Beijing Language and Culture University,Beijing 100083,China)
出处
《中文信息学报》
CSCD
北大核心
2022年第2期29-39,共11页
Journal of Chinese Information Processing
基金
国家社会科学基金(17ZDA305)
教育部人文社会科学研究青年基金(19YJCZH230)
北京语言大学中青年学术骨干支持计划。
关键词
深度学习
语言难度特征
句子可读性
deep learning
language difficulty characteristics
sentence readability