摘要
本研究开展对外汉语阅读材料难度评估,也称可读性研究,即应用特征结合机器学习的方法,通过计算机文本分析工具对六套对外汉语中高级上下册教材文章和阅读材料进行自然语言处理,提取文本中汉字、词语、句子、段落等影响文本可读性(难度)的不同维度特征,通过均匀分割的方法解决设置可读性取值标签的问题,并利用SVM算法进行回归建模。在独立的测试集上实验结果显示,相比SVM算法的分类方法,本研究提出的均匀标签后的回归方法具有显著更高的准确性。
出处
《中国教育信息化》
2018年第15期67-74,共8页
Chinese Journal of ICT in Education